Thursday, October 11, 2018

Python - 學會了 data scraping

Data Scraping 意思指從網路上獲取數據,而我o既玩法差唔多係等如 WYSIWYG。

本來要用 browser 逐條 link click 入去先睇到,家陣原來啲 programming 好很方便,有齊晒 module 俾你 remote control 一個 browser 去瀏覽網站,繼而透過獲取返嚟o既 HTML 再做分析,只抽取有用的部分為己用。而當中有一個叫 Selenium o既 package,佢可以好有效咁抽取 HTML 中的某啲 element(s),咁喺個 program 入邊做咩都得喇。

最過癮o既地方係,佢可以模擬返你瀏覽o既動作去 click,入 username 或者 password,針對動態改變o既內容網站就得心應手。如果只針對靜態網站,我估用 beautifulsoup 可能會仲快手啲。

我o既用途除咗想 scrap 吓 craigslist 之外,仲想 download 翻報紙啲文章留為己用。

真係比我整到個小 program 喎,好過癮。

No comments: