
你有否想過,為何Google總是可在幾秒內找到你想要的網站?為何比價網站可以一下子列出不同商店價格?在畫面背後,其實有一群看不見的小幫手,叫「網頁爬蟲」。它們就像在網絡世界四處奔走的「資料採集員」,自動幫我們把有用資訊找回來、整理好,讓我們享受又快又方便的網絡服務。
你可以把網頁爬蟲想像成一個勤力、聽話的小助理。平時我們看網頁,是打開瀏覽器、輸入網址、按下Enter,網頁就會出現;而爬蟲做的亦是同一件事,只是它可以超高速、連續不斷地重複這個動作,並完全自動化。
網頁爬蟲在生活中的應用
其實很多網站背後都在用爬蟲,只是你沒留意。例如當你想買手機,可到Price.com.hk等比價網站一次過顯示不同商店的售價和優惠,這並不是有人天天手動抄價錢,而是有爬蟲定時到各大購物網站「巡邏」,把最新商品資料和價格帶回來,幫你找到最抵買選擇。
看新聞也一樣,當你打開新聞App,會看到來自多間媒體的頭條整齊排在一起,因爬蟲在背後已不斷去各新聞網站把最新文章帶回來,並集中放在同一平台裡,讓你不用逐個網站點開。
探索資料「一網打盡」
又例如訂機票、酒店時,用Skyscanner、Agoda等訂票網站,它們能同時比較多間航空公司和酒店的時段及價錢。其背後就是用爬蟲不斷去各官方網站「查價」,再把資料抓回來排好,讓你一目了然哪間最便宜。找工作、找房子也一樣,平台如JobsDB、28hse,除可由公司或中介上載資料外,也會用爬蟲去其他網站收集職位或樓盤資訊,讓你「一網打盡」。
網頁爬蟲就像一把打開「資料寶庫」的鑰匙,可從看似雜亂的網絡世界中整理出對你有用的資訊。當你發現原來搜尋引擎、比價網站、訂票平台都是這樣運作時,其實你也可以動手做一個簡單爬蟲,為工作或興趣收集資料。只要記得尊重網站和別人權益,爬蟲就會成為你在大數據時代裡,一個既好玩又實用的小助手。
文:Kent Chan
FevaWorks導師