上一回[Python][教學] 網路爬蟲(crawler)進階實務– 自動爬蟲(一)介紹了怎麼繼承已經寫好的CrawlSpider物件來達到根據規則自動爬網頁的效果,但是如果你要爬的分頁沒有特定的規則,或是只想抓取頁面中的特定連結又該如何處理呢?
前面幾篇[Python][教學] 網路爬蟲(crawler)實務(上)–網頁元件解析和[Python][教學] 網路爬蟲(crawler)實務(下)–爬蟲策略以及設定介紹了撰寫爬蟲程式基本的觀察以及實作方式.這樣的方式爬一兩個小網站還可以,但是如果要爬比較複雜或是多個網站就比較難維護.因此實務上比較常使用Scrapy這個爬蟲框架來處理,這次將介紹更進階的使用方法給各位.
在知道目標之後,接著就要決定如何達成。網路爬蟲的概念很簡單,就是進入網頁之後,將網站中的原始碼擷取下來,透過Xpath或是Html節點的方式來找到目標字串。