17 lines (8 loc) · 520 Bytes

Crawler

前幾天看到有人用 node.js 寫一個爬蟲續抓取 decard 的功能。因此就直接套用 crawler4j 寫一個類似的功能。

由於幾乎沒什麼需要特別處理的，所以就不多做介紹了。

簡單用法

直接執行 ImageCrawlController 這裡頭的 main 方法即可。

ImageCrawlController 中的 crawlDomains 是用來存放要爬的網頁。

如果有一些爬取網頁的邏輯需要調整，主要是修改 MyCrawler。

End