EasySpider是一款完全免費和開源的可視化爬蟲軟件,此軟件可以讓大家使用圖形化界面,無代碼可視化的設計和執行爬蟲任務。
只需要在網頁上選擇自己想要爬的內容並根據提示框操作即可完成爬蟲設計和執行。同時軟件還可以直接在命令行中通過傳參的方式執行,從而可以很方便的嵌入到其他系統中。
V0.3.0版本新增的功能,包括下載圖片,元素截圖,執行任意JS指令和系統命令,通過JS代碼進行條件判斷,OCR識別等等功能,想要的功能應有盡有,而且這些功能完全免費! ! !
以下是示例界面:
下載EasySpider
進入Releases Page:https://github.com/NaiboWang/EasySpider/releases 下載最新版本。
視頻教程
1. EasySpider介紹- 中國地震台網採集案例:https://www.bilibili.com/video/BV1Fk4y1L7xX/
2. 如何無代碼可視化的爬取需要登錄才能爬的網站- 知乎網站案例:https://www.bilibili.com/video/BV1HV4y1r7v8
3.【重要】自定義條件判斷之使用循環項內的JS命令返回值:https://www.bilibili.com/video/BV1mu411x7Nn/
4. 流程圖執行邏輯解析- 58同城房源描述採集案例:https://www.bilibili.com/video/BV1YL411z7uW
5. MacOS系統設計和執行eBay網站爬蟲任務教程:https://www.bilibili.com/video/BV1WL411h71r
6. 如何執行自己寫的JS代碼和系統代碼(自定義操作):https://www.bilibili.com/video/BV1qs4y1z7Hc/
7. 如何自定義循環和判斷條件- 第一彈:https://www.bilibili.com/video/BV1Ys4y1z777/
8. 如何對元素和網頁截圖及命令行執行指南:https://www.bilibili.com/video/BV1dV4y1z764/
9. OCR識別元素內容功能:https://www.bilibili.com/video/BV1xz4y1b72D/
10. 如何爬需要輸入驗證碼的網站:https://www.bilibili.com/video/BV18c411K7FH
11. 如何切換IP池和使用隧道IP – 打開詳情頁採集案例:https://www.bilibili.com/video/BV1KT411t79n
文檔
請點此進入教程文檔,如有英文可暫時翻譯一下,或看作者的碩士畢業論文(主要看第三章和第五章)。
Documentation can be found from GitHub Wiki.
為什麼要用EasySpider
相比其他可視化爬蟲軟件,EasySpider有以下優勢:
1. 代碼開源,因此可以進行二次開發。
2. 完全免費,不同於八爪魚等軟件的“免費”,EasySpider是一個無需登錄,無限多開,無限機器部署的軟件,不需要向作者本人支付一分錢。 (當然,EasySpider受到專利保護,因此如果要商用,還請聯繫浙江大學天道專利事務所)。相比之下,其他軟件的免費有諸多限制,具體可以看他們的價格詳情頁。
3. 安全,所有信息完全保存在用戶本地,包括任務和採集的數據,不用擔心數據洩露問題。
4. 跨平台:同時支持Windows,Linux和MacOS。
5. 速度快,通常一個爬蟲任務只需要2-5分鐘即可設計完成,採集速度也快,通常取決於具體機器環境。
6. 更加靈活,保存的瀏覽器配置信息更多,最重要的是可擴展,自由的安裝各種插件,比如驗證碼識別插件。
7. 可以直接以命令行的方式執行,無限部署在任何想要部署的機器中。
8. 可以在任務流程中執行自定義的指令,包括JavaScript指令以及系統級別指令,這個是目前所有的可視化爬蟲軟件都做不到或者不願意做的事情。
9. V0.3.0版本新增的功能,包括元素截圖,執行任意JS指令和系統命令,OCR識別等等功能,想要的功能應有盡有,而且這些功能完全免費! ! !
從需求導向來說,爬蟲算是一項基本的需求,我們經常需要去爬一些網上的信息,比如對於科研工作者,爬取維基百科語料庫進行訓練是做NLP的同學經常做的事情;做社交網絡分析的同學經常需要爬取Twitter和微博的信息;做推薦系統的同學會去爬購物網站的信息等等。市面上爬蟲需求很多,這裡就不在贅述了。有了EasySpider,不管大家之前會不會寫爬蟲,現在都可以不需要費心費力的寫代碼了。
#EasySpider首頁文檔和下載 #可視化爬蟲軟件 #程式开发