寧肯像種子一樣等待也不愿像疲憊的陀螺旋轉(zhuǎn)得那樣勉強

發(fā)布時間：2016年12月16日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除

　　以前也用過爬蟲，比如使用nutch爬取指定種子，基于爬到的數(shù)據(jù)做搜索，還大致看過一些源碼。當(dāng)然，nutch對于爬蟲考慮的是十分全面和細(xì)致的。每當(dāng)看到屏幕上唰唰過去的爬取到的網(wǎng)頁信息以及處理信息的時候，總感覺這很黑科技。正好這次借助梳理Spring MVC的機會，想自己弄個小爬蟲，簡單沒關(guān)系，有些小bug也無所謂，我需要的只是一個能針對某個種子網(wǎng)站能爬取我想要的信息就可以了。有Exception就去解決，可能是一些API使用不當(dāng)，也可能是遇到了http請求狀態(tài)異常，又或是數(shù)據(jù)庫讀寫有問題，就是在這個報exception和解決exception的過程中，JewelCrawler（兒子的小名）已經(jīng)可以能夠獨立的爬取數(shù)據(jù)，并且還有一項基于Word2Vec算法做個情感分析的小技能。

　　后面可能還會有未知的Exception等著解決，也有一些性能需要優(yōu)化，比如和數(shù)據(jù)庫的交互，數(shù)據(jù)的讀寫等等。但是目測年內(nèi)沒有太多精力放這上面了，所以今天做一個簡單的總結(jié)，而且前兩篇主要側(cè)重的是功能和結(jié)果，這篇來說說JewelCrawler是如何誕生的，并將代碼放到Github上（源碼地址在文章最后），有興趣的可以關(guān)注下（僅供交流學(xué)習(xí)，請勿他用，考慮下douban君。多一點真誠，少一點傷害）

環(huán)境介紹

　　開發(fā)工具：Intellij idea 14

　　數(shù)據(jù)庫: Mysql 5.5 + 數(shù)據(jù)庫管理工具Navicat（可用來連接查詢數(shù)據(jù)庫）

iOS培訓(xùn),Swift培訓(xùn),蘋果開發(fā)培訓(xùn),移動開發(fā)培訓(xùn)

分類導(dǎo)航

寧肯像種子一樣等待也不愿像疲憊的陀螺旋轉(zhuǎn)得那樣勉強

網(wǎng)友評論

更多精彩分享

分類導(dǎo)航

寧肯像種子一樣等待 也不愿像疲憊的陀螺 旋轉(zhuǎn)得那樣勉強

網(wǎng)友評論

更多精彩分享

寧肯像種子一樣等待也不愿像疲憊的陀螺旋轉(zhuǎn)得那樣勉強