馬上5月份有個(gè)軟件專業(yè)等級(jí)考試,以下簡稱軟考,為了更好的復(fù)習(xí)備考,我打算抓取www.rkpass.com網(wǎng)上的軟考試題。

以上為背景。

很久沒有更新博客園的博客了,所以之前的代碼沒有及時(shí)的貼出來,咱們就從今天開始,講述一下我爬取軟考試題的故(keng)事(shi)。現(xiàn)在我已經(jīng)能自動(dòng)抓取某一個(gè)模塊的所有題目了,如下圖:

Android培訓(xùn),安卓培訓(xùn),手機(jī)開發(fā)培訓(xùn),移動(dòng)開發(fā)培訓(xùn),云培訓(xùn)培訓(xùn)

 目前可以將信息系統(tǒng)監(jiān)理師的30條試題記錄全部抓取下來,結(jié)果如下圖所示:

Android培訓(xùn),安卓培訓(xùn),手機(jī)開發(fā)培訓(xùn),移動(dòng)開發(fā)培訓(xùn),云培訓(xùn)培訓(xùn)抓取下來的內(nèi)容圖片:

Android培訓(xùn),安卓培訓(xùn),手機(jī)開發(fā)培訓(xùn),移動(dòng)開發(fā)培訓(xùn),云培訓(xùn)培訓(xùn)

雖然可以將部分信息抓取下來,但是代碼的質(zhì)量并不高,以抓取信息系統(tǒng)監(jiān)理師為例,因?yàn)槟繕?biāo)明確,各項(xiàng)參數(shù)清晰,為了追求能在短時(shí)間內(nèi)抓取到試卷信息,所以并沒有做異常處理,昨天晚上填了很久的坑。

回到主題,今天寫這篇博客,是因?yàn)橛钟龅叫驴恿?。從博客?biāo)題我們可以猜出個(gè)大概,肯定是請(qǐng)求次數(shù)過多,所以ip被網(wǎng)站的反爬蟲機(jī)制給封了。

Android培訓(xùn),安卓培訓(xùn),手機(jī)開發(fā)培訓(xùn),移動(dòng)開發(fā)培訓(xùn),云培訓(xùn)培訓(xùn)

網(wǎng)友評(píng)論