摘要
上一篇以知乎網(wǎng)為例簡(jiǎn)單分享網(wǎng)絡(luò)請(qǐng)求分析。這一篇主要分享一種應(yīng)對(duì)反爬蟲的方法,前端數(shù)據(jù)混淆。
目的
之前寫https://github.com/wycm/zhihu-crawler項(xiàng)目的時(shí)候,需要用到免費(fèi)的http代理,然后找到了這個(gè) http://www.goubanjia.com/ 這個(gè)網(wǎng)站?,F(xiàn)在需要把這個(gè)網(wǎng)站上的ip和port爬取下來(lái),有興趣的朋友也可以嘗試自己爬取一下。
開始
打開這個(gè)網(wǎng)站首頁(yè),然后控制臺(tái)查看ip和port的對(duì)應(yīng)標(biāo)簽。
如上圖(圖一),從控制臺(tái)的標(biāo)簽中可以看出ip加了一些無(wú)關(guān)不顯示的標(biāo)簽來(lái)混淆數(shù)據(jù),這里混淆的原理其實(shí)很簡(jiǎn)單,通過(guò)標(biāo)簽的
style="display:none"
屬性來(lái)達(dá)到混淆的目的,也就是包含這個(gè)屬性的標(biāo)簽是不會(huì)顯示在頁(yè)面上的。知道了這一點(diǎn)就比較好處理了,只需要在解析的時(shí)候把包含style="display:none"
屬性的標(biāo)簽去掉。就可以輕松的拿到ip和port數(shù)據(jù)了。代碼如下
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動(dòng)安全 [無(wú)線安全]玩轉(zhuǎn)無(wú)線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識(shí)別反義詞同義詞 2017-07-26
- 從棧不平衡問(wèn)題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來(lái)看看(二) 2017-07-26