分類導(dǎo)航

從零實現(xiàn)一個高性能網(wǎng)絡(luò)爬蟲（一）網(wǎng)絡(luò)請求分析及代碼實現(xiàn)

發(fā)布時間：2017年05月06日作者： IT網(wǎng)絡(luò)文摘 (該文來自筆記，點(diǎn)擊查看原文)

摘要

從零實現(xiàn)一個高性能網(wǎng)絡(luò)爬蟲系列教程第一篇，后續(xù)會有關(guān)于url去重、如何反爬蟲、如何提高抓取效率、分布式爬蟲系列文章。
以我寫的一個知乎爬蟲為Demo講解,github地址 (https://github.com/wycm/zhihu-crawler) ,有興趣的朋友可以star下。
網(wǎng)絡(luò)請求的分析是寫網(wǎng)絡(luò)爬蟲非常關(guān)鍵且重要的一個步驟。這篇文章以知乎網(wǎng)站為例，從網(wǎng)絡(luò)請求分析到代碼(java)實現(xiàn)。

目的

獲取某個知乎用戶的所有關(guān)注用戶的個人資料

請求分析

就目前的大部分網(wǎng)頁來說，網(wǎng)頁上能看到的數(shù)據(jù)大多都是直接在網(wǎng)站后臺生成好數(shù)據(jù)(有的網(wǎng)頁是在網(wǎng)站前端通過js代碼處理后顯示,如數(shù)據(jù)混淆、加密等)直接在前臺顯示。
雖然很多網(wǎng)站采用了ajax異步加載，但是歸根結(jié)底它還是一個http請求。只要能夠分析出對應(yīng)數(shù)據(jù)的請求來源，那么就很容易的拿到你想要的數(shù)據(jù)了。以下步驟講解如何分析http請求。

以我的知乎賬戶為例，獲取我的所有關(guān)注用戶資料。首先打開我的關(guān)注列表，可以看到主面板就是我的關(guān)注用戶列表，
我一共關(guān)注233個用戶，現(xiàn)在目的是就是要獲取這233個用戶的個人資料信息。打開F12->NetWork,勾選上Preserve log和Disable cache（如下圖）。
下拉滾動條，點(diǎn)擊下一頁獲取對應(yīng)請求(在翻頁的過程會有很多無關(guān)的請求),待頁面加載完成后，在請求列表中右鍵->Save as HAR with content，這個文件是把當(dāng)前請求(request)列
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題理解 calling convention 2017-07-26
- php imagemagick 處理圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26
學(xué)習(xí)是年輕人改變自己的最好方式

分類導(dǎo)航

從零實現(xiàn)一個高性能網(wǎng)絡(luò)爬蟲（一）網(wǎng)絡(luò)請求分析及代碼實現(xiàn)

摘要

目的

請求分析

延伸閱讀

我想了解如何學(xué)習(xí)