爬取的思路
首先我們應該找到一個賬號,這個賬號被關注的人和關注的人都相對比較多的,就是下圖中金字塔頂端的人,然后通過爬取這個賬號的信息后,再爬取他關注的人和被關注的人的賬號信息,然后爬取被關注人的賬號信息和被關注信息的關注列表,爬取這些用戶的信息,通過這種遞歸的方式從而爬取整個知乎的所有的賬戶信息。整個過程通過下面兩個圖表示:
爬蟲分析過程
這里我們找的賬號地址是:https://www.zhihu.com/people/excited-vczh/answers
我們抓取的大V賬號的主要信息是:
其次我們要獲取這個賬號的關注列表和被關注列表