[DotnetSpider 系列目錄]
如何做全站采集?
很多同學加群都在問, 如何使用DotnetSpider做全站采集呢? 其實很簡單, 只要你們想通爬蟲的整個邏輯就能明白了。簡而言之,步驟如下:
1. 使用指定URL下載HTML
2. 分析, 保存HTML數(shù)據(jù)
3. 從HTML中分析出符合規(guī)則的新的URL, 并用新URL重復 1,2,3步驟, 直到再也無法發(fā)現(xiàn)新的URL
邏輯是簡單的, 但其中涉及到的細節(jié)不少,如多線程、URL去重、遍歷深度等, 但是不用擔心, 這些也正是框架應該去做的事情, 大家只需要關注業(yè)務邏輯就好。
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍牙鎖 2017-07-26
- 消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動安全 Android端惡意鎖屏勒索應用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26