[DotnetSpider 系列目錄]
如何做全站采集?
很多同學(xué)加群都在問, 如何使用DotnetSpider做全站采集呢? 其實(shí)很簡單, 只要你們想通爬蟲的整個(gè)邏輯就能明白了。簡而言之,步驟如下:
1. 使用指定URL下載HTML
2. 分析, 保存HTML數(shù)據(jù)
3. 從HTML中分析出符合規(guī)則的新的URL, 并用新URL重復(fù) 1,2,3步驟, 直到再也無法發(fā)現(xiàn)新的URL
邏輯是簡單的, 但其中涉及到的細(xì)節(jié)不少,如多線程、URL去重、遍歷深度等, 但是不用擔(dān)心, 這些也正是框架應(yīng)該去做的事情, 大家只需要關(guān)注業(yè)務(wù)邏輯就好。