分類導(dǎo)航

Python爬蟲小白入門（三）BeautifulSoup庫

發(fā)布時(shí)間：2017年04月13日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除

一、前言

上一篇演示了如何使用requests模塊向網(wǎng)站發(fā)送http請(qǐng)求，獲取到網(wǎng)頁的HTML數(shù)據(jù)。這篇來演示如何使用BeautifulSoup模塊來從HTML文本中提取我們想要的數(shù)據(jù)。

update on 2016-12-28：之前忘記給BeautifulSoup的官網(wǎng)了，今天補(bǔ)上，順便再補(bǔ)點(diǎn)BeautifulSoup的用法。

我的運(yùn)行環(huán)境如下：

系統(tǒng)版本
Windows10。
Python版本
Python3.5，推薦使用Anaconda 這個(gè)科學(xué)計(jì)算版本，主要是因?yàn)樗詭б粋€(gè)包管理工具，可以解決有些包安裝錯(cuò)誤的問題。去Anaconda官網(wǎng)，選擇Python3.5版本，然后下載安裝。
IDE
我使用的是PyCharm，是專門為Python開發(fā)的IDE。這是JetBrians的產(chǎn)品，點(diǎn)我下載。