閑來無事,想要學(xué)習(xí)一下Python,十月初的時候搭好了ubuntu的環(huán)境,用的是Ubuntu 16.04 32位+sublime Text3,輕量級的編程環(huán)境,感覺用起來還是比較舒服的。也陸陸續(xù)續(xù)地學(xué)習(xí)了一下python的語法和相關(guān)的知識點,并沒有感覺到python有什么特別的地方,數(shù)據(jù)結(jié)構(gòu)中的列表,元組和字典,還沒有感到其特點在哪里比較明顯,只是一個數(shù)據(jù)結(jié)構(gòu)而已。恰好學(xué)院老師讓搜集就業(yè)相關(guān)信息,所以就想嘗試去先寫一個爬蟲,爬一下相關(guān)網(wǎng)站的相關(guān)鏈接。先提起興趣,再去學(xué)習(xí)枯燥的知識點。
一開始以為會是很大的工程量,周五下午回到宿舍就開始查相關(guān)資料,看了一下鏈接,先Mark一下:汪海的實驗室,很多筆記,感覺應(yīng)該專業(yè)人士,而且很巧也是山大畢業(yè)的??吹搅艘粋€比較簡單的教程,利用審查元素和一個python的requests模塊發(fā)送請求,然后利用pyquery模塊來解析數(shù)據(jù)。當(dāng)然,具體的jquery語法是什么樣的我還是不清楚的=,=。教程中大體的思路就是在審查元素中,先定位自己想要爬取信息的位置,找到div的id,再找到具體的標(biāo)簽,然后就獲取到了標(biāo)題。當(dāng)然獲取的是一個列表數(shù)據(jù),不僅僅可以找出標(biāo)題,也可以提取出來鏈接。具體代碼和效果如下圖所示:
當(dāng)然,和教程還是有一點不一樣的,教程中是先定位了模塊的id,但是我們學(xué)校的就業(yè)信息網(wǎng)列表那里并沒有模塊的id,所以嘗試直接取獲取鏈接文本所在模塊的信息。獲取得到的內(nèi)容除了我想要的東西意外還有奇奇怪怪的東西,后來查了一下模塊的id是唯一的,但是模塊下的子名字是可以重復(fù)的,因為獲取的是列表,并且信息的格式基本上是固定的,所以直接獲取列表的一個子表就可以了,當(dāng)然=,=不懂html的我是不了解具體原因的。。
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26