前段時間在圖書館借了很多書,借得多了就容易忘記每本書的應還日期,老是擔心自己會違約,影響日后借書,而自己又懶得總是登錄到學校圖書館借閱系統(tǒng)查看,于是就打算寫一個爬蟲來抓取自己的借閱信息,把每本書的應還日期給爬下來,并寫入txt文件,這樣每次忘了就可以打開該txt文件查看,每次借閱信息改變了,只要再重新運行一遍該程序,原txt文件就會被新文件覆蓋,里面的內(nèi)容得到更新。

用到的技術:  

  Python版本是 2.7 ,同時用到了urllib2、cookielib、re三個模塊。urllib2用于創(chuàng)建請求(request),并抓取網(wǎng)頁信息,返回一個類似于文件類型的response對象;cookielib用于儲存cookie對象,以實現(xiàn)模擬登錄功能;re模塊提供對正則表達式的支持,用于對抓取到的頁面信息進行匹配,以得到自己想要的信息

抓取一個頁面:  

  使用urllib2簡單抓取一個網(wǎng)頁的過程非常簡單:

1 import urllib22 response = urllib2.urlopen("http://www.baidu.com")3 html = response.read()

   urllib2中的urlopen()方法,看其字面意思就知道是打開一個URL(uniform resource locator)地址,上面例子傳入的時百度首頁的地址,遵循HTTP協(xié)議,除了http協(xié)議外,urlopen()方法還可以打開遵循ftp、file協(xié)議的地址,如:

1 response = urllib2.urlopen("ftp://example.com")

  除URL參數(shù)外,urlopen()方法還接受data和timeout參數(shù):

1 response = urllib2.urlopen(url ,data ,timeout)

  其中data是打開一個網(wǎng)頁時