分類導航

Python爬蟲實戰(zhàn)---抓取圖書館借閱信息

發(fā)布時間：2017年03月20日作者：文章轉(zhuǎn)自網(wǎng)絡，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來自筆記，點擊查看原文)

前段時間在圖書館借了很多書，借得多了就容易忘記每本書的應還日期，老是擔心自己會違約，影響日后借書，而自己又懶得總是登錄到學校圖書館借閱系統(tǒng)查看，于是就打算寫一個爬蟲來抓取自己的借閱信息，把每本書的應還日期給爬下來，并寫入txt文件，這樣每次忘了就可以打開該txt文件查看，每次借閱信息改變了，只要再重新運行一遍該程序，原txt文件就會被新文件覆蓋，里面的內(nèi)容得到更新。

用到的技術：　　

　　Python版本是 2.7 ，同時用到了urllib2、cookielib、re三個模塊。urllib2用于創(chuàng)建請求(request)，并抓取網(wǎng)頁信息，返回一個類似于文件類型的response對象；cookielib用于儲存cookie對象，以實現(xiàn)模擬登錄功能；re模塊提供對正則表達式的支持，用于對抓取到的頁面信息進行匹配，以得到自己想要的信息。

抓取一個頁面：　　

　　使用urllib2簡單抓取一個網(wǎng)頁的過程非常簡單：

1 import urllib22 response = urllib2.urlopen("http://www.baidu.com")3 html = response.read()

　　urllib2中的urlopen()方法，看其字面意思就知道是打開一個URL(uniform resource locator)地址，上面例子傳入的時百度首頁的地址，遵循HTTP協(xié)議，除了http協(xié)議外，urlopen()方法還可以打開遵循ftp、file協(xié)議的地址，如：

1 response = urllib2.urlopen("ftp://example.com")

　　除URL參數(shù)外，urlopen()方法還接受data和timeout參數(shù)：

1 response = urllib2.urlopen(url ,data ,timeout)

　　其中data是打開一個網(wǎng)頁時

我想了解如何學習

分類導航

Python爬蟲實戰(zhàn)---抓取圖書館借閱信息

延伸閱讀

我想了解如何學習