本文將介紹python里常用的模塊。如未特殊說(shuō)明,所有示例均以python3.4為例:

$ python -VPython 3.4.3

網(wǎng)絡(luò)請(qǐng)求

urllib

urllib提供了一系列用于操作URL的功能。通過(guò)urllib我們可以很方便的抓取網(wǎng)頁(yè)內(nèi)容。

抓取網(wǎng)頁(yè)內(nèi)容

# coding: utf-8import urllib.request

url = 'https://api.douban.com/v2/book/2129650'with urllib.request.urlopen(url) as f:
    headers = f.getheaders() # 報(bào)文頭部
    body = f.read() # 報(bào)文內(nèi)容

    print(f.status, f.reason) # 打印狀態(tài)碼、原因語(yǔ)句
    for k,v in headers:
        print(k + ': ' + v)

    print(body.decode('utf-8'))

抓取百度搜索圖片

import urllib.requestimport osimport reimport time
url=r'http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1488722322213_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%A3%81%E7%BA%B8%E5%B0%8F%E6%B8%85%E6%96%B0&f=3&oq=bizhi%E5%B0%8F%E6%B8%85%E6%96%B0&rsp=0'imgPath=r'E:\img'if not os.path.isdir(imgPath):
    os.mkdir(imgPath)

imgHtml=urllib.request.urlopen(url).read().decode('utf-8')#test html#print(imgHtml)urls=re