最近一兩年短視頻業(yè)務(wù)風(fēng)生水起,各個(gè)視頻網(wǎng)站都有各自特色的短視頻內(nèi)容。如果有這樣一個(gè)程序,可以把各大視頻網(wǎng)站的熱門用戶最新發(fā)布的視頻都下載下來,不僅方便自己觀看,還可以將沒有版權(quán)的視頻發(fā)布在個(gè)人社交網(wǎng)站上,增加自己的人氣,豈不美哉?
parker就是這樣一個(gè)項(xiàng)目(項(xiàng)目地址:https://github.com/LiuRoy/parker),它采用celery框架定時(shí)爬取用戶視頻列表,將最新發(fā)布的視頻通過you-get異步下載,可以很方便地實(shí)現(xiàn)分布式部署。因?yàn)楦鱾€(gè)網(wǎng)站的頁面布局和接口更新比較頻繁,為了保證程序的高可用,特意增加了Statsd監(jiān)控,方便及時(shí)發(fā)現(xiàn)出錯(cuò)。
代碼架構(gòu)
目前parker中只實(shí)現(xiàn)了B站和秒拍的下載,從框架圖可以看出,針對每一類網(wǎng)站,需要實(shí)現(xiàn)兩個(gè)異步接口:從用戶視頻主頁解析發(fā)布視頻的播放地址、根據(jù)播放地址下載視頻。因此增加網(wǎng)站類型,不需要修改原來的代碼,只需要添加新的解析和下載接口即可。針對視頻下載完成之后的后續(xù)操作,我還沒有實(shí)現(xiàn),大家可以根據(jù)自己的需求自由的去實(shí)現(xiàn)。
在運(yùn)行的時(shí)候,celery會(huì)將配置好的優(yōu)質(zhì)用戶列表定時(shí)發(fā)送到對應(yīng)網(wǎng)站的解析接口異步執(zhí)行,篩選出最新發(fā)布的視頻播放地址,交給對應(yīng)的下載接口異步下載,下載完成之后再異步調(diào)用后續(xù)操作。因此需要啟動(dòng)一個(gè)celery beat進(jìn)程發(fā)送定時(shí)任務(wù),以及若干celery異步任務(wù)去執(zhí)行解析和下載操作,對于比較大的視頻,下載會(huì)相當(dāng)耗時(shí),建議根據(jù)任務(wù)列表的多少合理分配異步任務(wù)的個(gè)數(shù)。
程序運(yùn)行
經(jīng)驗(yàn)證,此程序可以在ubuntu和mac下正常運(yùn)行, 由于本地windows下的celery無法正常啟動(dòng),所以沒有在windows環(huán)境做過驗(yàn)證。
依賴庫安裝
python版本為3.5,進(jìn)入項(xiàng)目目錄后,執(zhí)行:
pip install -r requirements.txt
創(chuàng)建數(shù)據(jù)庫表
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動(dòng)安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26