爬蟲(chóng)系統(tǒng)升級(jí)改造正式啟動(dòng):
在第一篇文章,博主主要介紹了本次改造的爬蟲(chóng)系統(tǒng)的業(yè)務(wù)背景與全局規(guī)劃構(gòu)思:
未來(lái)Support云系統(tǒng),不僅僅是爬蟲(chóng)系統(tǒng),是集爬取數(shù)據(jù)、數(shù)據(jù)建模處理統(tǒng)計(jì)分析、支持全文檢索資源庫(kù)、其他業(yè)務(wù)部門和公司資訊系統(tǒng)重要數(shù)據(jù)來(lái)源、輔助決策等功能于一身的企業(yè)級(jí)Support系統(tǒng)。
介于好多園友對(duì)博主的任務(wù)排期表感興趣,便介紹一下博主當(dāng)時(shí)針對(duì)這個(gè)系統(tǒng)做的工作任務(wù)排期概要(排期表就是更加詳細(xì)細(xì)分外加估算工時(shí)的一份excel表格,就不貼出來(lái)了):
1.總分四大階段,逐步上線,最終達(dá)到預(yù)期規(guī)劃
2.第一階段實(shí)現(xiàn)一個(gè)新的采集系統(tǒng),自動(dòng)實(shí)時(shí)化爬取數(shù)據(jù)、初步規(guī)則引擎實(shí)現(xiàn)數(shù)據(jù)規(guī)則化、統(tǒng)計(jì)郵件自動(dòng)推送、開(kāi)放數(shù)據(jù)檢索,并上線替換原有爬蟲(chóng)系統(tǒng)
3.第二階段實(shí)現(xiàn)規(guī)則化引擎升級(jí),擴(kuò)展成長(zhǎng)式規(guī)則引擎,并開(kāi)放采集源提交、管理、規(guī)則配置、基礎(chǔ)數(shù)據(jù)服務(wù)等基本系統(tǒng)操作
4.第三階段引入全文檢索,針對(duì)規(guī)則化數(shù)據(jù)創(chuàng)建索引,提供數(shù)據(jù)全文搜索功能,開(kāi)放工單申請(qǐng),可定制數(shù)據(jù)報(bào)告
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動(dòng)安全 [無(wú)線安全]玩轉(zhuǎn)無(wú)線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識(shí)別反義詞同義詞 2017-07-26
- 從棧不平衡問(wèn)題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來(lái)看看(二) 2017-07-26