從這里開始,就開始接觸使用分布式系統(tǒng)處理大數據了。在處理大數據之前,需要有一個場景,否則技術工具無法嵌入現實當中,價值就會降低。我碰到的場景應該還是比較具有普遍性,因此大家可以在我的場景里先玩一遍,熟悉一下流程和方法,然后加以改造,加載到自己的場景和環(huán)境中。
場景:在一個大型公司內部,終端和各個業(yè)務系統(tǒng)之間的數據傳輸都通過網絡進行。出于監(jiān)控的要求,需要在網絡上獲取所有數據包,并查看數據包里是否含有某些關鍵字。如果含有某些關鍵字,證明終端和業(yè)務系統(tǒng)間正在進行某種操作。系統(tǒng)記錄下這些操作,用于實時顯示或統(tǒng)計使用。
這其實就是“行為數據”的采集和記錄,是典型的大數據處理場景。
擴展一下,將該場景所使用的技術和工具加載到互聯網或APP上,就可以在不改動任何業(yè)務系統(tǒng)、在用戶無感知的情況下,采集用戶的行為數據并加以利用,形成用戶習慣數據。當然,也可以通過“埋點”的方式進行,但改動業(yè)務系統(tǒng)不要花錢嘛,能省一點是一點。
網絡數據的獲取。網絡數據通過網絡設備的“鏡像口”獲得。鏡像口的設置可以讓網管幫忙,一般可網管交換機都可以做到,思科、華三、邁普這些都沒啥問題。通過鏡像口獲取網絡數據,就可以在各個業(yè)務系統(tǒng)和用戶無感知的情況下獲取所有的數據了。當然,如果公司或者系統(tǒng)在傳輸時使用https等加密手段,這個就沒辦法了。不過一般公司很少在內網傳輸時加密。
結構如下(畫功實在是感人):