概要:在使用storm分布式計(jì)算框架進(jìn)行數(shù)據(jù)處理時(shí),如何保證進(jìn)入storm的消息的一定會(huì)被處理,且不會(huì)被重復(fù)處理。這個(gè)時(shí)候僅僅開啟storm的ack機(jī)制并不能解決上述問題。那么該如何設(shè)計(jì)出一個(gè)好的方案來解決上述問題?
現(xiàn)有架構(gòu)背景:本人所在項(xiàng)目組的實(shí)時(shí)系統(tǒng)負(fù)責(zé)為XXX的實(shí)時(shí)產(chǎn)生的交易記錄進(jìn)行處理,根據(jù)處理的結(jié)果向用戶推送不同的信息。實(shí)時(shí)系統(tǒng)平時(shí)接入量每秒1000條,雙十一的時(shí)候,最大幾十萬條。
原文和作者一起討論:http://www.cnblogs.com/intsmaze/p/6219878.html 可接網(wǎng)站開發(fā),java開發(fā)。 新浪微博:intsmaze劉洋洋哥 微信:intsmaze |
架構(gòu)設(shè)計(jì):
storm設(shè)置的超時(shí)時(shí)間為3分鐘;kafkaspout的pending的長(zhǎng)度為2000;storm開啟ack機(jī)制,拓?fù)涑绦蛑腥绻霈F(xiàn)異常則調(diào)用ack方法,向spout發(fā)出ack消息;每一個(gè)交易數(shù)據(jù)會(huì)有一個(gè)全局唯一性di。
處理流程: