分類導航

Syn良子每天都保持空杯心態(tài)

發(fā)布時間：2017年01月05日作者：文章轉自網絡，版權歸原作者所有，反饋可立刻刪除 (該文來自筆記，點擊查看原文)

一.傳統(tǒng)方式

這種方式就是常用的TableInputFormat和TableOutputFormat來讀寫hbase，如下代碼所示

簡單解釋下，用sc.newAPIHadoopRDD根據conf中配置好的scan來從Hbase的數(shù)據列族中讀取包含(ImmutableBytesWritable, Result)的RDD,

隨后取出rowkey和value的鍵值對兒利用StatCounter進行一些最大最小值的計算最終寫入hbase的統(tǒng)計列族.

二.SparkOnHbase方式

重點介紹第二種方式,這種方式其實是利用Cloudera-labs開源的一個HbaseContext的工具類來支持spark用RDD的方式批量讀寫hbase,先給個傳送門大家感受下