一.傳統(tǒng)方式

這種方式就是常用的TableInputFormat和TableOutputFormat來讀寫hbase,如下代碼所示

photoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動(dòng)軟件開發(fā)培訓(xùn),網(wǎng)站設(shè)計(jì)培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)

簡單解釋下,用sc.newAPIHadoopRDD根據(jù)conf中配置好的scan來從Hbase的數(shù)據(jù)列族中讀取包含(ImmutableBytesWritable, Result)的RDD,

隨后取出rowkey和value的鍵值對(duì)兒利用StatCounter進(jìn)行一些最大最小值的計(jì)算最終寫入hbase的統(tǒng)計(jì)列族.

二.SparkOnHbase方式

重點(diǎn)介紹第二種方式,這種方式其實(shí)是利用Cloudera-labs開源的一個(gè)HbaseContext的工具類來支持spark用RDD的方式批量讀寫hbase,先給個(gè)傳送門大家感受下

網(wǎng)友評(píng)論