一.傳統(tǒng)方式
這種方式就是常用的TableInputFormat和TableOutputFormat來(lái)讀寫(xiě)hbase,如下代碼所示
簡(jiǎn)單解釋下,用sc.newAPIHadoopRDD根據(jù)conf中配置好的scan來(lái)從Hbase的數(shù)據(jù)列族中讀取包含(ImmutableBytesWritable, Result)的RDD,
隨后取出rowkey和value的鍵值對(duì)兒利用StatCounter進(jìn)行一些最大最小值的計(jì)算最終寫(xiě)入hbase的統(tǒng)計(jì)列族.
二.SparkOnHbase方式
重點(diǎn)介紹第二種方式,這種方式其實(shí)是利用Cloudera-labs開(kāi)源的一個(gè)HbaseContext的工具類來(lái)支持spark用RDD的方式批量讀寫(xiě)hbase,先給個(gè)傳送門(mén)大家感受下
延伸閱讀
學(xué)習(xí)是年輕人改變自己的最好方式