在互聯(lián)網(wǎng)的世界中數(shù)據(jù)都是以TB、PB的數(shù)量級來增加的,特別是像BAT光每天的日志文件一個盤都不夠,更何況是還要基于這些數(shù)據(jù)進行分析挖掘,更甚者還要實時進行數(shù)據(jù)分析,學習,如雙十一淘寶的交易量的實時展示。

萬碼學堂,電腦培訓,計算機培訓,Java培訓,JavaEE開發(fā)培訓,青島軟件培訓,軟件工程師培訓

大數(shù)據(jù)什么叫大?4個特征:

體量化 Volume,就是量大。

多樣化 Variety,可能是結(jié)構(gòu)型的數(shù)據(jù),也可能是非結(jié)構(gòu)行的文本,圖片,視頻,語音,日志,郵件等

快速化 Velocity,產(chǎn)生快,處理也需要快。

價值密度低 Value,數(shù)據(jù)量大,但單個數(shù)據(jù)沒什么意義,需要宏觀的統(tǒng)計體現(xiàn)其隱藏的價值。

可以看出想只要一臺強大的服務器來實時處理這種體量的數(shù)據(jù)那是不可能的,而且成本昂貴,代價相當大,普通的關(guān)系型數(shù)據(jù)庫也隨著數(shù)據(jù)量的增大其處理時間也隨之增加,那客戶是不可能忍受的,所以我們需要Hadoop來解決此問題。

優(yōu)點:

Hadoop是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發(fā)和運行處理海量數(shù)據(jù)的應用程序。它主要有以下幾個優(yōu)點:
高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。
高擴展性。Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。
高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非常快。
高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務重新分配。
低成本。與一體機、商用數(shù)據(jù)倉庫以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。

  Hadoop得以在大數(shù)據(jù)處理應用中廣泛應用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢。Hadoop的分布式架構(gòu),將大數(shù)據(jù)處理引擎盡可能的靠近存儲,對例如像ETL這樣的批處理操作相對合適,因為類似這樣操作的批處理結(jié)果可以直接走向存儲。Hadoop的MapReduce功能實現(xiàn)了將單個任務打碎,并將碎片任務(Map)發(fā)送到多個節(jié)點上,之后再以單個數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉庫里。

  Hadoop在各應用中是最底層,最基礎的組件,所以其重要性不言而喻。

 萬碼學堂,電腦培訓,計算機培訓,Java培訓,JavaEE開發(fā)培訓,青島軟件培訓,軟件工程師培訓

框架結(jié)構(gòu)

  Hadoop主要由HDFS ( 分布式文件系統(tǒng))和MapReduce (并行計算框架)組成。

  Hadoop 由許多元素構(gòu)成。其最底部是 Hadoop Distributed File System(HDFS),它存儲 Hadoop 集群中所有存儲節(jié)點

網(wǎng)友評論