在互聯(lián)網(wǎng)的世界中數(shù)據(jù)都是以TB、PB的數(shù)量級(jí)來(lái)增加的,特別是像BAT光每天的日志文件一個(gè)盤(pán)都不夠,更何況是還要基于這些數(shù)據(jù)進(jìn)行分析挖掘,更甚者還要實(shí)時(shí)進(jìn)行數(shù)據(jù)分析,學(xué)習(xí),如雙十一淘寶的交易量的實(shí)時(shí)展示。

萬(wàn)碼學(xué)堂,電腦培訓(xùn),計(jì)算機(jī)培訓(xùn),Java培訓(xùn),JavaEE開(kāi)發(fā)培訓(xùn),青島軟件培訓(xùn),軟件工程師培訓(xùn)

大數(shù)據(jù)什么叫大?4個(gè)特征:

體量化 Volume,就是量大。

多樣化 Variety,可能是結(jié)構(gòu)型的數(shù)據(jù),也可能是非結(jié)構(gòu)行的文本,圖片,視頻,語(yǔ)音,日志,郵件等

快速化 Velocity,產(chǎn)生快,處理也需要快。

價(jià)值密度低 Value,數(shù)據(jù)量大,但單個(gè)數(shù)據(jù)沒(méi)什么意義,需要宏觀的統(tǒng)計(jì)體現(xiàn)其隱藏的價(jià)值。

可以看出想只要一臺(tái)強(qiáng)大的服務(wù)器來(lái)實(shí)時(shí)處理這種體量的數(shù)據(jù)那是不可能的,而且成本昂貴,代價(jià)相當(dāng)大,普通的關(guān)系型數(shù)據(jù)庫(kù)也隨著數(shù)據(jù)量的增大其處理時(shí)間也隨之增加,那客戶是不可能忍受的,所以我們需要Hadoop來(lái)解決此問(wèn)題。

優(yōu)點(diǎn):

Hadoop是一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺(tái)。用戶可以輕松地在Hadoop上開(kāi)發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個(gè)優(yōu)點(diǎn):
高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。
高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。
高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非??臁?br/>高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。
低成本。與一體機(jī)、商用數(shù)據(jù)倉(cāng)庫(kù)以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開(kāi)源的,項(xiàng)目的軟件成本因此會(huì)大大降低。

  Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢(shì)。Hadoop的分布式架構(gòu),將大數(shù)據(jù)處理引擎盡可能的靠近存儲(chǔ),對(duì)例如像ETL這樣的批處理操作相對(duì)合適,因?yàn)轭愃七@樣操作的批處理結(jié)果可以直接走向存儲(chǔ)。Hadoop的MapReduce功能實(shí)現(xiàn)了將單個(gè)任務(wù)打碎,并將碎片任務(wù)(Map)發(fā)送到多個(gè)節(jié)點(diǎn)上,之后再以單個(gè)數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉(cāng)庫(kù)里。

  Hadoop在各應(yīng)用中是最底層,最基礎(chǔ)的組件,所以其重要性不言而喻。

 萬(wàn)碼學(xué)堂,電腦培訓(xùn),計(jì)算機(jī)培訓(xùn),Java培訓(xùn),JavaEE開(kāi)發(fā)培訓(xùn),青島軟件培訓(xùn),軟件工程師培訓(xùn)

框架結(jié)構(gòu)

  Hadoop主要由HDFS ( 分布式文件系統(tǒng))和MapReduce (并行計(jì)算框架)組成。

  Hadoop 由許多元素構(gòu)成。其最底部是 Hadoop Distributed File System(HDFS),它存儲(chǔ) Hadoop 集群中所有存儲(chǔ)節(jié)點(diǎn)