0基礎(chǔ)搭建Hadoop大數(shù)據(jù)處理-初識(shí)

發(fā)布時(shí)間：2017年05月03日作者：IT網(wǎng)絡(luò)文摘

　　在互聯(lián)網(wǎng)的世界中數(shù)據(jù)都是以TB、PB的數(shù)量級(jí)來(lái)增加的，特別是像BAT光每天的日志文件一個(gè)盤(pán)都不夠，更何況是還要基于這些數(shù)據(jù)進(jìn)行分析挖掘，更甚者還要實(shí)時(shí)進(jìn)行數(shù)據(jù)分析，學(xué)習(xí)，如雙十一淘寶的交易量的實(shí)時(shí)展示。

萬(wàn)碼學(xué)堂,電腦培訓(xùn),計(jì)算機(jī)培訓(xùn),Java培訓(xùn),JavaEE開(kāi)發(fā)培訓(xùn),青島軟件培訓(xùn),軟件工程師培訓(xùn)

大數(shù)據(jù)什么叫大？4個(gè)特征：

體量化 Volume，就是量大。

多樣化 Variety，可能是結(jié)構(gòu)型的數(shù)據(jù)，也可能是非結(jié)構(gòu)行的文本，圖片，視頻，語(yǔ)音，日志，郵件等

快速化 Velocity，產(chǎn)生快，處理也需要快。

價(jià)值密度低 Value，數(shù)據(jù)量大，但單個(gè)數(shù)據(jù)沒(méi)什么意義，需要宏觀(guān)的統(tǒng)計(jì)體現(xiàn)其隱藏的價(jià)值。

可以看出想只要一臺(tái)強(qiáng)大的服務(wù)器來(lái)實(shí)時(shí)處理這種體量的數(shù)據(jù)那是不可能的，而且成本昂貴，代價(jià)相當(dāng)大，普通的關(guān)系型數(shù)據(jù)庫(kù)也隨著數(shù)據(jù)量的增大其處理時(shí)間也隨之增加，那客戶(hù)是不可能忍受的，所以我們需要Hadoop來(lái)解決此問(wèn)題。

優(yōu)點(diǎn)：

Hadoop是一個(gè)能夠讓用戶(hù)輕松架構(gòu)和使用的分布式計(jì)算平臺(tái)。用戶(hù)可以輕松地在Hadoop上開(kāi)發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個(gè)優(yōu)點(diǎn)：
高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴(lài)。
高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的，這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。
高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù)，并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡，因此處理速度非?？臁?br/>高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本，并且能夠自動(dòng)將失敗的任務(wù)重新分配。
低成本。與一體機(jī)、商用數(shù)據(jù)倉(cāng)庫(kù)以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比，hadoop是開(kāi)源的，項(xiàng)目的軟件成本因此會(huì)大大降低。

　　Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢(shì)。Hadoop的分布式架構(gòu)，將大數(shù)據(jù)處理引擎盡可能的靠近存儲(chǔ)，對(duì)例如像ETL這樣的批處理操作相對(duì)合適，因?yàn)轭?lèi)似這樣操作的批處理結(jié)果可以直接走向存儲(chǔ)。Hadoop的MapReduce功能實(shí)現(xiàn)了將單個(gè)任務(wù)打碎，并將碎片任務(wù)(Map)發(fā)送到多個(gè)節(jié)點(diǎn)上，之后再以單個(gè)數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉(cāng)庫(kù)里。

　　Hadoop在各應(yīng)用中是最底層，最基礎(chǔ)的組件，所以其重要性不言而喻。

萬(wàn)碼學(xué)堂,電腦培訓(xùn),計(jì)算機(jī)培訓(xùn),Java培訓(xùn),JavaEE開(kāi)發(fā)培訓(xùn),青島軟件培訓(xùn),軟件工程師培訓(xùn)

框架結(jié)構(gòu)

　　Hadoop主要由HDFS ( 分布式文件系統(tǒng))和MapReduce （并行計(jì)算框架）組成。

　　Hadoop 由許多元素構(gòu)成。其最底部是 Hadoop Distributed File System（HDFS），它存儲(chǔ) Hadoop 集群中所有存儲(chǔ)節(jié)點(diǎn)

分類(lèi)導(dǎo)航

0基礎(chǔ)搭建Hadoop大數(shù)據(jù)處理-初識(shí)

大數(shù)據(jù)什么叫大？4個(gè)特征：

優(yōu)點(diǎn)：

框架結(jié)構(gòu)

網(wǎng)友評(píng)論

更多精彩分享