學AI，好工作就找北大青鳥

關注小青聽課做題，輕松學習

周一至周日

4000-9696-28

首頁品牌優(yōu)勢研究院 AI實驗室教學實施就業(yè)保障校企共育青鳥動態(tài) 校區(qū)查詢

首頁> 青鳥動態(tài)> 大咖分享> 是時候了解一下Hadoop了

行業(yè)觀瞻

技術熱點

面試寶典

青鳥動態(tài)

資料下載

其他

在線咨詢

在線咨詢

是時候了解一下Hadoop了

來源：北大青鳥總部 2022年12月13日 12:32

摘要：本周小編學習了大數(shù)據(jù)的必修課Hadoop，今天給大家分享一些關于Hadoop的知識。

自從上次小編了解完大數(shù)據(jù)是啥，并且在招聘網(wǎng)站上看到大數(shù)據(jù)相關崗位的薪資之后，小編就開始了第18次奮發(fā)圖強努力學習，雖然前17次奮發(fā)圖強均已失敗告終，但是這一次有薪資誘惑加持，相信小編一定能夠堅持下去的。

本周小編學習了大數(shù)據(jù)的必修課Hadoop，今天給大家分享一些關于Hadoop的知識。

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構，是一個專門用于應對海量數(shù)據(jù)的存儲和計算的東東。Hadoop這個英文單詞并不在英語字典中，它沒有具體的實際意義，為什么叫這個名字呢？是因為作者的兒子有一個寶貝玩具大象名字叫Hadoop，所以他開發(fā)的這個系統(tǒng)就叫Hadoop。突然感覺到技術大牛的生活就是如此的枯燥且樸實。

其他的關于Hadoop的版本、歷程、花邊故事等等湊字數(shù)行為就不多介紹了，廢話少說，直接上干貨。

Hadoop作為一個分布式系統(tǒng)，它有三個最重要組成部分：HDFS、YARN、MapReduce。在介紹它們之前，首先我們再來復習一遍分布式，分布式說白了就是有一堆機器組成的一個整體，它們之間通過網(wǎng)絡互相連接，每一個機器稱為一個節(jié)點，所有的節(jié)點連在一起組成了分布式的系統(tǒng)。這種分布式結構也稱為集群。

1、HDFS

它是一個分布式文件系統(tǒng)，它和我們windows上的文件系統(tǒng)很像，比如說在windows中，我們?yōu)榱瞬蛔屄槁榘l(fā)現(xiàn)我安裝了游戲，往往會將游戲軟件放到很深的文件路徑下，并且文件名也是諸如“xxx學習資料””學習資源”等等。它可能會有一個完整的路徑“D://學習資料/學習資源/英雄聯(lián)盟.exe”。實際上這就是windows上的文件系統(tǒng)，它可以用來保存各種文件，并且可以通過路徑的方式來訪問這些文件。

同樣HDFS也是一個類似的文件系統(tǒng)，但是它的不同點在于它是分布式的。在windows上我們都知道，某個路徑下的文件，它的物理形態(tài)也同樣的在這臺電腦的硬盤上。而HDFS上的文件，它肯定是在這個系統(tǒng)上，但是你要問它我這個文件到底在哪個機器上，它會告訴你，你的文件在物理上被切分成了多塊，分布在多臺機器上。

“那文件都被你切壞了，我還能用嗎！”，別擔心，絕對能用。這些機制在HDFS的底層中全部定義好了，使用HDFS可以直接把它當做一個普通的文件系統(tǒng)就可以了，它也提供類似windows路徑的方式來訪問文件。我們在使用的過程大可不必關心底層內(nèi)容，如：文件到底被分了多少塊、副本文件在哪、使用的時候怎么合并等等這些問題。當然如果你要去面試Hadoop相關崗位，還是要去了解底層實現(xiàn)原理的。

由于分布式的特性，HDFS的擴展十分方便，只需增加機器，就可以給存儲系統(tǒng)擴容。所以HDFS在機器夠的情況下，可以輕松儲存海量數(shù)據(jù)。

HDFS它是一個文件系統(tǒng)，也就是所有的節(jié)點機器一起組成了這個整體的文件系統(tǒng)，增加機器只會增加該系統(tǒng)的存儲容量和存儲節(jié)點。它總是保持一個整體的文件系統(tǒng)。

2、MapReduce

是一個分布式計算框架，它是一套專門應對大數(shù)據(jù)的計算模式，它將一個處理大量數(shù)據(jù)的計算任務分解為Map和Reduce兩個階段來執(zhí)行，將計算任務分配給集群中的每個節(jié)點，實現(xiàn)多節(jié)點并行計算。Map階段并行處理輸入數(shù)據(jù)，Reduce階段對Map結果進行匯總。

3、YARN

是一個通用的資源管理系統(tǒng)，它其中的ResourceManager統(tǒng)一對集群中的資源進行調(diào)度和管理，而NodeManager對集群中每一個節(jié)點的資源進行調(diào)度和管理。也就是說ResourceManager是工程總設計師負責整個集群，NodeManager是包工頭只負責自己機器這一畝三分地。MapReduce計算過程中所需要的資源，通常就是通過YARN來進行資源的調(diào)度和分配，當然YARN之所以能坐上管理位置還是得益于它比較公平，它不會讓集群中一臺節(jié)點承擔大部分的任務，而是經(jīng)常會將任務“平均”的分給各個節(jié)點。當然資源調(diào)度的方式有很多，也因情況而定。

總結一下，總之Hadoop有三板斧來處理大數(shù)據(jù)，使用HDFS輕松處理大數(shù)據(jù)的存儲，使用MapReduce+YARN輕松處理大數(shù)據(jù)的計算。他們之間的關系可以簡單的理解為：當我有一個大數(shù)據(jù)處理的任務，首先我將數(shù)據(jù)放在HDFS上，使用MapReduce這種計算模式來進行數(shù)據(jù)處理，其中YARN調(diào)用集群中節(jié)點資源一起參與計算，最后得出結果。

標簽: hadoop

IT熱門趨勢

1 新媒體運營2

2 全媒體設計證書

3 大數(shù)據(jù)應用

4 AI大模型開發(fā)實訓營

5 云計算與網(wǎng)絡安全

6 Java全棧開發(fā)與大數(shù)據(jù)

熱門班型時間

人工智能就業(yè)班即將爆滿

AI應用線上班即將爆滿

UI設計全能班即將爆滿

數(shù)據(jù)分析綜合班即將爆滿

軟件開發(fā)全能班爆滿開班

網(wǎng)絡安全運營班爆滿開班

職場就業(yè)資訊

1 IT行業(yè)就業(yè)前景向好

2 IT人才需求保持穩(wěn)定

3 網(wǎng)絡安全人才緊缺

4 IT看重專業(yè)技能經(jīng)驗

5 畢業(yè)生投身IT行業(yè)熱

6 程序員職場晉升新路徑

技術熱點榜單

2 機器學習與深度學習

3 虛擬化與分布式計算

4 數(shù)據(jù)采集與數(shù)據(jù)存儲

5 傳感器與無線通信技術

青鳥課程

AI全棧開發(fā)工程師 AI全媒體電商運營數(shù)據(jù)智能 AI時代全鏈路UI設計師 AI時代網(wǎng)絡運維工程師

學習入口

云題庫云豆網(wǎng) 在線視頻課學籍查詢證書查詢

招生咨詢熱線： 4000-9696-28

手機端官網(wǎng)

免費領熱門課程

北京市海淀區(qū)成府路207號

北京市海淀區(qū)成府路207號北大青鳥（總部）

友情鏈接：

Copyright © 1999- 北京青鳥職業(yè)教育科技發(fā)展有限公司版權所有

京公網(wǎng)安備 11010802020714號京ICP備2020047077號-2

感谢您访问我们的网站，您可能还对以下资源感兴趣：

成年人在线免费观看毛片

国产古代一级a毛片亚洲国产中文AV无码精品国产精品中文第一字幕毛片无遮挡高清免费观看