2024個人購書報告 2024中圖網(wǎng)年度報告
歡迎光臨中圖網(wǎng) 請 | 注冊
> >
Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用

Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用

作者:王傳東
出版社:電子工業(yè)出版社出版時間:2020-03-01
開本: 26cm 頁數(shù): 10,238頁
本類榜單:教材銷量榜
中 圖 價:¥36.8(8.0折) 定價  ¥46.0 登錄后可看到會員價
加入購物車 收藏
運費6元,滿39元免運費
?新疆、西藏除外
本類五星書更多>
買過本商品的人還買了

Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用 版權(quán)信息

  • ISBN:9787121380822
  • 條形碼:9787121380822 ; 978-7-121-38082-2
  • 裝幀:一般膠版紙
  • 冊數(shù):暫無
  • 重量:暫無
  • 所屬分類:>

Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用 本書特色

大數(shù)據(jù)產(chǎn)業(yè)是國家戰(zhàn)略性產(chǎn)業(yè),大數(shù)據(jù)應(yīng)用在全社會受到廣泛關(guān)注,而且大數(shù)據(jù)應(yīng)用越來越普遍,從手機信息推送到企業(yè)產(chǎn)品設(shè)計,從出行到疾病預防,都在利用大數(shù)據(jù)。大數(shù)據(jù)應(yīng)用技術(shù)專業(yè)在高職院校和應(yīng)用型本科院校受到普遍重視和歡迎,創(chuàng)建該專業(yè)的院校越來越多,它已成為信息技術(shù)類專業(yè)□受推崇的專業(yè)之一。 Hadoop作為當下流行的大數(shù)據(jù)平臺技術(shù),無疑是大數(shù)據(jù)技術(shù)專業(yè)必修的核心課程。這是一門實踐性課程,必須通過上機操作完成課程任務(wù),以掌握該項技能。同時,由于Hadoop是一個開源軟件體系,涉及其生態(tài)的軟件較多,操作系統(tǒng)環(huán)境、軟件自身配置、軟件之間的聯(lián)系較復雜,對上機操作使用的軟硬件要求較高,制約了一些學校開展教學工作。為此,本人結(jié)合幾年來從事Hadoop大數(shù)據(jù)教學的體會編寫了本教材。 這是一本盡量體現(xiàn)課崗融合的教材。目前,Hadoop工程師是稀缺資源,人才需求會隨著企業(yè)大數(shù)據(jù)應(yīng)用的普及而增加。Hadoop的核心是MapReduce和分布式存儲處理,但MapReduce編程有短板,無法實現(xiàn)在線的流式處理,不過隨著Spark的發(fā)展應(yīng)用,Hadoop將在更多的數(shù)據(jù)管理中得到普及型應(yīng)用,實際工作中對Spark工程師的需求也會增加。因此,本教材加強了對Spark編程的介紹。 這是一本盡量兼顧課證融合的教材。針對一些著名企業(yè)大數(shù)據(jù)認證的知識要求,對上機實踐各環(huán)節(jié)的知識點盡量做了補充和說明,通過實踐操作可以加強對知識點的理解和掌握。 這是一本課賽融合的教材。目前全國大數(shù)據(jù)賽事較多,筆者也多有了解和參與,于是梳理各項大數(shù)據(jù)賽題對Hadoop技術(shù)的要求,從Hadoop偽分布式、真實環(huán)境下完全分布式和HA模式集群搭建配置,到Hive應(yīng)用和Spark編程等,均結(jié)合了各種賽事的標準要求。 本教材的□□~3章是安裝使用Hadoop的準備階段,包括Hadoop的一些概念、Linux常用命令介紹及虛擬機平臺的準備;第4~10章是偽分布式安裝模式下的Hadoop的基本操作和相關(guān)軟件的使用;□□1~13章是使用三臺真機組成一個實驗小組,搭建完全分布式Hadoop集群,實現(xiàn)了Zookeeper與Hive相互協(xié)作操作,可加深對分布式存儲與處理的理解;□□4章是HA模式Hadoop集群的實踐操作。前13章使用的虛擬操作系統(tǒng)為Ubuntu,□□4章使用的虛擬操作系統(tǒng)為CentOS。從單機偽分布式搭建應(yīng)用,到多機網(wǎng)絡(luò)協(xié)作組建完全分布式集群,再到HA模式集群搭建應(yīng)用,這樣的安排使一般院校的普通機房也能適應(yīng)課程的要求。 在學習本課程之前,應(yīng)具備Linux的基本操作知識;對Java編程有了解;掌握基本的Python編程技能;對數(shù)據(jù)庫及SQL語言有基本的理解和應(yīng)用能力;了解或掌握網(wǎng)絡(luò)配置。當然,即使對以上知識掌握不充分,也不會影響對本書的學習,因為這幾乎是一本純粹的實踐教程。 完成教材的全部實驗任務(wù)后,在VMware中將會安裝6個Linux虛擬機,建議預備硬盤空間應(yīng)在150GB左右,計算機內(nèi)存應(yīng)不小于8GB。 本書由上海思博職業(yè)技術(shù)學院的王傳東、廣西經(jīng)貿(mào)職業(yè)技術(shù)學院的盧澔、浙江經(jīng)濟職業(yè)技術(shù)學院的馬榮飛擔任主編,由上海電子信息職業(yè)技術(shù)學院的賈璐、浙江長征職業(yè)技術(shù)學院的劉雷霆、上海中僑職業(yè)技術(shù)學院的楊文娟擔任副主編。 為了方便教學,本書配有電子教學課件及相關(guān)資源,請有此需要的教師登錄華信教育資源網(wǎng)(www.hxedu.com.cn)進行下載,如有問題可在網(wǎng)站留言板留言或與電子工業(yè)出版社聯(lián)系(E-mail:hxedu@phei.com.cn)。 教材建設(shè)是一項系統(tǒng)工程,需要在實踐中不斷完善。由于時間倉促、編者水平有限,書中難免存在疏漏和不足之處,敬請廣大讀者進行批評和指正。

Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用 內(nèi)容簡介

本書基于Hadoop大數(shù)據(jù)平臺, 講解大數(shù)據(jù)平臺的搭建與運維、大數(shù)據(jù)的采集與存儲、大數(shù)據(jù)的處理、數(shù)據(jù)的分析、數(shù)據(jù)的可視化等完整的大數(shù)據(jù)應(yīng)用案例, 全面詳細地講述Hadoop、MapReduee、HDFS、Hive、Spark和Zookeeper等技術(shù)的相關(guān)知識 ; 還詳細介紹了Hadoop大數(shù)據(jù)集群環(huán)境配置與搭建、部署配置Hadoop HA模式等內(nèi)容。

Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用 目錄

第1章 大數(shù)據(jù)與Hadoop平臺技術(shù) 1
1.1 大數(shù)據(jù)時代 1
1.2 大數(shù)據(jù)關(guān)鍵技術(shù) 2
1.3 大數(shù)據(jù)涉及的主要軟件 3
1.4 Hadoop平臺技術(shù)的生態(tài) 4
第2章 Ubuntu系統(tǒng)的安裝與使用 7
2.1 Linux系統(tǒng)簡介 7
2.2 Ubuntu系統(tǒng)安裝 8
2.2.1 下載虛擬機軟件VMware并安裝 8
2.2.2 在虛擬機中安裝Ubuntu系統(tǒng) 14
2.2.3 切換中英文輸入法 27
2.2.4 安裝VMware Tools 28
2.2.5 apt更新與更新源更換 30
2.2.6 安裝vim編輯器并使用 32
2.3 虛擬機聯(lián)網(wǎng)問題及其他 34
第3章 Linux基礎(chǔ)知識及相關(guān)軟件的基本使用 39
3.1 Linux基礎(chǔ)知識 39
3.1.1 Linux目錄結(jié)構(gòu) 39
3.1.2 Shell介紹 40
3.1.3 超級用戶――root用戶 41
3.1.4 sudo命令和su命令 41
3.1.5 創(chuàng)建與刪除普通用戶 42
3.1.6 目錄標記規(guī)則 43
3.1.7 目錄權(quán)限 43
3.1.8 安裝SSH 44
3.2 Linux常用軟件與命令 45
3.2.1 修改主機名 45
3.2.2 目錄操作 45
3.2.3 查看文件內(nèi)容和清屏 46
3.2.4 文件操作 46
3.2.5 文件解壓 47
3.2.6 進程與端口查看命令 48
3.2.7 系統(tǒng)管理命令 49
3.2.8 數(shù)據(jù)流重定向和管道的使用 50
3.2.9 其他使用技巧介紹 51
3.3 在Ubuntu中安裝Eclipse 51
3.3.1 通過軟件中心下載安裝Eclipse 51
3.3.2 在桌面創(chuàng)建Eclipse快捷方式 52
第4章 Hadoop的偽分布式安裝與使用 54
4.1 深入了解Hadoop 54
4.1.1 Hadoop發(fā)行版本介紹 54
4.1.2 Hadoop核心架構(gòu) 55
4.1.3 Hadoop的主要應(yīng)用場景 56
4.2 安裝Java環(huán)境 57
4.2.1 離線安裝 57
4.2.2 在線安裝 58
4.3 安裝Hadoop 59
4.3.1 下載Hadoop安裝文件并解壓 59
4.3.2 配置Hadoop環(huán)境變量 60
4.3.3 偽分布式模式配置 61
4.3.4 Hadoop無法正常啟動和使用的解決方法 63
第5章 HDFS 65
5.1 HDFS基本知識 65
5.1.1 DFS簡介 65
5.1.2 HDFS 65
5.1.3 HDFS存儲數(shù)據(jù) 66
5.2 Shell命令與HDFS交互操作 67
5.2.1 Hadoop Shell命令方式 67
5.2.2 目錄操作 68
5.2.3 文件操作 69
5.2.4 利用Web界面管理HDFS 70
5.3 Java編程與HDFS實現(xiàn)交互 71
5.3.1 在Eclipse中創(chuàng)建HDFS交互Java項目 71
5.3.2 在Java項目中編寫Java應(yīng)用程序代碼 75
5.3.3 編譯運行程序與打包 77
5.3.4 練習中使用的代碼文件 81
第6章 HBase偽分布部署與使用 85
6.1 HBase介紹 85
6.2 安裝HBase 86
6.3 偽分布HBase環(huán)境搭建 87
6.4 HBase Shell常用操作命令實踐 90
6.4.1 HBase表結(jié)構(gòu)舉例說明和常用的表操作命令 90
6.4.2 在HBase中創(chuàng)建表和刪除表 91
6.4.3 HBase數(shù)據(jù)庫基本操作 92
第7章 MapReduce原理與基礎(chǔ)編程 94
7.1 MapReduce介紹與基本原理 94
7.1.1 MapReduce在現(xiàn)實生活中的運用 94
7.1.2 通過案例拆解MapReduce的工作過程 95
7.1.3 MapReduce工作流程概括 98
7.2 MapReduce編程思路 98
7.3 MapReduce編程實例1:WordCount 99
7.4 MapReduce編程實例2:計算學生的平均成績 109
第8章 數(shù)據(jù)倉庫Hive偽分布式部署與使用 113
8.1 Hive的特點 113
8.2 Hive偽分布式部署 114
8.2.1 安裝配置Hive 114
8.2.2 安裝配置MySQL,連接Hive元數(shù)據(jù)庫 115
8.3 MySQL數(shù)據(jù)庫操作 118
8.3.1 常用命令介紹 118
8.3.2 無法登錄MySQL Shell的解決方法 120
第9章 數(shù)據(jù)分析與Hive數(shù)據(jù)庫操作 121
9.1 Hive操作命令介紹 121
9.2 HQL中的Case命令用法介紹 122
9.3 電商網(wǎng)站日志數(shù)據(jù)分析與達成目標 124
9.4 數(shù)據(jù)分析實現(xiàn) 126
9.4.1 將網(wǎng)站日志文件集加載到Hive中 126
9.4.2 統(tǒng)計分析網(wǎng)站日志數(shù)據(jù) 127
9.4.3 統(tǒng)計詞頻 131
第10章 Spark的安裝與基礎(chǔ)編程 133
10.1 Spark的安裝(Python版) 133
10.1.1 下載Spark安裝軟件 134
10.1.2 安裝與配置Spark 134
10.1.3 在PySpark中運行代碼 135
10.1.4 Spark獨立應(yīng)用程序編程示例 136
10.2 Spark的一些基本概念 137
10.3 RDD編程操作 137
10.3.1 RDD操作的兩種類型 137
10.3.2 創(chuàng)建RDD 139
10.3.3 創(chuàng)建鍵值對RDD 142
10.4 從RDD到DataFrame 145
10.4.1 Spark SQL和DataFrame 145
10.4.2 創(chuàng)建樣例數(shù)據(jù)文件 146
10.4.3 讀取json和csv文件生成DataFrame 147
10.4.4 普通文本文件生成DataFrame 148
10.5 Spark綜合編程與Python可視化 151
10.5.1 Spark綜合編程 151
10.5.2 Python可視化呈現(xiàn) 154
第11章 Hadoop集群環(huán)境搭建 160
11.1 克隆Linux虛擬機 160
11.2 橋接模式與NAT模式 163
11.2.1 橋接模式 163
11.2.2 NAT模式 164
11.3 VMware Workstation橋接網(wǎng)絡(luò)配置 164
11.3.1 集群網(wǎng)絡(luò)配置實現(xiàn)的目標 164
11.3.2 設(shè)置網(wǎng)絡(luò)橋接模式 165
11.3.3 驗證 169
11.4 大數(shù)據(jù)集群環(huán)境配置與搭建 170
11.4.1 修改主機名,并將主機名與IP地址建立映射 170
11.4.2 集群SSH免密登錄 171
11.4.3 時間同步 173
第12章 Zookeeper與集群Hadoop安裝應(yīng)用 174
12.1 Zookeeper介紹 174
12.1.1 Zookeeper的作用 174
12.1.2 Zookeeper選舉機制 175
12.2 安裝Zookeeper 175
12.2.1 為安裝Zookeeper的目錄賦權(quán) 175
12.2.2 下載、解壓Zookeeper安裝包 175
12.2.3 修改Zookeeper配置文件zoo.cfg 176
12.2.4 創(chuàng)建zkdata和zkdatalog文件夾 177
12.2.5 創(chuàng)建文件myid 177
12.2.6 配置環(huán)境變量 177
12.2.7 遠程復制分發(fā) 178
12.2.8 啟動Zookeeper集群 179
12.2.9 Zookeeper啟動錯誤及解決方法 179
12.3 在集群上安裝Hadoop 180
12.4 在集群上安裝HBase 185
第13章 構(gòu)建集群數(shù)據(jù)倉庫 189
13.1 在slave2節(jié)點上安裝MySQL Server 189
13.2 在slave1節(jié)點上安裝Hive服務(wù)器 191
13.3 將master節(jié)點作為Hive客戶端 194
13.4 啟動Hive 195
第14章 Hadoop從完全分布式到HA的安裝與使用 197
14.1 Hadoop HA 197
14.1.1 HDFS HA背景 197
14.1.2 HDFS HA架構(gòu) 197
14.2 安裝虛擬機系統(tǒng) 199
14.2.1 在VMware中創(chuàng)建虛擬機 199
14.2.2 安裝CentOS 7 206
14.2.3 設(shè)置網(wǎng)絡(luò)靜態(tài)IP地址 208
14.2.4 克隆3臺虛擬機 211
14.3 使用XShell 6登錄CentOS虛擬機 212
14.4 修改各節(jié)點主機名稱并配置SSH免密 215
14.4.1 修改各節(jié)點的虛擬機主機名 215
14.4.2 主機名與IP地址映射 215
14.4.3 SSH免密設(shè)置 216
14.5 安裝JDK 218
14.6 安裝并配置Zookeeper 219
14.6.1 安裝Zookeeper 220
14.6.2 啟動和停止Zookeeper 222
14.7 安裝并配置為完全分布式Hadoop集群 223
14.7.1 上傳、解壓文件并配置環(huán)境變量 223
14.7.2 將Hadoop配置為完全分布式集群 224
14.8 部署配置Hadoop HA模式 227
14.8.1 編輯Hadoop HA配置文件 227
14.8.2 分發(fā)文件 230
14.8.3 **次啟動HA 231
14.8.4 常規(guī)啟動HA 234
14.8.5 Hadoop HA部署完成之后的常規(guī)啟停順序 236
14.8.6 在HA集群上測試WordCount程序 236
展開全部

Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用 作者簡介

王傳東,男,(1961.1―),教授,解放軍信息工程大學計算機工程專業(yè)畢業(yè),本科,2008.9―2017.9浙江長征職業(yè)技術(shù)學院計算機系研究員/教授,系統(tǒng)維護教研室主任、物聯(lián)網(wǎng)應(yīng)用技術(shù)教研室主任。2017.9―上海思博職業(yè)技術(shù)學院大數(shù)據(jù)專業(yè)帶頭人。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服