-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
深度學(xué)習(xí)
-
>
Unreal Engine 4藍圖完全學(xué)習(xí)教程
-
>
深入理解計算機系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應(yīng)用從入門到精通-(附贈1DVD.含語音視頻教學(xué)+辦公模板+PDF電子書)
梯度提升算法實戰(zhàn)——基于XGBOOST和SCIKIT-LEARN 版權(quán)信息
- ISBN:9787302659518
- 條形碼:9787302659518 ; 978-7-302-65951-8
- 裝幀:平裝-膠訂
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
梯度提升算法實戰(zhàn)——基于XGBOOST和SCIKIT-LEARN 本書特色
本書從機器學(xué)習(xí)基礎(chǔ)出發(fā),詳解XGBoost模型構(gòu)建和優(yōu)化過程,并借助實例分析,引入XGBoost工業(yè)化應(yīng)用的高級方法和技巧,實用性強,便于自學(xué)。
梯度提升算法實戰(zhàn)——基于XGBOOST和SCIKIT-LEARN 內(nèi)容簡介
XGBoost是一種經(jīng)過行業(yè)驗證的開源軟件庫,為快速高效地處理數(shù)十億數(shù)據(jù)點提供了梯度提升框架。首先,本書在介紹機器學(xué)習(xí)和XGBoost在scikit-learn中的應(yīng)用后,逐步深入梯度提升背后的理論知識。讀者將學(xué)習(xí)決策樹,并分析在機器學(xué)習(xí)環(huán)境中的裝袋技術(shù),同時學(xué)習(xí)拓展到XGBoost的超參數(shù);并將從零開始構(gòu)建梯度提升模型,將梯度提升擴展到大數(shù)據(jù)領(lǐng)域,同時通過計時器的使用了解速度。接著,本書重點探討XGBoost的細節(jié),著重于速度提升和通過數(shù)學(xué)推導(dǎo)導(dǎo)出參數(shù)。通過詳細案例研究,讀者將練習(xí)使用scikit-learn及原始的Python API構(gòu)建和微調(diào)XGBoost分類器與回歸器;并學(xué)習(xí)如何利用XGBoost的超參數(shù)來提高評分、糾正缺失值、縮放不平衡數(shù)據(jù)集,并微調(diào)備選基學(xué)習(xí)器。*后,讀者將學(xué)習(xí)應(yīng)用高級XGBoost技術(shù),如構(gòu)建非相關(guān)的集成模型、堆疊模型,并使用稀疏矩陣、定制轉(zhuǎn)換器和管道為行業(yè)部署準備模型。 本書適合作為高等學(xué)校計算機專業(yè)、軟件工程專業(yè)的高年級本科生及研究生教材,同時適合有一定機器學(xué)習(xí)基礎(chǔ)的數(shù)據(jù)科學(xué)家、機器學(xué)習(xí)工程師和研究人員閱讀,可為解決復(fù)雜的機器學(xué)習(xí)問題提供實用指導(dǎo)。
梯度提升算法實戰(zhàn)——基于XGBOOST和SCIKIT-LEARN 目錄
第1章 機器學(xué)習(xí)概覽 2
1.1 XGBoost概覽 2
1.2 數(shù)據(jù)整理 3
1.2.1 數(shù)據(jù)集1:自行車租賃數(shù)據(jù)集 3
1.2.2 理解數(shù)據(jù) 5
1.2.3 糾正空值 7
1.3 回歸預(yù)測 12
1.3.1 預(yù)測自行車租賃數(shù)量 12
1.3.2 保存數(shù)據(jù)以備將來使用 12
1.3.3 聲明預(yù)測列和目標(biāo)列 13
1.3.4 理解回歸 13
1.3.5 訪問 scikit-learn 14
1.3.6 關(guān)閉警告信息 14
1.3.7 線性回歸建模 14
1.3.8 XGBoost 16
1.3.9 XGBRegressor 16
1.3.10 交叉驗證 17
1.4 分類預(yù)測 20
1.4.1 什么是分類? 20
1.4.2 數(shù)據(jù)集2:人口普查數(shù)據(jù)集 21
1.4.3 XGBoost分類器 26
1.5 總結(jié) 27
第2章 深入淺出決策樹 28
2.1 介紹XGBoost決策樹 28
2.2 探索決策樹 29
2.2.1 **個決策樹模型 29
2.2.2 決策樹內(nèi)部結(jié)構(gòu) 30
2.3 對比方差和偏差 32
2.4 調(diào)整決策樹超參數(shù) 35
2.4.1 決策樹回歸器 35
2.4.2 一般超參數(shù) 37
2.4.3 綜合微調(diào)超參數(shù) 43
2.5 實例:預(yù)測心臟病 43
2.5.1 心臟病數(shù)據(jù)集 43
2.5.2 決策樹分類器 45
2.5.3 選擇超參數(shù) 46
2.5.4 縮小范圍 46
2.5.5 feature_importances_ 47
2.6 總結(jié) 49
第3章 隨機森林與裝袋法 50
3.1 裝袋集成 50
3.1.1 集成方法 50
3.1.2 自助聚合 51
3.2 探索隨機森林 52
3.2.1 隨機森林分類器 52
3.2.2 隨機森林回歸器 54
3.3 隨機森林超參數(shù) 55
3.3.1 oob_score 55
3.3.2 n_estimators 56
3.3.3 warm_start 57
3.3.4 自助法 58
3.3.5 冗長度 59
3.3.6 決策樹超參數(shù) 59
3.4 實例:突破隨機森林邊界 59
3.4.1 準備數(shù)據(jù)集 60
3.4.2 n_estimators 60
3.4.3 cross_val_score 61
3.4.4 微調(diào)超參數(shù) 61
3.4.5 隨機森林的缺點 65
3.5 總結(jié) 66
第4章 從梯度提升到XGBoost 67
4.1 從裝袋到提升 67
4.1.1 AdaBoost簡介 68
4.1.2 有所區(qū)別的梯度提升算法 68
4.2 梯度提升的工作原理 69
4.2.1 殘差 69
4.2.2 學(xué)習(xí)如何從零開始構(gòu)建梯度提升模型 70
4.2.3 在 scikit-learn 中構(gòu)建梯度提升模型 73
4.3 修改梯度提升超參數(shù) 74
4.3.1 learning_rate 74
4.3.2 基學(xué)習(xí)器 76
4.3.3 subsample 77
4.3.4 RandomizedSearchCV 78
4.3.5 XGBoost 80
4.4 接近大數(shù)據(jù)——梯度提升與XGBoost的比較 80
4.4.1 介紹系外行星數(shù)據(jù)集 81
4.4.2 預(yù)處理系外行星數(shù)據(jù)集 82
4.4.3 構(gòu)建梯度提升分類器 83
4.4.4 時間模塊 83
4.4.5 比較速度 84
4.5 總結(jié) 86
第二部分 XGBoost
第5章 XGBoost揭秘 88
5.1 設(shè)計XGBoost 88
5.1.1 背景描述 88
5.1.2 設(shè)計特點 89
5.2 分析 XGBoost 參數(shù) 91
5.3 構(gòu)建XGBoost模型 94
5.3.1 鳶尾花數(shù)據(jù)集 95
5.3.2 糖尿病數(shù)據(jù)集 97
5.4 案例:尋找希格斯玻色子 99
5.4.1 物理學(xué)背景 99
5.4.2 Kaggle競賽 100
5.4.3 XGBoost和希格斯玻色子挑戰(zhàn)賽 100
5.4.4 數(shù)據(jù) 100
5.4.5 評分 103
5.4.6 權(quán)重 104
5.4.7 模型 105
5.5 總結(jié) 107
第6章 XGBoost 超參數(shù) 108
6.1 準備數(shù)據(jù)和基礎(chǔ)模型 108
6.1.1 心臟病數(shù)據(jù)集 108
6.1.2 XGBClassifier 110
6.1.3 StratifiedKFold 111
6.1.4 基線模型 112
6.1.5 結(jié)合 GridSearchCV 和 RandomizedSearchCV 112
6.2 優(yōu)化 XGBoost 超參數(shù) 113
6.3 應(yīng)用提前停止 117
6.3.1 什么是提前停止? 118
6.3.2 eval_set 和 eval_metric 118
6.3.3 early_stopping_rounds 120
6.4 組合超參數(shù) 121
6.4.1 一次一個超參數(shù) 121
6.4.2 超參數(shù)調(diào)整 124
6.5 總結(jié) 126
第7章 用XGBoost發(fā)現(xiàn)系外行星 127
7.1 尋找系外行星 127
7.1.1 背景描述 128
7.1.2 系外行星數(shù)據(jù)集 128
7.1.3 繪制數(shù)據(jù)圖表 129
7.1.4 準備數(shù)據(jù) 132
7.1.5 初始化 XGBClassifier 133
7.2 分析混淆矩陣 134
7.2.1 confusion_matrix 134
7.2.2 classification_report 135
7.2.3 備選評分方法 137
7.3 重采樣不平衡數(shù)據(jù) 139
7.3.1 重采樣 139
7.3.2 欠采樣 139
7.3.3 過采樣 141
7.4 調(diào)整和縮放 XGBClassifier 143
7.4.1 調(diào)整權(quán)重 144
7.4.2 調(diào)整 XGBClassifier 145
7.4.3 鞏固成果 151
7.4.4 分析結(jié)果 153
7.5 總結(jié) 154
第三部分 XGBoost進階
第8章 XGBoost的備選基學(xué)習(xí)器 156
8.1 備選基學(xué)習(xí)器概覽 156
8.1.1 gblinear 157
8.1.2 DART 157
8.1.3 XGBoost隨機森林 158
8.2 應(yīng)用 gblinear 158
8.2.1 將 gblinear 應(yīng)用于糖尿病數(shù)據(jù)集 158
8.2.2 線性數(shù)據(jù)集 164
8.2.3 gblinear 分析 166
8.3 比較DART 166
8.3.1 DART與XGBRegressor 166
8.3.2 使用XGBClassifier的DART 167
8.3.3 DART超參數(shù) 168
8.3.4 修改DART超參數(shù) 170
8.3.5 DART分析 171
8.4 尋找 XGBoost 隨機森林 172
8.4.1 將隨機森林作為基學(xué)習(xí)器使用 172
8.4.2 作為XGBoost模型的隨機森林 173
8.4.3 分析XGBoost隨機森林 175
8.5 總結(jié) 175
第9章 XGBoost Kaggle 大師 176
9.1 探索Kaggle競賽 176
9.1.1 Kaggle競賽中的XGBoost 176
9.1.2 Kaggle競賽的結(jié)構(gòu) 177
9.1.3 保留集(hold-out set) 178
9.2 工程新列 180
9.2.1 什么是特征工程? 180
9.2.2 Uber和Lyft的數(shù)據(jù)集 180
9.3 構(gòu)建非相關(guān)集成 187
9.3.1 模型范圍 188
9.3.2 相關(guān)性 190
9.3.3 機器學(xué)習(xí)集成中的相關(guān)性 191
9.3.4 VotingClassifier 集成 194
9.4 堆疊模型 195
9.4.1 什么是堆疊? 195
9.4.2 scikit-learn 中的堆疊 195
9.5 總結(jié) 196
第10章 XGBoost模型部署 197
10.1 混合數(shù)據(jù)編碼 197
10.1.1 加載數(shù)據(jù) 197
10.1.2 清除空值 199
10.1.3 獨熱編碼 201
10.1.4 將一個獨熱編碼矩陣和數(shù)值列合并 202
10.2 自定義 scikit-learn 轉(zhuǎn)換器 204
10.2.1 定制轉(zhuǎn)換器 204
10.2.2 預(yù)處理管道 209
10.3 完成一個 XGBoost 模型 210
10.3.1 **個 XGBoost 模型 210
10.3.2 微調(diào) XGBoost 超參數(shù) 211
10.3.3 測試模型 215
10.4 構(gòu)建機器學(xué)習(xí)管道 216
10.5 總結(jié) 218
附 錄 本書相關(guān)網(wǎng)址 219
- >
巴金-再思錄
- >
小考拉的故事-套裝共3冊
- >
山海經(jīng)
- >
大紅狗在馬戲團-大紅狗克里弗-助人
- >
月亮與六便士
- >
【精裝繪本】畫給孩子的中國神話
- >
李白與唐代文化
- >
二體千字文