2024個(gè)人購(gòu)書報(bào)告 2024中圖網(wǎng)年度報(bào)告
歡迎光臨中圖網(wǎng) 請(qǐng) | 注冊(cè)

梯度提升算法實(shí)戰(zhàn)——基于XGBOOST和SCIKIT-LEARN

出版社:清華大學(xué)出版社出版時(shí)間:2024-04-01
開本: 其他 頁(yè)數(shù): 218
中 圖 價(jià):¥79.2(8.0折) 定價(jià)  ¥99.0 登錄后可看到會(huì)員價(jià)
加入購(gòu)物車 收藏
運(yùn)費(fèi)6元,滿39元免運(yùn)費(fèi)
?新疆、西藏除外
本類五星書更多>

梯度提升算法實(shí)戰(zhàn)——基于XGBOOST和SCIKIT-LEARN 版權(quán)信息

梯度提升算法實(shí)戰(zhàn)——基于XGBOOST和SCIKIT-LEARN 本書特色

本書從機(jī)器學(xué)習(xí)基礎(chǔ)出發(fā),詳解XGBoost模型構(gòu)建和優(yōu)化過程,并借助實(shí)例分析,引入XGBoost工業(yè)化應(yīng)用的高級(jí)方法和技巧,實(shí)用性強(qiáng),便于自學(xué)。

梯度提升算法實(shí)戰(zhàn)——基于XGBOOST和SCIKIT-LEARN 內(nèi)容簡(jiǎn)介

XGBoost是一種經(jīng)過行業(yè)驗(yàn)證的開源軟件庫(kù),為快速高效地處理數(shù)十億數(shù)據(jù)點(diǎn)提供了梯度提升框架。首先,本書在介紹機(jī)器學(xué)習(xí)和XGBoost在scikit-learn中的應(yīng)用后,逐步深入梯度提升背后的理論知識(shí)。讀者將學(xué)習(xí)決策樹,并分析在機(jī)器學(xué)習(xí)環(huán)境中的裝袋技術(shù),同時(shí)學(xué)習(xí)拓展到XGBoost的超參數(shù);并將從零開始構(gòu)建梯度提升模型,將梯度提升擴(kuò)展到大數(shù)據(jù)領(lǐng)域,同時(shí)通過計(jì)時(shí)器的使用了解速度。接著,本書重點(diǎn)探討XGBoost的細(xì)節(jié),著重于速度提升和通過數(shù)學(xué)推導(dǎo)導(dǎo)出參數(shù)。通過詳細(xì)案例研究,讀者將練習(xí)使用scikit-learn及原始的Python API構(gòu)建和微調(diào)XGBoost分類器與回歸器;并學(xué)習(xí)如何利用XGBoost的超參數(shù)來提高評(píng)分、糾正缺失值、縮放不平衡數(shù)據(jù)集,并微調(diào)備選基學(xué)習(xí)器。*后,讀者將學(xué)習(xí)應(yīng)用高級(jí)XGBoost技術(shù),如構(gòu)建非相關(guān)的集成模型、堆疊模型,并使用稀疏矩陣、定制轉(zhuǎn)換器和管道為行業(yè)部署準(zhǔn)備模型。 本書適合作為高等學(xué)校計(jì)算機(jī)專業(yè)、軟件工程專業(yè)的高年級(jí)本科生及研究生教材,同時(shí)適合有一定機(jī)器學(xué)習(xí)基礎(chǔ)的數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)工程師和研究人員閱讀,可為解決復(fù)雜的機(jī)器學(xué)習(xí)問題提供實(shí)用指導(dǎo)。

梯度提升算法實(shí)戰(zhàn)——基于XGBOOST和SCIKIT-LEARN 目錄

**部分 裝袋和提升
第1章 機(jī)器學(xué)習(xí)概覽 2
1.1 XGBoost概覽 2
1.2 數(shù)據(jù)整理 3
1.2.1 數(shù)據(jù)集1:自行車租賃數(shù)據(jù)集 3
1.2.2 理解數(shù)據(jù) 5
1.2.3 糾正空值 7
1.3 回歸預(yù)測(cè) 12
1.3.1 預(yù)測(cè)自行車租賃數(shù)量 12
1.3.2 保存數(shù)據(jù)以備將來使用 12
1.3.3 聲明預(yù)測(cè)列和目標(biāo)列 13
1.3.4 理解回歸 13
1.3.5 訪問 scikit-learn 14
1.3.6 關(guān)閉警告信息 14
1.3.7 線性回歸建模 14
1.3.8 XGBoost 16
1.3.9 XGBRegressor 16
1.3.10 交叉驗(yàn)證 17
1.4 分類預(yù)測(cè) 20
1.4.1 什么是分類? 20
1.4.2 數(shù)據(jù)集2:人口普查數(shù)據(jù)集 21
1.4.3 XGBoost分類器 26
1.5 總結(jié) 27
第2章 深入淺出決策樹 28
2.1 介紹XGBoost決策樹 28
2.2 探索決策樹 29
2.2.1 **個(gè)決策樹模型 29
2.2.2 決策樹內(nèi)部結(jié)構(gòu) 30
2.3 對(duì)比方差和偏差 32
2.4 調(diào)整決策樹超參數(shù) 35
2.4.1 決策樹回歸器 35
2.4.2 一般超參數(shù) 37
2.4.3 綜合微調(diào)超參數(shù) 43
2.5 實(shí)例:預(yù)測(cè)心臟病 43
2.5.1 心臟病數(shù)據(jù)集 43
2.5.2 決策樹分類器 45
2.5.3 選擇超參數(shù) 46
2.5.4 縮小范圍 46
2.5.5 feature_importances_ 47
2.6 總結(jié) 49
第3章 隨機(jī)森林與裝袋法 50
3.1 裝袋集成 50
3.1.1 集成方法 50
3.1.2 自助聚合 51
3.2 探索隨機(jī)森林 52
3.2.1 隨機(jī)森林分類器 52
3.2.2 隨機(jī)森林回歸器 54
3.3 隨機(jī)森林超參數(shù) 55
3.3.1 oob_score 55
3.3.2 n_estimators 56
3.3.3 warm_start 57
3.3.4 自助法 58
3.3.5 冗長(zhǎng)度 59
3.3.6 決策樹超參數(shù) 59
3.4 實(shí)例:突破隨機(jī)森林邊界 59
3.4.1 準(zhǔn)備數(shù)據(jù)集 60
3.4.2 n_estimators 60
3.4.3 cross_val_score 61
3.4.4 微調(diào)超參數(shù) 61
3.4.5 隨機(jī)森林的缺點(diǎn) 65
3.5 總結(jié) 66
第4章 從梯度提升到XGBoost 67
4.1 從裝袋到提升 67
4.1.1 AdaBoost簡(jiǎn)介 68
4.1.2 有所區(qū)別的梯度提升算法 68
4.2 梯度提升的工作原理 69
4.2.1 殘差 69
4.2.2 學(xué)習(xí)如何從零開始構(gòu)建梯度提升模型 70
4.2.3 在 scikit-learn 中構(gòu)建梯度提升模型 73
4.3 修改梯度提升超參數(shù) 74
4.3.1 learning_rate 74
4.3.2 基學(xué)習(xí)器 76
4.3.3 subsample 77
4.3.4 RandomizedSearchCV 78
4.3.5 XGBoost 80
4.4 接近大數(shù)據(jù)——梯度提升與XGBoost的比較 80
4.4.1 介紹系外行星數(shù)據(jù)集 81
4.4.2 預(yù)處理系外行星數(shù)據(jù)集 82
4.4.3 構(gòu)建梯度提升分類器 83
4.4.4 時(shí)間模塊 83
4.4.5 比較速度 84
4.5 總結(jié) 86
第二部分 XGBoost
第5章 XGBoost揭秘 88
5.1 設(shè)計(jì)XGBoost 88
5.1.1 背景描述 88
5.1.2 設(shè)計(jì)特點(diǎn) 89
5.2 分析 XGBoost 參數(shù) 91
5.3 構(gòu)建XGBoost模型 94
5.3.1 鳶尾花數(shù)據(jù)集 95
5.3.2 糖尿病數(shù)據(jù)集 97
5.4 案例:尋找希格斯玻色子 99
5.4.1 物理學(xué)背景 99
5.4.2 Kaggle競(jìng)賽 100
5.4.3 XGBoost和希格斯玻色子挑戰(zhàn)賽 100
5.4.4 數(shù)據(jù) 100
5.4.5 評(píng)分 103
5.4.6 權(quán)重 104
5.4.7 模型 105
5.5 總結(jié) 107
第6章 XGBoost 超參數(shù) 108
6.1 準(zhǔn)備數(shù)據(jù)和基礎(chǔ)模型 108
6.1.1 心臟病數(shù)據(jù)集 108
6.1.2 XGBClassifier 110
6.1.3 StratifiedKFold 111
6.1.4 基線模型 112
6.1.5 結(jié)合 GridSearchCV 和 RandomizedSearchCV 112
6.2 優(yōu)化 XGBoost 超參數(shù) 113
6.3 應(yīng)用提前停止 117
6.3.1 什么是提前停止? 118
6.3.2 eval_set 和 eval_metric 118
6.3.3 early_stopping_rounds 120
6.4 組合超參數(shù) 121
6.4.1 一次一個(gè)超參數(shù) 121
6.4.2 超參數(shù)調(diào)整 124
6.5 總結(jié) 126
第7章 用XGBoost發(fā)現(xiàn)系外行星 127
7.1 尋找系外行星 127
7.1.1 背景描述 128
7.1.2 系外行星數(shù)據(jù)集 128
7.1.3 繪制數(shù)據(jù)圖表 129
7.1.4 準(zhǔn)備數(shù)據(jù) 132
7.1.5 初始化 XGBClassifier 133
7.2 分析混淆矩陣 134
7.2.1 confusion_matrix 134
7.2.2 classification_report 135
7.2.3 備選評(píng)分方法 137
7.3 重采樣不平衡數(shù)據(jù) 139
7.3.1 重采樣 139
7.3.2 欠采樣 139
7.3.3 過采樣 141
7.4 調(diào)整和縮放 XGBClassifier 143
7.4.1 調(diào)整權(quán)重 144
7.4.2 調(diào)整 XGBClassifier 145
7.4.3 鞏固成果 151
7.4.4 分析結(jié)果 153
7.5 總結(jié) 154
第三部分 XGBoost進(jìn)階
第8章 XGBoost的備選基學(xué)習(xí)器 156
8.1 備選基學(xué)習(xí)器概覽 156
8.1.1 gblinear 157
8.1.2 DART 157
8.1.3 XGBoost隨機(jī)森林 158
8.2 應(yīng)用 gblinear 158
8.2.1 將 gblinear 應(yīng)用于糖尿病數(shù)據(jù)集 158
8.2.2 線性數(shù)據(jù)集 164
8.2.3 gblinear 分析 166
8.3 比較DART 166
8.3.1 DART與XGBRegressor 166
8.3.2 使用XGBClassifier的DART 167
8.3.3 DART超參數(shù) 168
8.3.4 修改DART超參數(shù) 170
8.3.5 DART分析 171
8.4 尋找 XGBoost 隨機(jī)森林 172
8.4.1 將隨機(jī)森林作為基學(xué)習(xí)器使用 172
8.4.2 作為XGBoost模型的隨機(jī)森林 173
8.4.3 分析XGBoost隨機(jī)森林 175
8.5 總結(jié) 175
第9章 XGBoost Kaggle 大師 176
9.1 探索Kaggle競(jìng)賽 176
9.1.1 Kaggle競(jìng)賽中的XGBoost 176
9.1.2 Kaggle競(jìng)賽的結(jié)構(gòu) 177
9.1.3 保留集(hold-out set) 178
9.2 工程新列 180
9.2.1 什么是特征工程? 180
9.2.2 Uber和Lyft的數(shù)據(jù)集 180
9.3 構(gòu)建非相關(guān)集成 187
9.3.1 模型范圍 188
9.3.2 相關(guān)性 190
9.3.3 機(jī)器學(xué)習(xí)集成中的相關(guān)性 191
9.3.4 VotingClassifier 集成 194
9.4 堆疊模型 195
9.4.1 什么是堆疊? 195
9.4.2 scikit-learn 中的堆疊 195
9.5 總結(jié) 196
第10章 XGBoost模型部署 197
10.1 混合數(shù)據(jù)編碼 197
10.1.1 加載數(shù)據(jù) 197
10.1.2 清除空值 199
10.1.3 獨(dú)熱編碼 201
10.1.4 將一個(gè)獨(dú)熱編碼矩陣和數(shù)值列合并 202
10.2 自定義 scikit-learn 轉(zhuǎn)換器 204
10.2.1 定制轉(zhuǎn)換器 204
10.2.2 預(yù)處理管道 209
10.3 完成一個(gè) XGBoost 模型 210
10.3.1 **個(gè) XGBoost 模型 210
10.3.2 微調(diào) XGBoost 超參數(shù) 211
10.3.3 測(cè)試模型 215
10.4 構(gòu)建機(jī)器學(xué)習(xí)管道 216
10.5 總結(jié) 218
附 錄 本書相關(guān)網(wǎng)址 219
展開全部
商品評(píng)論(0條)
暫無評(píng)論……
書友推薦
編輯推薦
返回頂部
中圖網(wǎng)
在線客服