大數(shù)據(jù)應用與技術叢書數(shù)據(jù)科學實戰(zhàn)入門(使用Python和R)/大數(shù)據(jù)應用與技術叢書
-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
深度學習
-
>
Unreal Engine 4藍圖完全學習教程
-
>
深入理解計算機系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應用從入門到精通-(附贈1DVD.含語音視頻教學+辦公模板+PDF電子書)
大數(shù)據(jù)應用與技術叢書數(shù)據(jù)科學實戰(zhàn)入門(使用Python和R)/大數(shù)據(jù)應用與技術叢書 版權信息
- ISBN:9787302553793
- 條形碼:9787302553793 ; 978-7-302-55379-3
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
大數(shù)據(jù)應用與技術叢書數(shù)據(jù)科學實戰(zhàn)入門(使用Python和R)/大數(shù)據(jù)應用與技術叢書 本書特色
內(nèi)容組織 《數(shù)據(jù)科學實戰(zhàn)入門 使用Python 和R》一書基于數(shù)據(jù)科學方法論進行內(nèi)容的組織。數(shù)據(jù)科學方法是一種在科學框架體系內(nèi)進行數(shù)據(jù)分析的階段性、自適應和迭代式方法。 1. 問題理解階段。首先,需要清晰地闡明項目目標;然后將這些目標轉(zhuǎn)化為一種可以用數(shù)據(jù)科學解決的問題。 2. 數(shù)據(jù)準備階段。數(shù)據(jù)清洗/準備階段很可能是整個數(shù)據(jù)科學處理過程中*費力氣的階段。 ● 相關內(nèi)容參見第3 章:“數(shù)據(jù)準備”。 3. 探索性數(shù)據(jù)分析階段。在此階段通過圖形化探索方法獲得對數(shù)據(jù)的初步認識。 ● 相關內(nèi)容參見第4 章:“探索性數(shù)據(jù)分析”。 4. 設置階段。建立數(shù)據(jù)模型的性能基準,如果需要,可以對數(shù)據(jù)進行分割和平衡處理。 ● 相關內(nèi)容詳見第5 章:“為建模數(shù)據(jù)做準備”。 5. 建模階段。建模階段是數(shù)據(jù)科學研究過程的核心,在此階段應用各種先進的算法來發(fā)現(xiàn)隱藏在數(shù)據(jù)中的一些確實具有價值的關系。 ● 相關內(nèi)容參見第6 章以及第8~14 章。 6. 評估階段。確定設計的模型是否有價值,在此階段需要從一系列可選的模型中選擇性能更佳的模型。 ● 相關內(nèi)容參見第7 章:“模型評估”。 7. 部署應用階段。在此階段需要與管理層協(xié)作來調(diào)整模型以適應實際部署。
大數(shù)據(jù)應用與技術叢書數(shù)據(jù)科學實戰(zhàn)入門(使用Python和R)/大數(shù)據(jù)應用與技術叢書 內(nèi)容簡介
《數(shù)據(jù)科學實戰(zhàn)入門 使用Python和R》一書將使你深入了解數(shù)據(jù)科學很流行的兩大開源平臺:Python和R。 當前數(shù)據(jù)科學很好熱門。Python和R是世界更流行的兩個開源數(shù)據(jù)科學工具。在本書中,你將逐步學習如何使用更優(yōu)選的技術,針對現(xiàn)實世界的業(yè)務問題提供切實可行的解決方案。 本書為沒有數(shù)據(jù)分析和編程經(jīng)驗的讀者編寫。章專門為初學者講解Pyhton和R的基礎知識。此后的每一章都提供了使用Python和R解決數(shù)據(jù)科學問題的分步說明和實踐演練。 對于那些有數(shù)據(jù)分析經(jīng)驗的讀者而言,他們將一站式學習如何使用Python和R進行數(shù)據(jù)科學實踐。本書的主題涵蓋數(shù)據(jù)準備、探索性數(shù)據(jù)分析、準備建模數(shù)據(jù)、決策樹、模型評估、錯誤分類代價、樸素貝葉斯分類、神經(jīng)網(wǎng)絡、聚類、回歸建模、降維和關聯(lián)規(guī)則挖掘。此外,本書還包含一些令人興奮的新主題,如隨機森林和廣義線性模型。 本書在每章的結尾提供了大量的練習,共有500多道習題。通過實踐性的分析習題,讀者將能輕松應對使用真實數(shù)據(jù)集解決有趣業(yè)務問題的挑戰(zhàn)。
大數(shù)據(jù)應用與技術叢書數(shù)據(jù)科學實戰(zhàn)入門(使用Python和R)/大數(shù)據(jù)應用與技術叢書 目錄
第1章 數(shù)據(jù)科學導引 1
1.1 為何學習數(shù)據(jù)科學 1
1.2 何為數(shù)據(jù)科學 1
1.3 數(shù)據(jù)科學方法論 2
1.4 數(shù)據(jù)科學任務 5
1.4.1 描述 5
1.4.2 估計 6
1.4.3 分類 6
1.4.4 聚類 6
1.4.5 預測 6
1.4.6 關聯(lián) 7
1.5 習題 7
第2章 Python和R語言基礎 9
2.1 下載Python 9
2.2 Python編程基礎 10
2.2.1 在Python中使用注釋 10
2.2.2 在Python中執(zhí)行命令 11
2.2.3 在Python中導入軟件包 11
2.2.4 將數(shù)據(jù)引入Python 12
2.2.5 在Python中保存輸出 13
2.2.6 訪問Python中的記錄和變量 14
2.2.7 在Python中設置圖形 16
2.3 下載R和RStudio 18
2.4 R語言編程基礎 19
2.4.1 在R中使用注釋 20
2.4.2 在R中執(zhí)行命令 20
2.4.3 在R中導入軟件包 20
2.4.4 將數(shù)據(jù)導入R 21
2.4.5 在R中保存輸出 23
2.4.6 在R中訪問記錄和變量 24
2.5 習題 26
第3章 數(shù)據(jù)準備 29
3.1 銀行營銷數(shù)據(jù)集 29
3.2 問題理解階段 29
3.2.1 明確闡明項目目標 29
3.2.2 將這些目標轉(zhuǎn)化為數(shù)據(jù)科學問題 30
3.3 數(shù)據(jù)準備階段 30
3.4 添加索引字段 31
3.4.1 如何使用Python添加索引字段 31
3.4.2 如何使用R添加索引字段 32
3.5 更改誤導性字段值 33
3.5.1 如何使用Python更改誤導性字段值 33
3.5.2 如何使用R更改誤導性字段值 35
3.6 將分類數(shù)據(jù)重新表示為數(shù)字 36
3.6.1 如何使用Python重新表達分類字段值 37
3.6.2 如何使用R重新表達分類字段值 38
3.7 標準化數(shù)字字段 39
3.7.1 如何使用Python標準化數(shù)字字段 40
3.7.2 如何使用R標準化數(shù)字字段 40
3.8 識別異常值 40
3.8.1 如何使用Python識別異常值 41
3.8.2 如何使用R識別異常值 42
3.9 習題 43
第4章 探索性數(shù)據(jù)分析 47
4.1 EDA對比HT 47
4.2 疊加了response的條形圖 47
4.2.1 如何使用Python構建疊加的條形圖 49
4.2.2 如何使用R構建疊加的條形圖 50
4.3 列聯(lián)表 51
4.3.1 如何使用Python構建列聯(lián)表 52
4.3.2 如何使用R構建列聯(lián)表 53
4.4 疊加有響應的柱狀圖 54
4.4.1 如何使用Python構建疊加柱狀圖 55
4.4.2 如何使用R構建疊加柱狀圖 58
4.5 基于預測值的分箱 59
4.5.1 如何使用Python基于預測值執(zhí)行分箱 61
4.5.2 如何使用R基于預測值執(zhí)行分箱 63
4.6 習題 64
第5章 為建模數(shù)據(jù)做準備 69
5.1 迄今完成的任務 69
5.2 數(shù)據(jù)分區(qū) 69
5.2.1 如何使用Python對數(shù)據(jù)進行分區(qū) 70
5.2.2 如何使用R對數(shù)據(jù)進行分區(qū) 71
5.3 驗證數(shù)據(jù)分區(qū) 72
5.4 平衡訓練數(shù)據(jù)集 73
5.4.1 如何使用Python平衡訓練數(shù)據(jù)集 73
5.4.2 如何使用R平衡訓練數(shù)據(jù)集 75
5.5 建立模型性能基準 76
5.6 習題 78
第6章 決策樹 81
6.1 決策樹簡介 81
6.2 分類與回歸樹 83
6.2.1 如何使用Python構建CART決策樹 83
6.2.2 如何使用R構建CART決策樹 86
6.3 用于構建決策樹的C5.0算法 88
6.3.1 如何使用Python構建C5.0決策樹 89
6.3.2 如何使用R構建C5.0決策樹 90
6.4 隨機森林 91
6.4.1 如何使用Python構建隨機森林 92
6.4.2 如何使用R構建隨機森林 92
6.5 習題 93
第7章 模型評估 97
7.1 模型評估簡介 97
7.2 分類評價措施 97
7.3 靈敏度和特異度 99
7.4 精確度、召回率和Fβ分數(shù) 99
7.5 模型評估方法 100
7.6 模型評估的應用示例 100
7.7 說明不對稱的錯誤成本 104
7.8 比較考慮和不考慮不相等錯誤成本的模型 106
7.9 數(shù)據(jù)驅(qū)動的錯誤成本 107
7.10 習題 110
第8章 樸素貝葉斯分類 113
8.1 樸素貝葉斯簡介 113
8.2 貝葉斯定理 113
8.3 *大化后驗假設 114
8.4 分類條件獨立性 114
8.5 樸素貝葉斯分類的應用 115
8.5.1 Python中的樸素貝葉斯 120
8.5.2 R中的樸素貝葉斯 123
8.6 習題 126
第9章 神經(jīng)網(wǎng)絡 129
9.1 神經(jīng)網(wǎng)絡簡介 129
9.2 神經(jīng)網(wǎng)絡結構 129
9.3 連接權重和組合函數(shù) 131
9.4 sigmoid激活函數(shù) 133
9.5 反向傳播 133
9.6 神經(jīng)網(wǎng)絡模型的應用 134
9.7 解釋神經(jīng)網(wǎng)絡模型中的權重 136
9.8 如何在R中使用神經(jīng)網(wǎng)絡 137
9.9 習題 138
第10章 聚類 141
10.1 聚類的定義 141
10.2 k均值聚類算法簡介 142
10.3 k均值聚類的應用 143
10.4 簇驗證 144
10.5 如何使用Python執(zhí)行k均值聚類 145
10.6 如何使用R執(zhí)行k均值聚類 147
10.7 習題 149
第11章 回歸建模 151
11.1 估計任務 151
11.2 回歸建模描述 151
11.3 多元回歸建模的應用 152
11.4 如何使用Python執(zhí)行多重回歸建模 154
11.5 如何使用R執(zhí)行多重回歸建模 156
11.6 用于估計的模型評估 158
11.6.1 如何使用Python進行估計模型評估 159
11.6.2 如何使用R進行估計模型評估 161
11.7 逐步回歸 162
11.8 回歸的基準模型 163
11.9 習題 164
第12章 降維 169
12.1 降維的必要性 169
12.2 多重共線性 170
12.3 使用方差膨脹因子識別多重共線性 173
12.3.1 如何使用Python識別多重共線性 174
12.3.2 如何使用R識別多重共線性 175
12.4 主成分分析 177
12.5 主成分分析的應用 178
12.6 我們應該提取多少分量 179
12.6.1 特征值準則 179
12.6.2 方差解釋比例的準則 180
12.7 執(zhí)行k = 4的PCA 180
12.8 主成分分析的驗證 181
12.9 如何使用Python進行主成分分析 182
12.10 如何使用R進行主成分分析 184
12.11 何時多重共線性不是問題 187
12.12 習題 187
第13章 廣義線性模型 191
13.1 廣義線性模型概述 191
13.2 線性回歸是一種廣義線性模型 192
13.3 作為廣義線性模型的邏輯回歸 192
13.4 邏輯回歸模型的應用 193
13.4.1 如何使用Python執(zhí)行邏輯回歸 194
13.4.2 如何使用R執(zhí)行邏輯回歸 195
13.5 泊松回歸 196
13.6 泊松回歸模型的應用 197
13.6.1 如何使用Python執(zhí)行泊松回歸 197
13.6.2 如何使用R執(zhí)行泊松回歸 199
13.7 習題 199
第14章 關聯(lián)規(guī)則 203
14.1 關聯(lián)規(guī)則簡介 203
14.2 關聯(lián)規(guī)則挖掘的簡單示例 203
14.3 支持度、信任度和提升度 204
14.4 挖掘關聯(lián)規(guī)則 206
14.5 確認我們的指標 211
14.6 置信差準則 212
14.7 置信商準則 213
14.8 習題 215
附錄A 數(shù)據(jù)匯總與可視化 219
大數(shù)據(jù)應用與技術叢書數(shù)據(jù)科學實戰(zhàn)入門(使用Python和R)/大數(shù)據(jù)應用與技術叢書 作者簡介
Chantal D. Larose博士是東康涅狄格州立大學(ECSU)統(tǒng)計學與數(shù)據(jù)科學的助理教授。她已經(jīng)參與撰寫了三本有關數(shù)據(jù)科學和預測性分析的著作,并在ECSU和紐約州立大學新帕爾茲分校(SUNY New Paltz)參與開發(fā)了數(shù)據(jù)科學相關程序。 Daniel T. Larose博士是中央康涅狄格州立大學數(shù)據(jù)科學和統(tǒng)計學的教授,數(shù)據(jù)科學項目主任。他在數(shù)據(jù)科學、數(shù)據(jù)挖掘、預測性分析和統(tǒng)計學方面出版了多本著作。
- >
煙與鏡
- >
我與地壇
- >
月亮虎
- >
伯納黛特,你要去哪(2021新版)
- >
推拿
- >
大紅狗在馬戲團-大紅狗克里弗-助人
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
我從未如此眷戀人間