經(jīng)典原版書庫數(shù)據(jù)挖掘?qū)д?英文版.原書第2版)/[美]陳封能 版權(quán)信息
- ISBN:9787111637882
- 條形碼:9787111637882 ; 978-7-111-63788-2
- 裝幀:平裝-膠訂
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
經(jīng)典原版書庫數(shù)據(jù)挖掘?qū)д?英文版.原書第2版)/[美]陳封能 本書特色
本書從算法的角度介紹數(shù)據(jù)挖掘所使用的主要原理與技術(shù)。為了更好地理解數(shù)據(jù)挖掘技術(shù)如何用于各種類型的數(shù)據(jù),研究這些原理與技術(shù)是至關(guān)重要的。
本書所涵蓋的主題包括:數(shù)據(jù)預(yù)處理、預(yù)測建模、關(guān)聯(lián)分析、聚類分析、異常檢測和避免錯誤發(fā)現(xiàn)。通過介紹每個主題的基本概念和算法,為讀者提供將數(shù)據(jù)挖掘應(yīng)用于實際問題所需的必要背景以及使用方法。
經(jīng)典原版書庫數(shù)據(jù)挖掘?qū)д?英文版.原書第2版)/[美]陳封能 內(nèi)容簡介
本書從算法的角度介紹數(shù)據(jù)挖掘所使用的主要原理與技術(shù)。為了更好地理解數(shù)據(jù)挖掘技術(shù)如何用于各種類型的數(shù)據(jù),研究這些原理與技術(shù)是至關(guān)重要的。 本書所涵蓋的主題包括:數(shù)據(jù)預(yù)處理、預(yù)測建模、關(guān)聯(lián)分析、聚類分析、異常檢測和避免錯誤發(fā)現(xiàn)。通過介紹每個主題的基本概念和算法,為讀者提供將數(shù)據(jù)挖掘應(yīng)用于實際問題所需的必要背景以及使用方法。
經(jīng)典原版書庫數(shù)據(jù)挖掘?qū)д?英文版.原書第2版)/[美]陳封能 目錄
1.1 什么是數(shù)據(jù)挖掘 4
1.2 數(shù)據(jù)挖掘要解決的問題 5
1.3 數(shù)據(jù)挖掘的起源 7
1.4 數(shù)據(jù)挖掘任務(wù) 9
1.5 本書組織結(jié)構(gòu) 13
1.6 文獻注釋 15
1.7 習(xí)題 21
第2章 數(shù)據(jù) 23
2.1 數(shù)據(jù)類型 26
2.1.1 屬性與度量 27
2.1.2 數(shù)據(jù)集的類型 34
2.2 數(shù)據(jù)質(zhì)量 42
2.2.1 測量和數(shù)據(jù)收集問題 42
2.2.2 關(guān)于應(yīng)用的問題 49
2.3 數(shù)據(jù)預(yù)處理 50
2.3.1 聚集 51
2.3.2 抽樣 52
2.3.3 維歸約 56
2.3.4 特征子集選擇 58
2.3.5 特征創(chuàng)建 61
2.3.6 離散化和二元化 63
2.3.7 變量變換 69
2.4 相似性和相異性的度量 71
2.4.1 基礎(chǔ) 72
2.4.2 簡單屬性之間的相似度和相異度 74
2.4.3 數(shù)據(jù)對象之間的相異度 76
2.4.4 數(shù)據(jù)對象之間的相似度 78
2.4.5 鄰近度度量的例子 79
2.4.6 互信息 88
* 2.4.7 核函數(shù) 90
* 2.4.8 Bregman散度 94
2.4.9 鄰近度計算問題 96
2.4.10 選擇正確的鄰近度度量 98
2.5 文獻注釋 100
2.6 習(xí)題 105
第3章 分類:基本概念和技術(shù) 113
3.1 基本概念 114
3.2 一般的分類框架 117
3.3 決策樹分類器 119
3.3.1 構(gòu)建決策樹的基本算法 121
3.3.2 表示屬性測試條件的方法 124
3.3.3 選擇屬性測試條件的方法 127
3.3.4 決策樹歸納算法 136
3.3.5 示例:Web機器人檢測 138
3.3.6 決策樹分類器的特征 140
3.4 模型的過擬 147
3.5 模型選擇 156
3.5.1 驗證集應(yīng)用 156
3.5.2 模型復(fù)雜度合并 157
3.5.3 統(tǒng)計范圍估計 162
3.5.4 決策樹的模型選擇 162
3.6 模型評估 164
3.6.1 保持方法 165
3.6.2 交叉驗證 165
3.7 超參數(shù)的使用 168
3.7.1 超參數(shù)選擇 168
3.7.2 嵌套交叉驗證 170
3.8 模型選擇和評估中的陷阱 172
3.8.1 訓(xùn)練集和測試集之間的重疊 172
3.8.2 使用驗證錯誤率作為泛化錯誤率
*3.9 模型比較 173
3.9.1 估計準(zhǔn)確率的置信區(qū)間 174
3.9.2 比較兩個模型的性能 175
3.10 文獻注釋 176
3.11 習(xí)題 185
第4章 分類:其他技術(shù) 193
4.1 分類器的種類 193
4.2 基于規(guī)則的分類器 195
4.2.1 基于規(guī)則的分類器原理 197
4.2.2 規(guī)則集的屬性 198
4.2.3 規(guī)則提取的直接方法 199
4.2.4 規(guī)則提取的間接方法 204
4.2.5 基于規(guī)則的分類器的特點 206
4.3 *近鄰分類器 208
4.3.1 算法 209
4.3.2 *近鄰分類器的特點 210
4.4 樸素貝葉斯分類器 212
4.4.1 概率論基礎(chǔ) 213
4.4.2 樸素貝葉斯假設(shè) 218
4.5 貝葉斯網(wǎng)絡(luò) 227
4.5.1 圖表示 227
4.5.2 推理與學(xué)習(xí) 233
4.5.3 貝葉斯網(wǎng)絡(luò)的特點 242
4.6 logistic回歸 243
4.6.1 logistic回歸用作廣義線性模型 244
4.6.2 學(xué)習(xí)模型參數(shù) 245
4.6.3 logistic回歸模型的特點 248
4.7 人工神經(jīng)網(wǎng)絡(luò) 249
4.7.1 感知機 250
4.7.2 多層神經(jīng)網(wǎng)絡(luò) 254
4.7.3 人工神經(jīng)網(wǎng)絡(luò)的特點 261
4.8 深度學(xué)習(xí) 262
4.8.1 使用協(xié)同損失函數(shù) 263
4.8.2 使用響應(yīng)激活函數(shù) 266
4.8.3 正則化 268
4.8.4 模型參數(shù)的初始化 271
4.8.5 深度學(xué)習(xí)的特點 275
4.9 支持向量機 276
4.9.1 分離超平面的邊緣 276
4.9.2 線性SVM 278
4.9.3 軟邊緣SVM 284
4.9.4 非線性SVM 290
4.9.5 SVM的特點 294
4.10 組合方法 296
4.10.1 組合方法的基本原理 297
4.10.2 構(gòu)建組合分類器的方法 297
4.10.3 偏置–方差分解 300
4.10.4 裝袋 302
4.10.5 提升 305
4.10.6 隨機森林 310
4.10.7 組合方法的實驗比較 312
4.11 類不平衡問題 313
4.11.1 類不平衡的分類器構(gòu)建 314
4.11.2 帶類不平衡的性能評估 318
4.11.3 尋找*優(yōu)的評分閾值 322
4.11.4 綜合評估性能 323
4.12 多類問題 330
4.13 文獻注釋 333
4.14 習(xí)題 345
第5章 關(guān)聯(lián)分析:基本概念和算法 357
5.1 預(yù)備知識 358
5.2 頻繁項集的產(chǎn)生 362
5.2.1 先驗原理 363
5.2.2 Apriori算法的頻繁項集產(chǎn)生 364
5.2.3 候選項集的產(chǎn)生與剪枝 368
5.2.4 支持度計數(shù) 373
5.2.5 計算復(fù)雜度 377
5.3 規(guī)則的產(chǎn)生 380
5.3.1 基于置信度的剪枝 380
5.3.2 Apriori算法中規(guī)則的產(chǎn)生 381
5.3.3 示例:美國國會投票記錄 382
5.4 頻繁項集的緊湊表示 384
5.4.1 極大頻繁項集 384
5.4.2 閉項集 386
*5.5 其他產(chǎn)生頻繁項集的方法 389
*5.6 FP增長算法 393
5.6.1 FP樹表示法 394
5.6.2 FP增長算法的頻繁項集產(chǎn)生 397
5.7 關(guān)聯(lián)模式的評估 401
5.7.1 興趣度的客觀度量 402
5.7.2 多個二元變量的度量 414
5.7.3 辛普森悖論 416
5.8 傾斜支持度分布的影響 418
5.9 文獻注釋 424
5.10 習(xí)題 438
第6章 關(guān)聯(lián)分析:高級概念 451
6.1 處理分類屬性 451
6.2 處理連續(xù)屬性 454
6.2.1 基于離散化的方法 454
6.2.2 基于統(tǒng)計學(xué)的方法 458
6.2.3 非離散化方法 460
6.3 處理概念分層 462
6.4 序列模式 464
6.4.1 預(yù)備知識 465
6.4.2 序列模式發(fā)現(xiàn) 468
* 6.4.3 時限約束 473
* 6.4.4 可選計數(shù)方案 477
6.5 子圖模式 479
6.5.1 預(yù)備知識 480
6.5.2 頻繁子圖挖掘 483
6.5.3 候選生成 487
6.5.4 候選剪枝 493
6.5.5 支持度計數(shù) 493
*6.6 非頻繁模式 493
6.6.1 負(fù)模式 494
6.6.2 負(fù)相關(guān)模式 495
6.6.3 非頻繁模式、負(fù)模式和負(fù)相關(guān)模式比較 496
6.6.4 挖掘有趣的非頻繁模式的技術(shù) 498
6.6.5 基于挖掘負(fù)模式的技術(shù) 499
6.6.6 基于支持度期望的技術(shù) 501
6.7 文獻注釋 505
6.8 習(xí)題 510
第7章 聚類分析:基本概念和算法 525
7.1 概述 528
7.1.1 什么是聚類分析 528
7.1.2 聚類的不同類型 529
7.1.3 簇的不同類型 531
7.2 K均值 534
7.2.1 K均值算法 535
7.2.2 K均值:附加的問題 544
7.2.3 二分K均值 547
7.2.4 K均值和不同的簇類型 548
7.2.5 優(yōu)點與缺點 549
7.2.6 K均值作為優(yōu)化問題 549
7.3 凝聚層次聚類 554
7.3.1 基本凝聚層次聚類算法 555
7.3.2 特殊技術(shù) 557
7.3.3 簇鄰近度的Lance-Williams公式 562
7.3.4 層次聚類的主要問題 563
7.3.5 離群點 564
7.3.6 優(yōu)點與缺點 565
7.4 DBSCAN 565
7.4.1 傳統(tǒng)的密度:基于中心的方法 565
7.4.2 DBSCAN算法 567
7.4.3 優(yōu)點與缺點 569
7.5 簇評估 571
7.5.1 概述 571
7.5.2 無監(jiān)督簇評估:使用凝聚度和分離度 574
7.5.3 無監(jiān)督簇評估:使用鄰近度矩陣 582
7.5.4 層次聚類的無監(jiān)督評估 585
7.5.5 確定正確的簇個數(shù) 587
7.5.6 聚類趨勢 588
7.5.7 簇有效性的監(jiān)督度量 589
7.5.8 評估簇有效性度量的顯著性 594
7.5.9 簇有效性度量的選擇 596
7.6 文獻注釋 597
7.7 習(xí)題 603
第8章 聚類分析:其他問題與算法 613
8.1 數(shù)據(jù)、簇和聚類算法的特性 614
8.1.1 示例:比較K均值和DBSCAN 614
8.1.2 數(shù)據(jù)特性 615
8.1.3 簇特性 617
8.1.4 聚類算法的一般特性 619
8.2 基于原型的聚類 621
8.2.1 模糊聚類 621
8.2.2 使用混合模型的聚類 627
8.2.3 自組織映射 637
8.3 基于密度的聚類 644
8.3.1 基于網(wǎng)格的聚類 644
8.3.2 子空間聚類 648
8.3.3 DENCLUE:基于密度聚類的一種基于核的方案 652
8.4 基于圖的聚類 656
8.4.1 稀疏化 657
8.4.2 *小生成樹聚類 658
8.4.3 OPOSSUM:使用METIS的稀疏相似度*優(yōu)劃分 659
8.4.4 Chameleon:使用動態(tài)建模的層次聚類 660
8.4.5 譜聚類 666
8.4.6 共享*近鄰相似度 673
8.4.7 Jarvis-Patrick聚類算法 676
8.4.8 SNN密度 678
8.4.9 基于SNN密度的聚類 679
8.5 可伸縮的聚類算法 681
8.5.1 可伸縮:一般問題和方法 681
8.5.2 BIRCH 684
8.5.3 CURE 686
8.6 使用哪種聚類算法 690
8.7 文獻注釋 693
8.8 習(xí)題 699
第9章 異常檢測 703
9.1 異常檢測問題的特性 705
9.1.1 異常的定義 705
9.1.2 數(shù)據(jù)的性質(zhì) 706
9.1.3 如何使用異常檢測 707
9.2 異常檢測方法的特性 708
9.3 統(tǒng)計方法 710
9.3.1 使用參數(shù)模型 710
9.3.2 使用非參數(shù)模型 714
9.3.3 對正常類和異常類建模 715
9.3.4 評估統(tǒng)計意義 717
9.3.5 優(yōu)點與缺點 718
9.4 基于鄰近度的方法 719
9.4.1 基于距離的異常分?jǐn)?shù) 719
9.4.2 基于密度的異常分?jǐn)?shù) 720
9.4.3 基于相對密度的異常分?jǐn)?shù) 722
9.4.4 優(yōu)點與缺點 723
9.5 基于聚類的方法 724
9.5.1 發(fā)現(xiàn)異常簇 724
9.5.2 發(fā)現(xiàn)異常實例 725
9.5.3 優(yōu)點與缺點 728
9.6 基于重構(gòu)的方法 728
9.7 單類分類 732
9.7.1 核函數(shù)的使用 733
9.7.2 原點技巧 734
9.7.3 優(yōu)點與缺點 738
9.8 信息論方法 738
9.9 異常檢測評估 740
9.10 文獻注釋 742
9.11 習(xí)題 749
第10章 避免錯誤發(fā)現(xiàn) 755
10.1 預(yù)備知識:統(tǒng)計檢驗 756
10.1.1 顯著性檢驗 756
10.1.2 假設(shè)檢驗 761
10.1.3 多重假設(shè)檢驗 767
10.1.4 統(tǒng)計檢驗中的陷阱 776
10.2 對零分布和替代分布建模 778
10.2.1 生成合成數(shù)據(jù)集 781
10.2.2 隨機化類標(biāo) 782
10.2.3 實例重采樣 782
10.2.4 對檢驗統(tǒng)計量的分布建模 783
10.3 分類問題的統(tǒng)計檢驗 783
10.3.1 評估分類性能 783
10.3.2 以多重假設(shè)檢 驗處理二分類問題 785
10.3.3 模型選擇中的多重假設(shè)檢驗 786
10.4 關(guān)聯(lián)分析的統(tǒng)計檢驗 787
10.4.1 使用統(tǒng)計模型 788
10.4.2 使用隨機化方法 794
10.5 聚類分析的統(tǒng)計檢驗 795
10.5.1 為內(nèi)部指標(biāo)生成零分布 796
10.5.2 為外部指標(biāo)生成零分布 798
10.5.3 富集 798
10.6 異常檢測的統(tǒng)計檢驗 800
10.7 文獻注釋 803
10.8 習(xí)題 808
Contents
1 Introduction 1
1.1 What Is Data Mining? 4
1.2 Motivating Challenges 5
1.3 The Origins of Data Mining 7
1.4 Data Mining Tasks 9
1.5 Scope and Organization of the Book 13
1.6 Bibliographic Notes 15
1.7 Exercises 21
2 Data 23
2.1 Types of Data 26
2.1.1 Attributes and Measurement 27
2.1.2 Types of Data Sets 34
2.2 Data Quality 42
2.2.1 Measurement and Data Collection Issues 42
2.2.2 Issues Related to Applications 49
2.3 Data Preprocessing 50
2.3.1 Aggregation 51
2.3.2 Sampling 52
2.3.3 Dimensionality Reduction 56
經(jīng)典原版書庫數(shù)據(jù)挖掘?qū)д?英文版.原書第2版)/[美]陳封能 作者簡介
陳封能(Pang-Ning Tan) 密歇根州立大學(xué)計算機科學(xué)與工程系教授,主要研究方向是數(shù)據(jù)挖掘、數(shù)據(jù)庫系統(tǒng)、網(wǎng)絡(luò)空間安全、網(wǎng)絡(luò)分析等。
- >
上帝之肋:男人的真實旅程
- >
經(jīng)典常談
- >
苦雨齋序跋文-周作人自編集
- >
自卑與超越
- >
中國歷史的瞬間
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
羅曼·羅蘭讀書隨筆-精裝
- >
人文閱讀與收藏·良友文學(xué)叢書:一天的工作