數(shù)據(jù)整理實(shí)踐指南
-
>
決戰(zhàn)行測(cè)5000題(言語(yǔ)理解與表達(dá))
-
>
軟件性能測(cè)試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
深度學(xué)習(xí)
-
>
Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程
-
>
深入理解計(jì)算機(jī)系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應(yīng)用從入門到精通-(附贈(zèng)1DVD.含語(yǔ)音視頻教學(xué)+辦公模板+PDF電子書)
數(shù)據(jù)整理實(shí)踐指南 版權(quán)信息
- ISBN:9787115411020
- 條形碼:9787115411020 ; 978-7-115-41102-0
- 裝幀:簡(jiǎn)裝本
- 冊(cè)數(shù):暫無(wú)
- 重量:暫無(wú)
- 所屬分類:>
數(shù)據(jù)整理實(shí)踐指南 本書特色
隨著數(shù)據(jù)科學(xué)的熱門,數(shù)據(jù)的優(yōu)化、整理以及如何處理不良數(shù)據(jù)成為人們關(guān)注的重點(diǎn)。本書通過(guò)處理不良數(shù)據(jù),進(jìn)行數(shù)據(jù)清理的案例,向讀者展示了處理數(shù)據(jù)的方法。本書共有19章,從6部分向讀者展示了使用和清理不良數(shù)據(jù)背后的理論和實(shí)踐。第1部分是grubby的動(dòng)手實(shí)踐指南,它向讀者介紹了駕馭、提取數(shù)據(jù)的方法,如何處理文本數(shù)據(jù)中的數(shù)據(jù)以及web開發(fā)中碰到的數(shù)據(jù)問(wèn)題。第2部分是讓人充滿意外的數(shù)據(jù),它向讀者介紹了數(shù)據(jù)也會(huì)“撒謊”。第3部分是方法,它向讀者介紹了處理不良數(shù)據(jù)的一些方法。第4部分是數(shù)據(jù)存儲(chǔ)和基礎(chǔ)設(shè)施,它向讀者介紹了如何存儲(chǔ)數(shù)據(jù)。第5部分是數(shù)據(jù)的商業(yè)化,它向讀者介紹了如何避免數(shù)據(jù)處理的一些誤差。第6部分是數(shù)據(jù)策略,它向讀者介紹了如何追蹤數(shù)據(jù)、評(píng)估數(shù)據(jù)質(zhì)量以及構(gòu)建數(shù)據(jù)質(zhì)量相關(guān)平臺(tái)等。本書適合數(shù)據(jù)科學(xué)家、數(shù)據(jù)處理和整理相關(guān)開發(fā)人員閱讀。也適合想要進(jìn)入數(shù)據(jù)處理領(lǐng)域的讀者閱讀。
數(shù)據(jù)整理實(shí)踐指南 內(nèi)容簡(jiǎn)介
作者攜手?jǐn)?shù)據(jù)領(lǐng)域的強(qiáng)大智囊團(tuán)為讀者貢獻(xiàn)的一本處理噪音數(shù)據(jù)的指南。本書囊括眾多真實(shí)世界的應(yīng)用案例以及高水平的方法和策略。本書匯集國(guó)外數(shù)據(jù)社區(qū)的技術(shù)骨干和活躍分子的集體智慧,多位數(shù)據(jù)領(lǐng)域的專家共同揭示了如何處理棘手的數(shù)據(jù)問(wèn)題的奧秘。噪音數(shù)據(jù)就是那些"給你惹麻煩的數(shù)據(jù)",從蹩腳的存儲(chǔ)到糟糕的說(shuō)明,再到令人誤解的策略,有多重情況可能導(dǎo)致噪音數(shù)據(jù)。那么什么才是決定性因素呢?有人認(rèn)為是技術(shù)方面的問(wèn)題,比如缺失值或格式不對(duì)的記錄,但是噪音數(shù)據(jù)包含更多的問(wèn)題。本書介紹了多種有效的方式來(lái)應(yīng)對(duì)噪音數(shù)據(jù)。在本書中,多位數(shù)據(jù)領(lǐng)域的專家共同揭示了如何處理棘手的數(shù)據(jù)問(wèn)題的奧秘。通過(guò)閱讀本書,你將學(xué)會(huì):測(cè)試你的數(shù)據(jù),判斷它是否適合分析;將電子表格數(shù)據(jù)轉(zhuǎn)變成可用的格式;處理潛藏在文本數(shù)據(jù)里的編碼問(wèn)題;進(jìn)行一種成功的網(wǎng)絡(luò)搜集嘗試;利用自然語(yǔ)言處理(nlp, natural language processing)工具揭露線上評(píng)論的真實(shí)情感;處理可以影響分析工作的云計(jì)算問(wèn)題;避免那些制造數(shù)據(jù)分析障礙的策略;采用一種系統(tǒng)的數(shù)據(jù)質(zhì)量分析方法。
數(shù)據(jù)整理實(shí)踐指南 目錄
第1章 從頭說(shuō)起:什么是噪音數(shù)據(jù) 1
第2章 是我的問(wèn)題還是數(shù)據(jù)的問(wèn)題 4
2.1 理解數(shù)據(jù)結(jié)構(gòu) 5
2.2 校驗(yàn) 8
2.2.1 字段校驗(yàn) 8
2.2.2 值校驗(yàn) 9
2.2.3 簡(jiǎn)單統(tǒng)計(jì)的物理解釋 10
2.3 可視化 11
2.3.1 關(guān)鍵詞競(jìng)價(jià)排名示例 13
2.3.2 搜索來(lái)源示例 18
2.3.3 推薦分析 19
2.3.4 時(shí)間序列數(shù)據(jù) 22
2.4 小結(jié) 27
第3章 數(shù)據(jù)是給人看的不是給機(jī)器看的 28
3.1 數(shù)據(jù) 28
3.1.1 問(wèn)題:數(shù)據(jù)是給人看的 29
3.1.2 對(duì)數(shù)據(jù)的安排 29
3.1.3 數(shù)據(jù)分散在多個(gè)文件中 32
3.2 解決方案:編寫代碼 34
3.2.1 從糟糕的數(shù)據(jù)格式中讀取數(shù)據(jù) 34
3.2.2 從多個(gè)文件中讀取數(shù)據(jù) 36
3.3 附言 42
3.4 其他格式 43
3.5 小結(jié) 45
第4章 純文本中潛在的噪音數(shù)據(jù) 46
4.1 使用哪種純文本編碼? 46
4.2 猜測(cè)文本編碼格式 50
4.3 對(duì)文本規(guī)范化處理 53
4.4 問(wèn)題:在純文本中摻入了特定應(yīng)用字符 55
4.5 通過(guò)python處理文本 59
4.6 實(shí)踐練習(xí)題 60
第5章 重組web數(shù)據(jù) 62
5.1 你能獲得數(shù)據(jù)嗎 63
5.1.1 一般工作流程示例 64
5.1.2 robots 協(xié)議 65
5.1.3 識(shí)別數(shù)據(jù)組織模式 66
5.1.4 存儲(chǔ)離線版本 68
5.1.5 網(wǎng)頁(yè)抓取信息 69
5.2 真正的困難 73
5.2.1 下載原始內(nèi)容 73
5.2.2 表單、對(duì)話框和新建窗口 73
5.2.3 flash 74
5.3 不利情況的解決辦法 75
5.4 小結(jié) 75
第6章 檢測(cè)撒謊者以及相互矛盾網(wǎng)上評(píng)論的困惑 76
6.1 weotta公司 76
6.2 獲得評(píng)論 77
6.3 情感分類 77
6.4 極化語(yǔ)言 78
6.5 創(chuàng)建語(yǔ)料庫(kù) 80
6.6 訓(xùn)練分類器 81
6.7 分類器驗(yàn)證 82
6.8 用數(shù)據(jù)設(shè)計(jì) 84
6.9 經(jīng)驗(yàn)教訓(xùn) 84
6.10 小結(jié) 85
6.11 信息資源 86
第7章 請(qǐng)?jiān)胍魯?shù)據(jù)站出
數(shù)據(jù)整理實(shí)踐指南 作者簡(jiǎn)介
Q.Ethan McCallum 是一位顧問(wèn)、作家,也是一名科技愛(ài)好者。他幫助很多公司在數(shù)據(jù)和技術(shù)方面做出明智的決策,他為The O’Relly Network 和Java.net撰寫文章,并且為《C/C++Users Journal》《Doctor Dobb’s Journal》和《Linux Magazine》撰稿。
- >
月亮與六便士
- >
姑媽的寶刀
- >
朝聞道
- >
李白與唐代文化
- >
伯納黛特,你要去哪(2021新版)
- >
巴金-再思錄
- >
中國(guó)歷史的瞬間
- >
人文閱讀與收藏·良友文學(xué)叢書:一天的工作