寫給程序員的數(shù)據(jù)挖掘?qū)嵺`指南是一本數(shù)據(jù)挖掘技術(shù)指導(dǎo)手冊(cè),由軟件開發(fā)工程師Ron Zacharski編著,知名技術(shù)譯者王斌老師譯作。本書作者采用在實(shí)踐中學(xué)的方式,提供了大量Python的代碼和案例,同時(shí)還詳細(xì)的介紹了如何應(yīng)用數(shù)據(jù)挖掘技術(shù)。通過閱讀本書,可以幫助讀者動(dòng)手實(shí)踐進(jìn)行數(shù)據(jù)挖掘、集體智慧并構(gòu)建出推薦系統(tǒng),非常適合對(duì)數(shù)據(jù)挖掘、數(shù)據(jù)分析和推薦系統(tǒng)感興趣的程序員及相關(guān)領(lǐng)域的從業(yè)者閱讀參考。
內(nèi)容介紹
數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。大多數(shù)數(shù)據(jù)挖掘的教材都專注于介紹理論基礎(chǔ),因而往往難以理解和學(xué)習(xí)?!秾懡o程序員的數(shù)據(jù)挖掘?qū)嵺`指南》是介紹寫給程序員的一本數(shù)據(jù)挖掘指南,可以幫助讀者動(dòng)手實(shí)踐進(jìn)行數(shù)據(jù)挖掘、集體智慧并構(gòu)建推薦系統(tǒng)。全書共8章,介紹了數(shù)據(jù)挖掘的基本知識(shí)和理論、協(xié)同過濾、內(nèi)容過濾及分類、算法評(píng)估、樸素貝葉斯、非結(jié)構(gòu)化文本分類以及聚類等內(nèi)容。全書采用做中學(xué)的方式,用生動(dòng)的圖示、大量的表格、簡(jiǎn)明的公式,實(shí)用的Python代碼示例,闡釋數(shù)據(jù)挖掘的知識(shí)和技能。每章還給出了習(xí)題和練習(xí),幫助讀者鞏固所學(xué)的知識(shí)。
《寫給程序員的數(shù)據(jù)挖掘?qū)嵺`指南》專注適合對(duì)數(shù)據(jù)挖掘、數(shù)據(jù)分析和推薦系統(tǒng)感興趣的程序員及相關(guān)領(lǐng)域的從業(yè)者閱讀參考;同時(shí),本書也可以作為一本輕松有趣的數(shù)據(jù)挖掘課程教學(xué)參考書。
章節(jié)目錄
第1章 數(shù)據(jù)挖掘簡(jiǎn)介及本書使用方法1
歡迎來到21世紀(jì)2
并不只是對(duì)象5
TB級(jí)挖掘是現(xiàn)實(shí)不是科幻7
本書體例9
第2章 協(xié)同過濾—愛你所愛14
如何尋找相似用戶15
曼哈頓距離16
歐氏距離16
N維下的思考18
一般化22
Python中數(shù)據(jù)表示方法及代碼24
計(jì)算曼哈頓距離的代碼25
用戶的評(píng)級(jí)差異28
皮爾遜相關(guān)系數(shù)30
在繼續(xù)之前稍微休息一下35
最后一個(gè)公式—余弦相似度36
相似度的選擇40
一些怪異的事情43
k近鄰44
Python的一個(gè)推薦類47
一個(gè)新數(shù)據(jù)集54
第3章 協(xié)同過濾—隱式評(píng)級(jí)及基于物品的過濾56
隱式評(píng)級(jí)57
調(diào)整后的余弦相似度67
Slope One算法76
Slope One算法的粗略描述圖77
基于Python的實(shí)現(xiàn)83
加權(quán)Slope One:推薦模塊88
MovieLens數(shù)據(jù)集90
第4章 內(nèi)容過濾及分類—基于物品屬性的過濾93
一個(gè)簡(jiǎn)單的例子98
用Python實(shí)現(xiàn)101
給出推薦的原因102
一個(gè)取值范圍的問題104
歸一化105
改進(jìn)的標(biāo)準(zhǔn)分?jǐn)?shù)109
歸一化 vs. 不歸一化111
回到Pandora112
體育項(xiàng)目的識(shí)別119
Python編程123
就是它了133
汽車MPG數(shù)據(jù)135
雜談137
第5章 分類的進(jìn)一步探討—算法評(píng)估及kNN139
訓(xùn)練集和測(cè)試集140
10折交叉驗(yàn)證的例子142
混淆矩陣146
一個(gè)編程的例子148
Kappa統(tǒng)計(jì)量154
近鄰算法的改進(jìn)159
一個(gè)新數(shù)據(jù)集及挑戰(zhàn)163
更多數(shù)據(jù)、更好的算法以及一輛破公共汽車168
第6章 概率及樸素貝葉斯—樸素貝葉斯170
微軟購(gòu)物車174
貝葉斯定理177
為什么需要貝葉斯定理185
i100 i500188
用Python編程實(shí)現(xiàn)191
共和黨 vs. 民主黨197
數(shù)字205
Python實(shí)現(xiàn)214
這種做法會(huì)比近鄰算法好嗎221
第7章 樸素貝葉斯及文本—非結(jié)構(gòu)化文本分類226
一個(gè)文本正負(fù)傾向性的自動(dòng)判定系統(tǒng)228
訓(xùn)練階段232
第8章 聚類—群組發(fā)現(xiàn)256
k-means聚類281
SSE或散度289
小結(jié)303
安然公司305
使用說明
1、下載并解壓,得出pdf文件
2、如果打不開本文件,請(qǐng)務(wù)必下載pdf閱讀器
3、安裝后,在打開解壓得出的pdf文件
4、雙擊進(jìn)行閱讀
- 下載地址
- 本地下載通道:
- 浙江電信下載
- 北京聯(lián)通下載
- 江蘇電信下載
- 廣東電信下載
有問題? 點(diǎn)此報(bào)錯(cuò)
發(fā)表評(píng)論
0條評(píng)論軟件排行榜
熱門推薦
- 有柿電腦版 v11.5.784.12M / 簡(jiǎn)體中文
- 得間免費(fèi)小說電腦版 v5.2.8.172.96M / 簡(jiǎn)體中文
- 南方Plus電腦版 v11.8.027.22M / 簡(jiǎn)體中文
- 網(wǎng)易新聞電腦版 v112.697.63M / 簡(jiǎn)體中文
- 數(shù)據(jù)挖掘?qū)д?官方版61.61M / 簡(jiǎn)體中文
- 吉利博瑞用戶手冊(cè) pdf高清版57.89M / 簡(jiǎn)體中文
- 京東讀書電腦版 v1.13.4官方版1.98M / 簡(jiǎn)體中文
- linux常用命令大全 chm版1.48M / 簡(jiǎn)體中文
- 本草綱目 5.34M / 簡(jiǎn)體中文
- C++黑客編程揭秘與防范第2版 冀云pdf掃描版54.58M / 簡(jiǎn)體中文