白話(huà)大數(shù)據(jù)與機(jī)器學(xué)習(xí)pdf版是資深大數(shù)據(jù)專(zhuān)家多年實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié)的一本書(shū)籍,由高揚(yáng),衛(wèi)崢和尹會(huì)生三人共同編著。本書(shū)以降低學(xué)習(xí)曲線(xiàn)和閱讀難度為宗旨,重點(diǎn)講解了統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘算法、實(shí)際應(yīng)用案例、數(shù)據(jù)價(jià)值與變現(xiàn),以及高級(jí)拓展技能,清晰勾勒出大數(shù)據(jù)技術(shù)路線(xiàn)與產(chǎn)業(yè)藍(lán)圖。
作者通過(guò)通俗易懂的語(yǔ)言,結(jié)合大量案例與漫畫(huà),將高度抽象的數(shù)學(xué)、算法與應(yīng)用,與現(xiàn)實(shí)生活中的案例和事件一一做了關(guān)聯(lián),將源自生活的抽象還原出來(lái),幫助讀者理解后,又帶領(lǐng)大家將這些抽象的規(guī)律與算法應(yīng)用于實(shí)踐,貼合讀者需求,是系統(tǒng)學(xué)習(xí)大數(shù)據(jù)與機(jī)器學(xué)習(xí)的不二之選。
內(nèi)容介紹
資深大數(shù)據(jù)專(zhuān)家多年實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié),拒絕晦澀,開(kāi)啟大數(shù)據(jù)與機(jī)器學(xué)習(xí)妙趣之旅。以降低學(xué)習(xí)曲線(xiàn)和閱讀難度為宗旨,系統(tǒng)講解統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘算法、實(shí)際應(yīng)用案例、數(shù)據(jù)價(jià)值與變現(xiàn),以及高級(jí)拓展技能,并清晰勾勒出大數(shù)據(jù)技術(shù)路線(xiàn)與產(chǎn)業(yè)藍(lán)圖。
《白話(huà)大數(shù)據(jù)與機(jī)器學(xué)習(xí)》共分18章。用通俗易懂的語(yǔ)言,結(jié)合大量案例與漫畫(huà),不枯燥,實(shí)用、接地氣。
第1~5章,這部分是大數(shù)據(jù)入門(mén)所需的系統(tǒng)性知識(shí),剖析大數(shù)據(jù)產(chǎn)業(yè)、數(shù)據(jù)與信息算法等的關(guān)系,妙解數(shù)學(xué)基礎(chǔ)(排列組合、概率、統(tǒng)計(jì)與分布),以及指標(biāo)化運(yùn)營(yíng)及體系構(gòu)建。這部分補(bǔ)足讀者的產(chǎn)業(yè)與相關(guān)概念認(rèn)知,以及所需的數(shù)學(xué)知識(shí)。為下面的數(shù)據(jù)挖掘算法的理解與應(yīng)用夯實(shí)基礎(chǔ)。
第6~8章,這部分介紹數(shù)據(jù)挖掘基礎(chǔ)知識(shí)與算法,講解了與數(shù)據(jù)息息相關(guān)的信息論,重點(diǎn)講解了:多維向量空間(向量和維度、矩陣及其計(jì)算、上卷和下鉆);
回歸(線(xiàn)性回歸、殘差分析、擬合相關(guān)問(wèn)題);
聚類(lèi)(K-Means算法、有趣模式、孤立點(diǎn)、層次與密度聚類(lèi),聚類(lèi)的評(píng)估等);
分類(lèi)(樸素貝葉斯、決策樹(shù)歸納、隨機(jī)森林、隱馬爾科夫模型、SVM、遺傳算法)。
第11~18章,這部分介紹生產(chǎn)應(yīng)用與高級(jí)擴(kuò)展。其中第11~15章介紹生產(chǎn)應(yīng)用實(shí)踐,涵蓋關(guān)聯(lián)分析、用戶(hù)畫(huà)像、推薦算法、文本挖掘、人工神經(jīng)網(wǎng)絡(luò)。這些也是工業(yè)界和學(xué)術(shù)界研究的熱點(diǎn)。第16章講解了著名的大數(shù)據(jù)框架及其安裝與配置,如Hadoop、Spark、Cassandra、PrestoDB。第17章從速度與穩(wěn)定性維度介紹了大數(shù)據(jù)系統(tǒng)的架構(gòu)與調(diào)優(yōu)。第18章則從數(shù)據(jù)運(yùn)營(yíng)、評(píng)估、展現(xiàn)與變現(xiàn)場(chǎng)景層面進(jìn)行了解讀。
章節(jié)目錄
第1章大數(shù)據(jù)產(chǎn)業(yè)1
1.1大數(shù)據(jù)產(chǎn)業(yè)現(xiàn)狀1
1.2對(duì)大數(shù)據(jù)產(chǎn)業(yè)的理解2
1.3大數(shù)據(jù)人才3
1.3.1供需失衡3
1.3.2人才方向3
1.3.3環(huán)節(jié)和工具5
1.3.4門(mén)檻障礙6
1.4小結(jié)8
第2章步入數(shù)據(jù)之門(mén)9
2.1什么是數(shù)據(jù)9
2.2什么是信息10
2.3什么是算法12
2.4統(tǒng)計(jì)、概率和數(shù)據(jù)挖掘13
2.5什么是商業(yè)智能13
2.6小結(jié)14
第3章排列組合與古典概型15
3.1排列組合的概念16
3.1.1公平的決斷——扔硬幣16
3.1.2非古典概型17
3.2排列組合的應(yīng)用示例18
3.2.1雙色球18
3.2.2購(gòu)車(chē)搖號(hào)20
3.2.3德州撲克21
3.3小結(jié)25
第4章統(tǒng)計(jì)與分布27
4.1加和值、平均值和標(biāo)準(zhǔn)差27
4.1.1加和值28
4.1.2平均值29
4.1.3標(biāo)準(zhǔn)差30
4.2加權(quán)均值32
4.2.1混合物定價(jià)32
4.2.2決策權(quán)衡34
4.3眾數(shù)、中位數(shù)35
4.3.1眾數(shù)36
4.3.2中位數(shù)37
4.4歐氏距離37
4.5曼哈頓距離39
4.6同比和環(huán)比41
4.7抽樣43
4.8高斯分布45
4.9泊松分布49
4.10伯努利分布52
4.11小結(jié)54
第5章指標(biāo)55
5.1什么是指標(biāo)55
5.2指標(biāo)化運(yùn)營(yíng)58
5.2.1指標(biāo)的選擇58
5.2.2指標(biāo)體系的構(gòu)建62
5.3小結(jié)63
第6章信息論64
6.1信息的定義64
6.2信息量65
6.2.1信息量的計(jì)算65
6.2.2信息量的理解66
6.3香農(nóng)公式68
6.4熵70
6.4.1熱力熵70
6.4.2信息熵72
6.5小結(jié)75
第7章多維向量空間76
7.1向量和維度76
7.1.1信息冗余77
7.1.2維度79
7.2矩陣和矩陣計(jì)算80
7.3數(shù)據(jù)立方體83
7.4上卷和下鉆85
7.5小結(jié)86
第8章回歸87
8.1線(xiàn)性回歸87
8.2擬合88
8.3殘差分析94
8.4過(guò)擬合99
8.5欠擬合100
8.6曲線(xiàn)擬合轉(zhuǎn)化為線(xiàn)性擬合101
8.7小結(jié)104
第9章聚類(lèi)105
9.1K-Means算法106
9.2有趣模式109
9.3孤立點(diǎn)110
9.4層次聚類(lèi)110
9.5密度聚類(lèi)113
9.6聚類(lèi)評(píng)估116
9.6.1聚類(lèi)趨勢(shì)117
9.6.2簇?cái)?shù)確定119
9.6.3測(cè)定聚類(lèi)質(zhì)量121
9.7小結(jié)124
第10章分類(lèi)125
10.1樸素貝葉斯126
10.1.1天氣的預(yù)測(cè)128
10.1.2疾病的預(yù)測(cè)130
10.1.3小結(jié)132
10.2決策樹(shù)歸納133
10.2.1樣本收集135
10.2.2信息增益136
10.2.3連續(xù)型變量137
10.3隨機(jī)森林140
10.4隱馬爾可夫模型141
10.4.1維特比算法144
10.4.2前向算法151
10.5支持向量機(jī)SVM154
10.5.1年齡和好壞154
10.5.2“下刀”不容易157
10.5.3距離有多遠(yuǎn)158
10.5.4N維度空間中的距離159
10.5.5超平面怎么畫(huà)160
10.5.6分不開(kāi)怎么辦160
10.5.7示例163
10.5.8小結(jié)164
10.6遺傳算法164
10.6.1進(jìn)化過(guò)程164
10.6.2算法過(guò)程165
10.6.3背包問(wèn)題165
10.6.4極大值問(wèn)題173
10.7小結(jié)181
第11章關(guān)聯(lián)分析183
11.1頻繁模式和Apriori算法184
11.1.1頻繁模式184
11.1.2支持度和置信度185
11.1.3經(jīng)典的Apriori算法187
11.1.4求出所有頻繁模式190
11.2關(guān)聯(lián)分析與相關(guān)性分析192
11.3稀有模式和負(fù)模式193
11.4小結(jié)194
第12章用戶(hù)畫(huà)像195
12.1標(biāo)簽195
12.2畫(huà)像的方法196
12.2.1結(jié)構(gòu)化標(biāo)簽196
12.2.2非結(jié)構(gòu)化標(biāo)簽198
12.3利用用戶(hù)畫(huà)像203
12.3.1割裂型用戶(hù)畫(huà)像203
12.3.2緊密型用戶(hù)畫(huà)像204
12.3.3到底“像不像”204
12.4小結(jié)205
第13章推薦算法206
13.1推薦思路206
13.1.1貝葉斯分類(lèi)206
13.1.2利用搜索記錄207
13.2User-basedCF209
13.3Item-basedCF211
13.4優(yōu)化問(wèn)題215
13.5小結(jié)217
第14章文本挖掘218
14.1文本挖掘的領(lǐng)域218
14.2文本分類(lèi)219
14.2.1Rocchio算法220
14.2.2樸素貝葉斯算法223
14.2.3K-近鄰算法225
14.2.4支持向量機(jī)SVM算法226
14.3小結(jié)227
第15章人工神經(jīng)網(wǎng)絡(luò)228
15.1人的神經(jīng)網(wǎng)絡(luò)228
15.1.1神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)229
15.1.2結(jié)構(gòu)模擬230
15.1.3訓(xùn)練與工作231
15.2FANN庫(kù)簡(jiǎn)介233
15.3常見(jiàn)的神經(jīng)網(wǎng)絡(luò)235
15.4BP神經(jīng)網(wǎng)絡(luò)235
15.4.1結(jié)構(gòu)和原理236
15.4.2訓(xùn)練過(guò)程237
15.4.3過(guò)程解釋240
15.4.4示例240
15.5玻爾茲曼機(jī)244
15.5.1退火模型244
15.5.2玻爾茲曼機(jī)245
15.6卷積神經(jīng)網(wǎng)絡(luò)247
15.6.1卷積248
15.6.2圖像識(shí)別249
15.7深度學(xué)習(xí)255
15.8小結(jié)256
第16章大數(shù)據(jù)框架簡(jiǎn)介257
16.1著名的大數(shù)據(jù)框架257
16.2Hadoop框架258
16.2.1MapReduce原理259
16.2.2安裝Hadoop261
16.2.3經(jīng)典的WordCount264
16.3Spark框架269
16.3.1安裝Spark270
16.3.2使用Scala計(jì)算WordCount271
16.4分布式列存儲(chǔ)框架272
16.5PrestoDB——神奇的CLI273
16.5.1Presto為什么那么快273
16.5.2安裝Presto274
16.6小結(jié)277
第17章系統(tǒng)架構(gòu)和調(diào)優(yōu)278
17.1速度——資源的配置278
17.1.1思路一:邏輯層面的優(yōu)化279
17.1.2思路二:容器層面的優(yōu)化279
17.1.3思路三:存儲(chǔ)結(jié)構(gòu)層面的優(yōu)化280
17.1.4思路四:環(huán)節(jié)層面的優(yōu)化280
17.1.5資源不足281
17.2穩(wěn)定——資源的可用282
17.2.1借助云服務(wù)282
17.2.2鎖分散282
17.2.3排隊(duì)283
17.2.4謹(jǐn)防“雪崩”283
17.3小結(jié)285
第18章數(shù)據(jù)解讀與數(shù)據(jù)的價(jià)值286
18.1運(yùn)營(yíng)指標(biāo)286
18.1.1互聯(lián)網(wǎng)類(lèi)型公司常用指標(biāo)287
18.1.2注意事項(xiàng)288
18.2AB測(cè)試289
18.2.1網(wǎng)頁(yè)測(cè)試290
18.2.2方案測(cè)試290
18.2.3灰度發(fā)布292
18.2.4注意事項(xiàng)293
18.3數(shù)據(jù)可視化295
18.3.1圖表295
18.3.2表格299
18.4多維度——大數(shù)據(jù)的靈魂299
18.4.1多大算大299
18.4.2大數(shù)據(jù)網(wǎng)絡(luò)300
18.4.3去中心化才能活躍301
18.4.4數(shù)據(jù)會(huì)過(guò)剩嗎302
18.5數(shù)據(jù)變現(xiàn)的場(chǎng)景303
18.5.1數(shù)據(jù)價(jià)值的衡量的討論303
18.5.2場(chǎng)景1:征信數(shù)據(jù)307
18.5.3場(chǎng)景2:宏觀數(shù)據(jù)308
18.5.4場(chǎng)景3:畫(huà)像數(shù)據(jù)309
18.6小結(jié)310
附錄AVMwareWorkstation的安裝311
附錄BCentOS虛擬機(jī)的安裝方法314
附錄CPython語(yǔ)言簡(jiǎn)介318
附錄DScikit-learn庫(kù)簡(jiǎn)介323
附錄EFANNforPython安裝324
附錄F群眾眼中的大數(shù)據(jù)325
寫(xiě)作花絮327
參考文獻(xiàn)329
使用說(shuō)明
1、下載并解壓,得出pdf文件
2、如果打不開(kāi)本文件,請(qǐng)務(wù)必下載pdf閱讀器
3、安裝后,在打開(kāi)解壓得出的pdf文件
4、雙擊進(jìn)行閱讀
- 下載地址
- 本地下載通道:
- 浙江電信下載
- 北京聯(lián)通下載
- 江蘇電信下載
- 廣東電信下載
有問(wèn)題? 點(diǎn)此報(bào)錯(cuò)
發(fā)表評(píng)論
0條評(píng)論軟件排行榜
熱門(mén)推薦
- 南方Plus電腦版 v12.0.027.06M / 簡(jiǎn)體中文
- cnki全球?qū)W術(shù)快報(bào)電腦版 v1.0.2140.3M / 簡(jiǎn)體中文
- 京東讀書(shū)電腦版 v1.13.4官方版1.98M / 簡(jiǎn)體中文
- 數(shù)據(jù)挖掘?qū)д?官方版61.61M / 簡(jiǎn)體中文
- 網(wǎng)易云閱讀電腦版 v6.7.226.41M / 簡(jiǎn)體中文
- linux常用命令大全 chm版1.48M / 簡(jiǎn)體中文
- 本草綱目 5.34M / 簡(jiǎn)體中文
- docker入門(mén)實(shí)戰(zhàn) pdf完整版1.38M / 簡(jiǎn)體中文
- C++黑客編程揭秘與防范第2版 冀云pdf掃描版54.58M / 簡(jiǎn)體中文
- C++多核高級(jí)編程 修斯pdf掃描版57.21M / 簡(jiǎn)體中文