入門數(shù)據(jù)分析的一些建議
最近經(jīng)常被問到怎么入門數(shù)據(jù)分析,可能很多同學(xué)對(duì)怎么開始學(xué)習(xí)還是比較困惑的。我回想自己學(xué)習(xí)數(shù)據(jù)分析的經(jīng)歷,總結(jié)了一些建議,希望能給到大家?guī)椭?/p>
- 作者:shenzhongqiang來(lái)源:Python與數(shù)據(jù)分析|2018-11-20 14:24
最近經(jīng)常被問到怎么入門數(shù)據(jù)分析,可能很多同學(xué)對(duì)怎么開始學(xué)習(xí)還是比較困惑的。我回想自己學(xué)習(xí)數(shù)據(jù)分析的經(jīng)歷,總結(jié)了一些建議,希望能給到大家?guī)椭?/p>
打好概率與統(tǒng)計(jì)的基礎(chǔ)
概率與統(tǒng)計(jì)是數(shù)據(jù)分析的基石,像一些概率分布、抽樣、線性回歸、時(shí)間序列都是數(shù)據(jù)分析當(dāng)中經(jīng)常會(huì)用到的,可以說(shuō)日常碰到的大部分的分析需求都可以用統(tǒng)計(jì)分析來(lái)解決。
理工科專業(yè)的同學(xué)大多在本科期間就學(xué)過概率與統(tǒng)計(jì)這門課,這部分的基礎(chǔ)應(yīng)該還是比較扎實(shí)的。對(duì)于沒有基礎(chǔ)的同學(xué),有一本叫《深入淺出統(tǒng)計(jì)學(xué)》的書非常值得一讀,豆瓣上的評(píng)分8.5分
這本書非常通俗易懂,講理論知識(shí)的時(shí)候結(jié)合了很多案例,把統(tǒng)計(jì)學(xué)應(yīng)用到解決實(shí)際問題當(dāng)中,讓原本枯燥的統(tǒng)計(jì)學(xué)原理變得有趣起來(lái),適合非專業(yè)人士入門學(xué)習(xí)。
掌握數(shù)據(jù)庫(kù)技能
做數(shù)據(jù)分析離不開查詢數(shù)據(jù)庫(kù),這里主要涉及的是SQL。對(duì)于傳統(tǒng)的數(shù)據(jù)庫(kù)如MySQL,SQL Server,Oracle,或者大數(shù)據(jù)平臺(tái)Hadoop,都可以通過SQL查詢的方式來(lái)獲取數(shù)據(jù)。入門SQL的書推薦一本《MySQL必知必會(huì)》,豆瓣評(píng)分8.4分。
這本書實(shí)踐性很強(qiáng),教你怎么用SQL語(yǔ)句操作MySQL。可以自己在電腦上裝一個(gè)MySQL,跟著書中的案例操作一遍。
掌握Python或者R
Python和R是數(shù)據(jù)分析當(dāng)中最常用的兩門語(yǔ)言。R是為數(shù)據(jù)分析而生的一門語(yǔ)言,但Python在數(shù)據(jù)分析方面有后來(lái)居上的趨勢(shì)。公司里的數(shù)據(jù)科學(xué)團(tuán)隊(duì)在幾年前還是用R做的分析,最近一年已經(jīng)轉(zhuǎn)向Python了,身邊的朋友也聽到很多R轉(zhuǎn)Python的。性能上來(lái)說(shuō),Python的速度更快,可以處理上G的數(shù)據(jù),而R不行。所以長(zhǎng)遠(yuǎn)來(lái)說(shuō),我還是看好Python的。
講Python基礎(chǔ)的有一本《A byte of Python》非常推薦,我當(dāng)初就是看這本書入門的,讀起來(lái)很輕松,兩三天就可以讀完。網(wǎng)上已經(jīng)有人把這本書翻成中文,地址在這兒:https://bop.mol.uno/
數(shù)據(jù)分析相關(guān)的,推薦這本《利用Python進(jìn)行數(shù)據(jù)分析》,豆瓣評(píng)分8.5分。
作者是廣受好評(píng)的pandas庫(kù)的開發(fā)者。讀完這本書,可以對(duì)用Python做數(shù)據(jù)分析涉及到的一些工具、怎樣用pandas、怎樣做數(shù)據(jù)可視化有比較詳盡的了解。
機(jī)器學(xué)習(xí)
數(shù)據(jù)分析如果繼續(xù)深入的話,可以學(xué)習(xí)機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)涉及的理論主要是分類、回歸、聚類、決策樹、貝葉斯定理等。機(jī)器學(xué)習(xí)相關(guān)的書強(qiáng)烈推薦一本《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》,豆瓣評(píng)分8.2分。
這本書介紹了機(jī)器學(xué)習(xí)中最常用的幾種算法,對(duì)算法背后的數(shù)學(xué)原理也有介紹,對(duì)于理解機(jī)器學(xué)習(xí)的算法非常有幫助。書中的代碼和例子都是用Python實(shí)現(xiàn),非常適合有python基礎(chǔ)的同學(xué)學(xué)習(xí)。
以上這些是數(shù)據(jù)分析最基礎(chǔ)的技能,有編程基礎(chǔ)的同學(xué)花兩三個(gè)月差不多就能入門了,零基礎(chǔ)可能要多費(fèi)點(diǎn)時(shí)間。當(dāng)然看書學(xué)習(xí)只是掌握理論知識(shí),要真正的掌握還是要在項(xiàng)目中去實(shí)踐。
上個(gè)月成立了一個(gè)讀者群,群里已有多位大佬加入,經(jīng)常會(huì)分享一些文章,都是大佬們親自實(shí)踐的數(shù)據(jù)分析項(xiàng)目寫成的文章,質(zhì)量很高。
作者:shenzhongqiang