來源:北大青鳥總部 2019年06月12日 09:57
軟件工程師和系統(tǒng)工程師各位可能不陌生,分析師和產(chǎn)品經(jīng)理在一些大項目上也會見到,不過大多數(shù)情況由軟件工程師客串,系統(tǒng)工程師就是運維人員,保障基礎(chǔ)的硬軟件系統(tǒng)、應(yīng)用系統(tǒng)穩(wěn)定運行。很多很多的系統(tǒng)就這樣的開發(fā)著、運行著,生產(chǎn)著數(shù)據(jù)。那么問題來了,生產(chǎn)的數(shù)據(jù)除了完成業(yè)務(wù)所需的基礎(chǔ)功能外,還能不能有其它應(yīng)用呢?回答是肯定的,能夠發(fā)掘數(shù)據(jù)、研究數(shù)據(jù)的人,我們稱之為數(shù)據(jù)分析師,阿里稱之為數(shù)據(jù)科學(xué)家。
數(shù)據(jù)分析師需要掌握什么技能呢?他不需要生產(chǎn)數(shù)據(jù),也不需要維護(hù)數(shù)據(jù),要做的是提取數(shù)據(jù)、分析數(shù)據(jù)、展現(xiàn)數(shù)據(jù)。所以數(shù)據(jù)分析師要有良好的操作數(shù)據(jù)的技能也就是SQL,分析數(shù)據(jù)的技能(統(tǒng)計數(shù)學(xué)基礎(chǔ),各種BI工具、SPSS軟件等),展現(xiàn)數(shù)據(jù)的技能(EXCEL的圖表功能)這些,還要會一些靈活好用的編程工具(Delphi,Python),觀察能力和感知力,當(dāng)然還要有良好的書面和語言表達(dá)能力,下面分述。
操縱數(shù)據(jù)(SQL)
操縱數(shù)據(jù)而不是操作數(shù)據(jù),操縱就是要做到盡可能地控制。如何做到盡可能呢,一般存放在關(guān)系型數(shù)據(jù)庫中,比如兵器譜前三的Oracle、MySQL、SQL Server中,市場保有率高,新增使用量也比較大。那么數(shù)據(jù)分析師怎么和這些關(guān)系型數(shù)據(jù)庫打交道呢?結(jié)構(gòu)化查詢語言(SQL),這個東西的功能簡單的說就是CRUD(Create, Retrieve, Update, Delete)增查改刪,其它的稱呼是增刪改查,增刪改、查等等。增刪改的操作大多是業(yè)務(wù)系統(tǒng)或者數(shù)據(jù)采集端完成的,數(shù)據(jù)分析師側(cè)重查。要想操縱數(shù)據(jù)那就要盡量深入、多樣的了解數(shù)據(jù)庫產(chǎn)品。一般意義上的數(shù)據(jù)抽取后再研究的模式在數(shù)據(jù)量大、數(shù)據(jù)安全等因素影響下,已越來越不現(xiàn)實。掌握主流數(shù)據(jù)庫的查詢技能是獲取所需數(shù)據(jù)的根本性手段。
分析數(shù)據(jù)的技能
這里主要是指以統(tǒng)計學(xué)為主的數(shù)學(xué)方法,說的太多都是理論,介紹幾本書。
1)《統(tǒng)計學(xué)習(xí)方法(第二版)》作者李航,男,畢業(yè)于日本京都大學(xué)電氣電子工程系,日本東京大學(xué)獲得計算機科學(xué)博士學(xué)位。北京大學(xué)、南京大學(xué)兼職教授。曾任日本NEC公司中央研究所研究員,微軟亞洲研究院高級研究員與主任研究員、華為技術(shù)有限公司諾亞方舟實驗室主任?,F(xiàn)任今日頭條人工智能實驗室主任。就沖著頭條大腦這一條就該讀這本書:
2)《統(tǒng)計學(xué)》大學(xué)教材SPSS軟件版,這個是本科統(tǒng)計學(xué)的教材,作者團(tuán)隊的另一本書《統(tǒng)計學(xué)(第7版)》是教育部和國家統(tǒng)計局推薦的統(tǒng)計學(xué)教材,不過我推薦的是使用SPSS實踐版本的教材,兩種技能都學(xué)了。
3)《統(tǒng)計學(xué)(第六版)》[美] 威廉·M.門登霍爾(William M.Mendenhall)著,關(guān)靜 等譯,統(tǒng)計學(xué)的權(quán)威教材,有精力的可以學(xué)習(xí):
有了上面的著作作為理論基礎(chǔ)和實踐指導(dǎo),接下來就需要軟件來配合實踐了。工欲善其事必先利其器,這里推薦IBM公司的SPSS軟件和微軟的Excel,Excel這個工具大家經(jīng)常使用,不過從Excel2013后加入的PowerQuery大家不一定熟悉,這里推薦閱讀微軟的官方文檔,以及和PowerQuery有緊密關(guān)系的PowerBI,都是統(tǒng)計分析的優(yōu)秀工具,重點說說IBM SPSS軟件,這是統(tǒng)計業(yè)內(nèi)的最知名的軟件,行業(yè)內(nèi)廣泛使用。
編程工具
數(shù)據(jù)分析師需要編程嗎?特定情況下需要的。數(shù)據(jù)分析師的編程主要是為了更好的呈現(xiàn)數(shù)據(jù)和整理數(shù)據(jù),比如有些動態(tài)的呈現(xiàn)數(shù)據(jù)的要求,通過選擇選項實時展示分析結(jié)果,這樣的要求使用專用的分析工具太繁瑣,這時候就需要將數(shù)據(jù)封裝在展示軟件內(nèi)。再者就是有些數(shù)據(jù)的處理比較麻煩,SQL語句解決不了,這時候也要借助編程工具來達(dá)到目的。推薦的展示工具是Delphi,整理、獲取數(shù)據(jù)的工具是Delphi和Python。
觀察能力和感知力
這個是最為重要的能力,數(shù)據(jù)所展現(xiàn)出來的100個人眼中有100個哈姆雷特,角度不同數(shù)據(jù)的魅力也不同,這就要求數(shù)據(jù)分析師有良好的觀察能力和感知力,能夠從業(yè)務(wù)、用戶的表達(dá)入手,去探討、解析數(shù)據(jù),讓分析結(jié)果盡快而又高效展現(xiàn)出來。
書面和語言表達(dá)能力
這個能力就是要讓數(shù)據(jù)分析活起來,書面和語言是活起來的最直接有效的手段,用戶理解接受了分析結(jié)果也就使數(shù)據(jù)分析有了生命力。
以上是數(shù)據(jù)分析師的一些剪影描述,各種大潮一浪又一浪地迎面而來,數(shù)據(jù)分析師是潮水退后留在沙灘上的珍珠,在潮水中歷練成珍。
版權(quán)說明:本文來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系小編進(jìn)行刪除!