來(lái)源:北大青鳥(niǎo)總部 2019年07月03日 11:30
最近,人工智能很火,所以導(dǎo)致很多人都在轉(zhuǎn)行人工智能,可有很多人都不知道人工智能都做什么的,應(yīng)該掌握什么技能?今天,小編在轉(zhuǎn)行人工智能之前,你需要掌握的 5 項(xiàng)技能,希望能夠幫助到大家!
1—統(tǒng)計(jì)學(xué)
為了理解機(jī)器學(xué)習(xí),堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)是必須的。這包含了以下方面:
評(píng)估模型成功的不同方法(精確度、召回率(recall)、特征曲線下的面積等)。你選擇的損失函數(shù)和度量是如何測(cè)量你的模型輸出的偏差的。
如何理解過(guò)擬合和欠擬合,以及偏差/變量的平衡。
模型的結(jié)果與置信度之間存在什么聯(lián)系。
2—機(jī)器學(xué)習(xí)理論
當(dāng)你在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),實(shí)際上發(fā)生了什么?是什么使這些任務(wù)可行而其它的不行呢?對(duì)待該問(wèn)題的好方法是,在深入理解理論之前,首先通過(guò)圖片和范例理解機(jī)器學(xué)習(xí)。
需要理解的概念,從不同的損失函數(shù)工作的方法,到反向傳播有用的原因,最后要明白計(jì)算圖究竟是什么。深入理解構(gòu)建函數(shù)模型并且與團(tuán)隊(duì)中其他人有效地對(duì)其進(jìn)行溝通非常關(guān)鍵。
3—數(shù)據(jù)糾紛
問(wèn)任何一個(gè)數(shù)據(jù)科學(xué)家,他們會(huì)告訴你其 90% 的工作是數(shù)據(jù)再加工(data munging)。它對(duì)于應(yīng)用人工智能的重要性就如同你的模型的成功與你的數(shù)據(jù)的質(zhì)量(和數(shù)量)高度相關(guān)一般。數(shù)據(jù)在許多方面起作用,可分為以下幾個(gè)類別:
獲得數(shù)據(jù)(找到好的數(shù)據(jù)源,正確的測(cè)定數(shù)據(jù)的質(zhì)量和分類,獲得并推測(cè)標(biāo)簽)
數(shù)據(jù)預(yù)處理(補(bǔ)全缺失值(missing data),特征工程,數(shù)據(jù)增強(qiáng),數(shù)據(jù)歸一化,拆分交叉檢驗(yàn))
數(shù)據(jù)后處理(使模型的輸出有用,去除人為數(shù)據(jù),處理特殊情況和異常值)
熟悉數(shù)據(jù)糾紛(data wrangling)最好的方法是掌握混亂的數(shù)據(jù)集,并嘗試使用它。網(wǎng)上有很多的數(shù)據(jù)集并且許多社交媒體和新聞媒體網(wǎng)站都有著很好的應(yīng)用程序接口。
遵循以下步驟是一個(gè)不錯(cuò)的學(xué)習(xí)方法:
掌握一個(gè)開(kāi)源的數(shù)據(jù)集并對(duì)其進(jìn)行檢測(cè)。它有多大(觀測(cè)值和特征值的數(shù)量)?數(shù)據(jù)是如何分布的?是否有缺失值或者不含異常值?
開(kāi)始在原始數(shù)據(jù)和有用數(shù)據(jù)之間構(gòu)建一條轉(zhuǎn)換的通道?;靥钍侨绾蝸G失值的呢?處理異常值最合適的方法是什么?你如何歸一化數(shù)據(jù)?你可以創(chuàng)造更多的具有表現(xiàn)力的特征嗎
測(cè)試你的轉(zhuǎn)換數(shù)據(jù)集。
4—調(diào)試/調(diào)節(jié)模型
對(duì)一些不收斂或包含與調(diào)試代碼非常不同的過(guò)程但是給出合理結(jié)果的機(jī)器學(xué)習(xí)算法進(jìn)行調(diào)試。同樣地,找到正確的架構(gòu)和超參數(shù)需要堅(jiān)實(shí)的理論基礎(chǔ),良好的基礎(chǔ)工作可以測(cè)試不同的配置。
由于該領(lǐng)域在向前發(fā)展,調(diào)試模型的方法也在不斷進(jìn)化。以下是從我們的討論和部署反映了 KISS 理論和軟件工程師之間的熟悉度的模型的經(jīng)驗(yàn)中得來(lái)的「合理性檢查(sanity checks)」。
盡快從已經(jīng)被證明可以在類似數(shù)據(jù)集上工作的簡(jiǎn)單模型入手,掌握基準(zhǔn)線。古典統(tǒng)計(jì)學(xué)習(xí)模型(線性回歸、最近鄰等)或者簡(jiǎn)單的啟發(fā)式方法或規(guī)則會(huì)讓你明白 80% 的方法并且更快地進(jìn)行實(shí)現(xiàn)。入門的時(shí)候,以最簡(jiǎn)單的方法去解決問(wèn)題(查看谷歌機(jī)器學(xué)習(xí)規(guī)則的第一點(diǎn))。
如果你決定訓(xùn)練一個(gè)更加復(fù)雜的模型以在基線上有所提升,不妨從你的數(shù)據(jù)集的一個(gè)小部分入手,在分?jǐn)?shù)據(jù)集上訓(xùn)練模型使其過(guò)擬合。這保證了你的模型最起碼的學(xué)習(xí)能力。不斷地在模型上迭代直到你可以過(guò)擬合 5% 的數(shù)據(jù)。
一旦你開(kāi)始在更多的數(shù)據(jù)上訓(xùn)練,超參數(shù)就開(kāi)始變的更重要了。理解這些參數(shù)背后的理論從而去理解什么是要探索的合理值。
使用理論方法調(diào)節(jié)你的模型。寫(xiě)下你使用的最低限度的配置并對(duì)其結(jié)果進(jìn)行總結(jié)。理想情況下,使用自動(dòng)超參數(shù)搜索策略。在最開(kāi)始,隨機(jī)搜尋可能就足夠了。盡可能地去探索更多理論方法吧。
5—軟件工程
許多應(yīng)用機(jī)器學(xué)習(xí)允許你充分利用軟件工程技巧,有時(shí)會(huì)有小小的轉(zhuǎn)彎。這些技巧包括:
測(cè)試轉(zhuǎn)換線路的不同方面(數(shù)據(jù)預(yù)處理和增強(qiáng)、輸入和輸出清除、模型推理時(shí)間)構(gòu)建模塊化的代碼和可重復(fù)的實(shí)驗(yàn)加速方法,在訓(xùn)練的不同階段備份模型(檢查點(diǎn)),建立一個(gè)分布式基礎(chǔ)架構(gòu)來(lái)運(yùn)行訓(xùn)練、超參數(shù)搜索或者使其更有效地推理。
以上的資源幫助你處理切實(shí)的機(jī)器學(xué)習(xí)問(wèn)題。但是應(yīng)用人工智能領(lǐng)域變化的特別快,學(xué)習(xí)的最好方式是動(dòng)手實(shí)踐并且真正地嘗試構(gòu)建一個(gè)完整的解決方案去解決一個(gè)實(shí)際的問(wèn)題。
版權(quán)說(shuō)明:部分內(nèi)容來(lái)源于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系小編進(jìn)行刪除!