來源:北大青鳥總部 2021年02月07日 10:07
在人工智能的眾多應用方向中,最重要的方向之一便是機器學習,在機器學習中又分為有監(jiān)督學習、無監(jiān)督學習、深度學習等,今天我們要介紹的便是有監(jiān)督機器學習。
有監(jiān)督機器學習指的是通過有標記的訓練樣本集去進行學習訓練,獲得一個最優(yōu)模型,此后同類的數(shù)據(jù)可按照此模型進行輸入,根據(jù)輸出的結(jié)果進行預測、分類,在像人一樣進行思考的道路上實現(xiàn)第一步。常見的有監(jiān)督學習算法包含線性回歸算法、決策樹、支持向量機、KNN。
那這些算法具體又是怎么樣呢?我們一起來看看吧。為了幫助大家更好
KNN,即KNearestNeighbors,K個最近的鄰居,指的是當預測集中來了一個新的數(shù)據(jù)時,我們看這個數(shù)據(jù)距離它最近的K個點分別是什么,從而判斷新數(shù)據(jù)是什么類別。春節(jié)檔馬上上映電影《唐探3》(下圖中的小綠點),我們要預測它的票房,這時候可以獲取同類電影、同類導演、演員、上映時間、上映時長的電影數(shù)據(jù),計算《唐探3》到這些電影(下圖中的小紅點、小藍角)之間的距離,看看前K個的值,如果前K個值中大部分是5億~10一,少部分是低于5億,少部分是高于10億,那么預測《唐探3》票房在5-10億是最可能的。
在KNN算法中,K的值是很重要的,K過小或過大,都會對結(jié)果有影響,因此在實際操作中,也需要通過不斷的實踐,找到最合適的K值。KNN算法的好處是簡單、模型訓練時間快、預測效果好,缺點是耗內(nèi)存、速度慢、對不相關(guān)的數(shù)據(jù)規(guī)模敏感,因為存儲了大量的數(shù)據(jù)、每個數(shù)據(jù)逐次計算。當數(shù)據(jù)量較大時,可以選擇使用KNN算法。
線性回歸算法,即LinearRegression,線性指的是直線型關(guān)系,兩個變量之間的關(guān)系是一次函數(shù)(如y=a*x+b),通過對大量數(shù)據(jù)進行處理,找到符合數(shù)據(jù)之間的規(guī)律關(guān)系,從而對新的值輸入時進行結(jié)果預測,比較常見的是股價預測、電影票房預測等場景。
以預測春節(jié)檔馬上上映的《唐人街探案3》票房為例,已知數(shù)據(jù)有電影上映時間、價格、拍攝國家、電影類型、觀影時長、演員陣容、上映電影院數(shù)量、上映時長、宣傳平臺、宣傳時長、電影票房等數(shù)據(jù),基于基準數(shù)據(jù),我們可以計算出電影票房與電影之間的關(guān)系(y=a1*x1+a2*x2+a3*x3+a4*x4+a5*x5+...+b),再將《唐探3》的對應數(shù)據(jù)帶入之后,大概就能得到預估票房了。
在線性回歸算法中,還有一個重要的模型便是損失函數(shù),即用來估量預測值與真實值之間的不一致程度,損失函數(shù)越小,模型效果越好,我們可以通過損失函數(shù)來調(diào)優(yōu)線性回歸模型。
決策樹算法,是與線性算法相對的,在決策樹中是一個類似N叉樹的樹形結(jié)構(gòu),每一個數(shù)內(nèi)部節(jié)點代表對特征的一個測試,樹的分支代表測試結(jié)果,最高層就是根節(jié)點。在決策樹模型的生成中,一般包含特征選擇、決策樹生成、決策樹修剪三部分,在特征選擇中,一般對實例的某一特征進行測試。在構(gòu)造決策樹時,首先把所有的訓練數(shù)據(jù)都放在根節(jié)點,選擇一個最優(yōu)特征,按特征把訓練數(shù)據(jù)分割成子集,如果子集可以被正確分類,則繼續(xù)構(gòu)造葉子節(jié)點,根據(jù)測試結(jié)果把實例分配到子節(jié)點,每個子節(jié)點都對該特征的一個取值,不斷的進行測試分配,直到所有子集都分配到葉子節(jié)點。
我們還是以《唐人街探案3》為例,我們拿到了所有電影的票房數(shù)據(jù),并且設(shè)定了電影票房的相關(guān)屬性,包括電影類型、上映時間、拍攝成本、導演水平、演員評價等,通過決策樹模型來訓練電影票房與對應屬性的關(guān)系,得到如下決策樹模型,我們再把《唐探3》的相關(guān)電影屬性進行代入,預測電影票房。
預測電影票房只是機器學習中的一種實踐,只要有了對應的數(shù)據(jù)集,我們可以預測房價、股價、天氣走勢,甚至是疫情走勢。人工智能正在讓我們的生活變得越來越簡單、可控,而其對應的有監(jiān)督機器學習算法你掌握了嗎?今年春節(jié)檔上映的《唐人街探案3》票房你又預測多少呢?
文章來源“AI課工場”