學(xué)AI，好工作就找北大青鳥

關(guān)注小青聽課做題，輕松學(xué)習(xí)

周一至周日

4000-9696-28

首頁品牌優(yōu)勢研究院 AI實驗室教學(xué)實施就業(yè)保障校企共育青鳥動態(tài) 校區(qū)查詢

首頁> 青鳥動態(tài)> 大咖分享> 通過線性回歸理解機器學(xué)習(xí)

行業(yè)觀瞻

技術(shù)熱點

面試寶典

青鳥動態(tài)

資料下載

其他

在線咨詢

在線咨詢

通過線性回歸理解機器學(xué)習(xí)

來源：北大青鳥總部 2022年12月21日 14:06

摘要： “模型是什么？機器學(xué)習(xí)算法和優(yōu)化算法有什么區(qū)別？什么是損失函數(shù)？”

想必大家在入門學(xué)習(xí)機器學(xué)習(xí)的時候，總是去找各大論壇的入門掃盲貼，一開始只帶著一個問題去看這篇帖子，看完之后突然有3個問題還沒想明白，再咬牙去看了三篇帖子，最終問題數(shù)變成了9個?！拔沂钦l？我在哪？我在干什么？”

“模型是什么？機器學(xué)習(xí)算法和優(yōu)化算法有什么區(qū)別？什么是損失函數(shù)？”

上述這些問題你有在自己心里問過自己嗎？今天小編將通過線性回歸來全方位解答上述的這些問題，從而真正理解機器學(xué)習(xí)是什么以及它為什么要這么做。（文章中會涉及些許baby math，高能預(yù)警）

首先我們來回顧一下線性回歸的基本思路，假設(shè)我們在二維平面當(dāng)中隨機分布著一些樣本點，這些樣本點直接存在一些關(guān)系和規(guī)律，線性回歸所做的事情就是使用一根直線來描述概括了這些關(guān)系和規(guī)律。如圖：

左圖為我們已經(jīng)有的樣本點，這些樣本點是一份房價數(shù)據(jù)，橫坐標(biāo)是房屋面積，縱坐標(biāo)是房價。而右圖比左圖多出來的那條直線就是通過線性回歸產(chǎn)生的一條直線，可以從肉眼中看到這條直線“差不多”描述了所有樣本橫縱坐標(biāo)的關(guān)系和規(guī)律，這條直線就是線性回歸的意義所在。

不要小看了這條直線，這個問題是一個最簡單最基礎(chǔ)也是最典型的一個機器學(xué)習(xí)問題，其中這條直線稱為“機器學(xué)習(xí)模型”，得出這個模型的過程就稱為機器學(xué)習(xí)。

接下來咱慢慢來討論，這跟直線到底是如何確定的。為什么描述這些樣本點規(guī)律的直線必須是這一根，而不是與他平行但向上平移0.0000000001的那一根？為什么不是向右旋轉(zhuǎn)0.00000001度的那一根？就偏偏是圖中所畫的這一根，這一切都要從機器學(xué)習(xí)的過程說起。

首先我們的目的需要得到一個可以通過房屋面積來預(yù)測房價的這么一個模型，那么我們首先要根據(jù)已有的數(shù)據(jù)，來“總結(jié)經(jīng)驗”得出這個模型?！翱偨Y(jié)經(jīng)驗”的過程主要分為兩步走：定義損失函數(shù)、最小化損失函數(shù)。

怎樣來確定一個一條直線最能描述這些樣本點之間的關(guān)系，我們可以通過得到最小距離來確定，最小距離直線就是如果有一條直線，所有樣本點到它的距離之和最短，那么我就認(rèn)為這條直線最能夠描述這些樣本點的關(guān)系，直線使用函數(shù)表示為 y = wx + b。因為我們今天討論的是一元函數(shù)，通常多元函數(shù)的話，直線可以表示為：

這個公式表示圖形中的那條直線，可以看出公式中唯一要求的值就是θ?，F(xiàn)在直線方程已經(jīng)寫好，怎樣去求出這條最小距離直線呢？我們可以列出損失函數(shù)，如下：

其中hθ(x^(i))代表每個樣本通過我們模型的預(yù)測值，y^(i)代表每個樣本標(biāo)簽的真實值。損失函數(shù)表明了預(yù)測的點到真實點之間的距離之和，如果我們將損失函數(shù)最小化就得到了最小距離直線。

我們將所有的樣本點，依次帶入公式1和2中，最終可以得到一個關(guān)于θ的二次方程。舉個栗子，我有三個樣本點(1,2),(2,3),(3,4)，首先將第一個樣本點代入公式，x的值代入到公式1此時得到hθ(x) = θ，y的值代入到公式2此時得到(θ-2)^2，同理將第二個樣本點代入得到(2θ-3)^2。最終再將它們相加。所以我們會得到一個關(guān)于θ的二次函數(shù)，二次函數(shù)優(yōu)化到最小，就是一個二次函數(shù)求極值的問題，只需要對θ求導(dǎo)令導(dǎo)數(shù)等于0即可求出最終θ的值，而將θ的確切值代入公式1中，就得到了最終的機器學(xué)習(xí)模型。優(yōu)化求解方法如下公式：

通過線性回歸的講解總結(jié)一下：

1.機器學(xué)習(xí)模型就是通過已有樣本點，通過特定的機器學(xué)習(xí)算法來學(xué)習(xí)總結(jié)樣本中的“經(jīng)驗”，得到一個可以歸納樣本關(guān)系的一個模型，使用該模型可以達到通過x值來預(yù)測y的效果，也就是線性回歸中的那條直線。

2.機器學(xué)習(xí)算法與優(yōu)化算法的區(qū)別：機器學(xué)習(xí)算法包含了整個機器學(xué)習(xí)過程，如線性回歸中，公式 1、2、3都同屬于機器學(xué)習(xí)算法，而優(yōu)化算法僅僅指的是優(yōu)化最小化損失函數(shù)過程中使用的算法，線性回歸中我們使用的是令導(dǎo)數(shù)等于零（最小二乘法），實際常用的優(yōu)化算法還有：梯度下降算法、牛頓法等。

3.損失函數(shù)就是構(gòu)建機器學(xué)習(xí)求解過程的函數(shù)，最小化損失函數(shù)是構(gòu)建機器學(xué)習(xí)模型的依據(jù)，就如線性回歸當(dāng)中，為什么我們得出的直線就單單是那一條？因為我們有充足的“理由”來說服自己，如果存在一條直線，所有的樣本點到它的距離之和最小，那么我當(dāng)然可以認(rèn)為這條直線就是最能夠描述這些樣本點關(guān)系的直線。那么將這個問題數(shù)學(xué)抽象化，就能夠?qū)懗龉蕉@個損失函數(shù)，最終我們將這個損失函數(shù)優(yōu)化到最小得出機器學(xué)習(xí)模型。

標(biāo)簽: 機器學(xué)習(xí)

IT熱門趨勢

1 新媒體運營2

2 全媒體設(shè)計證書

3 大數(shù)據(jù)應(yīng)用

4 AI大模型開發(fā)實訓(xùn)營

5 云計算與網(wǎng)絡(luò)安全

6 Java全棧開發(fā)與大數(shù)據(jù)

熱門班型時間

人工智能就業(yè)班即將爆滿

AI應(yīng)用線上班即將爆滿

UI設(shè)計全能班即將爆滿

數(shù)據(jù)分析綜合班即將爆滿

軟件開發(fā)全能班爆滿開班

網(wǎng)絡(luò)安全運營班爆滿開班

職場就業(yè)資訊

1 IT行業(yè)就業(yè)前景向好

2 IT人才需求保持穩(wěn)定

3 網(wǎng)絡(luò)安全人才緊缺

4 IT看重專業(yè)技能經(jīng)驗

5 畢業(yè)生投身IT行業(yè)熱

6 程序員職場晉升新路徑

技術(shù)熱點榜單

1 AIGC應(yīng)用

2 機器學(xué)習(xí)與深度學(xué)習(xí)

3 虛擬化與分布式計算

4 數(shù)據(jù)采集與數(shù)據(jù)存儲

5 傳感器與無線通信技術(shù)

青鳥課程

AI全棧開發(fā)工程師 AI全媒體電商運營數(shù)據(jù)智能 AI時代全鏈路UI設(shè)計師 AI時代網(wǎng)絡(luò)運維工程師

學(xué)習(xí)入口

云題庫云豆網(wǎng) 在線視頻課學(xué)籍查詢證書查詢

招生咨詢熱線： 4000-9696-28

手機端官網(wǎng)

免費領(lǐng)熱門課程

北京市海淀區(qū)成府路207號

北京市海淀區(qū)成府路207號北大青鳥（總部）

友情鏈接：

Copyright © 1999- 北京青鳥職業(yè)教育科技發(fā)展有限公司版權(quán)所有

京公網(wǎng)安備 11010802020714號京ICP備2020047077號-2

感谢您访问我们的网站，您可能还对以下资源感兴趣：

成年人在线免费观看毛片

国产古代一级a毛片亚洲国产中文AV无码精品国产精品中文第一字幕毛片无遮挡高清免费观看