入門｜10個例子帶你瞭解機器學習中的線性代數

本文介紹了 10 個常見機器學習案例，這些案例需要用線性代數才能得到最好的理解。

線性代數是數學的分支學科，涉及向量、矩陣和線性變換。

它是機器學習的重要基礎，從描述演算法操作的符號到代碼中演算法的實現，都屬於該學科的研究範圍。

雖然線性代數是機器學習領域不可或缺的一部分，但二者的緊密關係往往無法解釋，或只能用抽象概念（如向量空間或特定矩陣運算）解釋。

閱讀這篇文章後，你將會瞭解到：

如何在處理資料時使用線性代數結構，如表格資料集和圖像。

資料準備過程中用到的線性代數概念，例如 one-hot 編碼和降維。

深度學習、自然語言處理和推薦系統等子領域中線性代數符號和方法的深入使用。

讓我們開始吧。

這 10 個機器學習案例分別是：

1. Dataset and Data Files 資料集和資料檔案

2. Images and Photographs 圖像和照片

3. One-Hot Encoding one-hot 編碼

4. Linear Regression 線性回歸

5. Regularization 正則化

6. Principal Component Analysis 主成分分析

7. Singular-Value Decomposition 奇異值分解

8. Latent Semantic Analysis 潛在語義分析

9. Recommender Systems 推薦系統

10. Deep Learning 深度學習

1. 資料集和資料檔案

在機器學習中，你可以在資料集上擬合一個模型。

這是表格式的一組數位，其中每行代表一組觀察值，每列代表觀測的一個特徵。

例如，下面這組資料是鳶尾花資料集的一部分

資料集位址：http://archive.ics.uci.edu/ml/datasets/Iris

5.1,3.5,1.4,0.2,Iris-setosa4.9,3.0,1.4,0.2,Iris-setosa4.7,3.2,1.3,0.2,Iris-setosa4.6,3.1,1.5,0.2,Iris-setosa5.0,3.6,1.4,0.2,Iris-setosa

這些資料實際上是一個矩陣：線性代數中的一個關鍵資料結構。

接下來，將資料分解為輸入資料和輸出資料，來擬合一個監督機器學習模型（如測量值和花卉品種），得到矩陣（X）和向量（y）。向量是線性代數中的另一個關鍵資料結構。

每行長度相同，即每行的資料個數相同，因此我們可以說資料是向量化的。這些行資料可以一次性或成批地提供給模型，並且可以預先配置模型，以得到固定寬度的行資料。

2. 圖像和照片

也許你更習慣於在電腦視覺應用中處理圖像或照片。

你使用的每個圖像本身都是一個固定寬度和高度的表格結構，每個儲存格有用於表示黑白圖像的 1 個圖元值或表示彩色圖像的 3 個圖元值。

照片也是線性代數矩陣的一種。

與圖像相關的操作，如裁剪、縮放、剪切等，都是使用線性代數的符號和運算來描述的。

3. one-hot 編碼

有時機器學習中要用到分類資料。

可能是用於解決分類問題的類別標籤，也可能是分類輸入變數。

對分類變數進行編碼以使它們更易於使用並通過某些技術進行學習是很常見的。 one-hot 編碼是一種常見的分類變數編碼。

one-hot 編碼可以理解為：創建一個表格，用列表示每個類別，

用行表示資料集中每個例子。在列中為給定行的分類值添加一個檢查或「1」值，並將「0」值添加到所有其他列。

例如，共計 3 行的顏色變數：

redgreenblue...

這些變數可能被編碼為：

red, green, blue1, 0, 00, 1, 00, 0, 1...

每一行都被編碼為一個二進位向量，一個被賦予「0」或「1」值的向量。這是一個稀疏表徵的例子，線性代數的一個完整子域。

4. 線性回歸

線性回歸是一種用於描述變數之間關係的統計學傳統方法。

該方法通常在機器學習中用於預測較簡單的回歸問題的數值。

描述和解決線性回歸問題有很多種方法，即找到一組係數，用這些係數與每個輸入變數相乘並將結果相加，得出最佳的輸出變數預測。

如果您使用過機器學習工具或機器學習庫，解決線性回歸問題的最常用方法是通過最小二乘優化，

這一方法是使用線性回歸的矩陣分解方法解決的（例如 LU 分解或奇異值分解）。

即使是線性回歸方程的常用總結方法也使用線性代數符號：

y = A . b

其中， y 是輸出變數， A 是資料集， b 是模型係數。

5. 正則化

在應用機器學習時，我們往往尋求最簡單可行的模型來發揮解決問題的最佳技能。

較簡單的模型通常更擅長從具體示例泛化到未見過的資料。

在涉及係數的許多方法中，例如回歸方法和人工神經網路，較簡單的模型通常具有較小的系數值。

一種常用於模型在資料擬合時儘量減小系數值的技術稱為正則化，常見的實現包括正則化的 L2 和 L1 形式。

這兩種正則化形式實際上是係數向量的大小或長度的度量，是直接脫胎於名為向量範數的線性代數方法。

6. 主成分分析

通常，資料集有許多列，列數可能達到數十、數百、數千或更多。

對具有許多特徵的資料進行建模具有一定的挑戰性。而且，從包含不相關特徵的資料構建的模型通常不如用最相關的資料訓練的模型。

我們很難知道資料的哪些特徵是相關的，而哪些特徵又不相關。

自動減少資料集列數的方法稱為降維，其中也許最流行的方法是主成分分析法（簡稱 PCA）。

該方法在機器學習中，為視覺化和模型創建高維資料的投影。

PCA 方法的核心是線性代數的矩陣分解方法，可能會用到特徵分解，更廣義的實現可以使用奇異值分解（SVD）。

7. 奇異值分解

另一種流行的降維方法是奇異值分解方法，簡稱 SVD。

如上所述，正如該方法名稱所示，它是源自線性代數領域的矩陣分解方法。

該方法在線性代數中有廣泛的用途，可直接應用於特徵選擇、視覺化、降噪等方面。

在機器學習中我們會看到以下兩個使用 SVD 的情況。

8. 潛在語義分析

在用於處理文本資料的機器學習子領域（稱為自然語言處理），通常將文檔表示為詞出現的大矩陣。

例如，矩陣的列可以是詞彙表中的已知詞，行可以是文本的句子、段落、頁面或文檔，矩陣中的儲存格標記為單詞出現的次數或頻率。

這是文本的疏鬆陣列表示。矩陣分解方法（如奇異值分解）可以應用於此疏鬆陣列，該分解方法可以提煉出矩陣表示中相關性最強的部分。以這種方式處理的文檔比較容易用來比較、查詢，並作為監督機器學習模型的基礎。

這種形式的資料準備稱為潛在語義分析（簡稱 LSA），也稱為潛在語義索引（LSI）。

9. 推薦系統

涉及產品推薦的預測建模問題被稱為推薦系統，這是機器學習的一個子領域。

推薦系統的開發主要涉及線性代數方法。一個簡單的例子就是使用歐式距離或點積之類的距離度量來計算稀疏顧客行為向量之間的相似度。

像奇異值分解這樣的矩陣分解方法在推薦系統中被廣泛使用，以提取專案和使用者資料的有用部分，以備查詢、檢索及比較。

10. 深度學習

人工神經網路是一種非線性機器學習演算法，它受大腦中資訊處理元素的啟發，其有效性已經在一系列問題中得到驗證，其中最重要的是預測建模。

深度學習是近期出現的、使用最新方法和更快硬體的人工神經網路的復興，這一方法使得在非常大的資料集上開發和訓練更大更深的（更多層）網路成為可能。深度學習方法通常會在機器翻譯、照片字幕、語音辨識等一系列具有挑戰性的領域取得最新成果。

神經網路的執行涉及線性代數資料結構的相乘和相加。如果擴展到多個維度，深度學習方法可以處理向量、矩陣，甚至輸入和係數的張量，此處的張量是一個兩維以上的矩陣。

線性代數是描述深度學習方法的核心，它通過矩陣標記法來實現深度學習方法，例如 Google 的 TensorFlow Python 庫，其名稱中包含「tensor」一詞。

是直接脫胎於名為向量範數的線性代數方法。