無監督學習簡介

鷹狀星雲

到目前為止，我們主要關心監督機器學習，這是目前最實用的應用領域。

邏輯回歸是所有分類技術的“母親”。

話雖如此，

這是無人監督的機器學習，它承載著對未來的承諾。為什麼？因為獲取資料很便宜，它正被標記相對較難的資料。

在這篇文章中，我們將介紹常見的無監督機器學習演算法和技術。

無人監督的學習：另一個樣子

K均值聚類演算法

K均值聚類旨在將n個觀測聚類或分組為k個聚類，使得中心對應於各個組的各自的平均值。要找到平均歐幾裡得距離，可以使用任何有效的度量來計算距離。使用k均值聚類的學習演算法如下：

1.猜測聚類中心是隨機的。

2.將每個數據點分配給集群中心。即使它們是隨機選擇的，也應指定最可能對應的資料點。在這裡可以使用歐幾裡德距離。

現在在資料點和聚類中心之間存在對應關係，找到與當前資料點組關聯的點對應的最優集群中心，

您將擁有一組新的集群中心。

3.通過這組新的聚類中心，跳轉到步驟2，並通過定義反覆運算次數或通過定義聚類中心的跨越點是否低於一個小閾值來反覆運算其餘過程。

期望最大化

K-Means演算法是一種簡單且可擴展的機器學習演算法，

但它不具備其他機器學習演算法的滿意度和美感。因為在瞭解K-Means的工作原理時，存在合理的數學背景。我們在實踐中可以看到這個結果，其中K Means很容易收斂到局部最小值。這是期望最小化演算法進入圖片的地方。

在期望最大化中，所有聚類點都映射到所有數據點，不同之處在於對應關係更鬆散並且是概率性的。另一方面，由於對應關係是概率分佈，所以計算可能非常緩慢。

集群和分佈並排

例如，對於兩個群集的概率分佈可能看起來像右側的圖。因此在EM中，目標是計算概率分佈並達到最終的累積分佈。

降維

維度降低技術可用於查找資料之間的潛在關係。在現實世界中，我們所擁有的資料相互關聯很多。

主成分分析的步驟如下所示。

1.以d維和N個樣本為例取整個資料集。

2.計算d維平均向量（每個維度的均值）。

3.計算整個資料集的協方差矩陣。

4.計算特徵向量和特徵值。

5.根據減少的特徵值對特徵向量進行排序。

6.根據您想要保留的維數，只選擇前k個特徵向量，

其中k≤d。

7.使用這個kxN矩陣將樣本轉換為新的空間。

通過降維的應用，資料中的聚類可能會出現。 PCA説明我們理解無監督設置下變數之間的潛在相互作用。

譜聚類

到目前為止，我們所討論的所有用於無監督學習的技術都基於線性變換的。當這些關係非線性時，這些線性演算法就失敗了。在有監督演算法的情況下，非線性已經使用內核方法處理，但在無監督學習的情況下，我們沒有這種特權。

例如，雖然下面的曲線是二維的，但我們可以在一個維度上表達它，因為它是一根正弦曲線。我們可以這樣做，因為我們知道x軸和y軸之間的關係。但是，如果y軸不被認為是無監督學習的情況，那麼降維將成為一項艱巨的任務。

因此，為了解決這些問題，使用譜聚類。譜聚類的基本思想是通過親和力進行聚類。因此，您將創建一個親和矩陣，該矩陣將是一個疏鬆陣列，並將顯示所有點相對於所有其他點的距離。親和矩陣可以通過各種方式創建，可以通過定義鄰接矩陣，也可以使用高斯內核。 Scikit-learn使用以下公式來查找相似度。

完成後，我們可以運行K-means作為最後一步。