[統計] Cluster 

Cluster Analysis 集群分析 (1)

所謂「物以類聚」、「沆瀣一氣」、「狐群狗黨」、「龍交龍鳳交鳳溫姑交洞憨」
性質越近的越聚在一起
這些成語俗語
其實都帶著「集群」的概念

而在世界上
越像的、越有同樣的性質的東西
我們想要將它們分類
比方說想要把動植物分類
當然也是越具有同樣性質的
也更應該歸在同一類對不對?
所以像螃蟹、蝦子、蜘蛛等都歸類在節肢動物門這樣

 

集群分析在做的
就是要想辦法考量到在選定的條件中
要怎麼把一大坨混在一起的東西來分群
(簡言之,集群分析就是把還沒分群的東西分群)

[統計] Cluster

例如上圖
就會有兩大問題
(1) 要分幾群?兩群?三群?五群?
(2) 誰要被分在哪一群?

假設分個三組好了
如下圖
我們肉身判斷難免會遇到一些不知道怎麼分的
非常模稜兩可
那這種要分的話
就一定得需要一些「方法」來分了

[統計] Cluster 

 

首先我們直覺的想一下
一個新的東西要歸類到某一個族群
一定是離那個群最近的對吧!
也就是「距離最短」

而距離就是由我們自己來決定要用什麼樣的距離
常用的包括:歐幾里得距離、Mahalanobis距離......等
距離的計算是比較簡單的
套公式就好
(當然直接給SPSS幫你算更好)

 

只是距離要怎麼取
才是這個新東西跟這個群的距離?
如下兩張圖
遇到的兩種問題
(1)要怎麼知道中間的點應該要被分配到哪一組?

[統計] Cluster

或是
(2)中間紅色的這組如果要被併掉要併給哪一組呢?

[統計] Cluster 

 

有幾種方法可以用:

1.最近鄰法 (Nearest Neighborhood; Single Linkage)

所謂最近鄰法
就是找這個點跟那個群中
離自己最近的點的距離
如下圖
我想知道他跟兩個群的最近鄰
這兩條距離誰比較短
因為上面的比較短
所以我就會把它分到上面桃紅色

這還蠻直觀的
反正我離誰最近就屬於誰
近水樓台先得月

[統計] Cluster

兩組之間最近鄰距離的算法也是挑組跟組之間最近的兩點距
如下圖
所以中間紅組應該要被併到紫色組

[統計] Cluster 

 

2.最遠鄰法 (Furthest Neighborhood; Complete Linkage)

最遠鄰法跟最近鄰法的差別就在於那個群組拿來比的點
是挑最遠的那個
如下圖
一樣是比這兩段距離誰比較短

這其實也很直觀
畢竟如果我跟這組中最遠的點都還是很近的話
那我一定就該屬於這組的一員了
所以會發現這個結果跟上面不太一樣
因為跟下面的紫色組最遠鄰距離比較短
所以要歸類到紫色

[統計] Cluster

下圖也是一樣
組跟組之間最遠鄰距離
就是挑這兩組之間相距最遠的兩點的距離
再拿這個最遠距來比
會發現離桃紅色組的最遠鄰比較近
所以紅組要被歸類到桃紅色

[統計] Cluster  

 

3.中心法 (Centroid Method)

這個是直接比較這個點跟兩組平均值的距離
應該相當好理解吧!!

[統計] Cluster 

這也是很直觀就比較整組均值就可以了

[統計] Cluster  

 

還有其他的像平均法、Ward法等等

 

上述幾個方式的特性在於
他是慢慢把點或群兩兩併起來
是有階層性的
所以我們可以決定併到什麼程度停止
這種階層的方式
英文叫做
Hierarchical

 

SPSS的操作就下回再詳談囉

(待續)

 

 

 

arrow
arrow
    全站熱搜

    belleaya (愛) 發表在 痞客邦 留言(11) 人氣()