Cluster Analysis 集群分析 (1)
所謂「物以類聚」、「沆瀣一氣」、「狐群狗黨」、「龍交龍鳳交鳳溫姑交洞憨」
性質越近的越聚在一起
這些成語俗語
其實都帶著「集群」的概念
而在世界上
越像的、越有同樣的性質的東西
我們想要將它們分類
比方說想要把動植物分類
當然也是越具有同樣性質的
也更應該歸在同一類對不對?
所以像螃蟹、蝦子、蜘蛛等都歸類在節肢動物門這樣
集群分析在做的
就是要想辦法考量到在選定的條件中
要怎麼把一大坨混在一起的東西來分群
(簡言之,集群分析就是把還沒分群的東西分群)
例如上圖
就會有兩大問題
(1) 要分幾群?兩群?三群?五群?
(2) 誰要被分在哪一群?
假設分個三組好了
如下圖
我們肉身判斷難免會遇到一些不知道怎麼分的
非常模稜兩可
那這種要分的話
就一定得需要一些「方法」來分了
首先我們直覺的想一下
一個新的東西要歸類到某一個族群
一定是離那個群最近的對吧!
也就是「距離最短」
而距離就是由我們自己來決定要用什麼樣的距離
常用的包括:歐幾里得距離、Mahalanobis距離......等
距離的計算是比較簡單的
套公式就好
(當然直接給SPSS幫你算更好)
只是距離要怎麼取
才是這個新東西跟這個群的距離?
如下兩張圖
遇到的兩種問題
(1)要怎麼知道中間的點應該要被分配到哪一組?
或是
(2)中間紅色的這組如果要被併掉要併給哪一組呢?
有幾種方法可以用:
1.最近鄰法 (Nearest Neighborhood; Single Linkage)
所謂最近鄰法
就是找這個點跟那個群中
離自己最近的點的距離
如下圖
我想知道他跟兩個群的最近鄰
這兩條距離誰比較短
因為上面的比較短
所以我就會把它分到上面桃紅色組
這還蠻直觀的
反正我離誰最近就屬於誰
近水樓台先得月
兩組之間最近鄰距離的算法也是挑組跟組之間最近的兩點距
如下圖
所以中間紅組應該要被併到紫色組裡
2.最遠鄰法 (Furthest Neighborhood; Complete Linkage)
最遠鄰法跟最近鄰法的差別就在於那個群組拿來比的點
是挑最遠的那個
如下圖
一樣是比這兩段距離誰比較短
這其實也很直觀
畢竟如果我跟這組中最遠的點都還是很近的話
那我一定就該屬於這組的一員了
所以會發現這個結果跟上面不太一樣
因為跟下面的紫色組最遠鄰距離比較短
所以要歸類到紫色組
下圖也是一樣
組跟組之間最遠鄰距離
就是挑這兩組之間相距最遠的兩點的距離
再拿這個最遠距來比
會發現離桃紅色組的最遠鄰比較近
所以紅組要被歸類到桃紅色了
3.中心法 (Centroid Method)
這個是直接比較這個點跟兩組平均值的距離
應該相當好理解吧!!
這也是很直觀就比較整組均值就可以了
還有其他的像平均法、Ward法等等
上述幾個方式的特性在於
他是慢慢把點或群兩兩併起來
是有階層性的
所以我們可以決定併到什麼程度停止
這種階層的方式
英文叫做
Hierarchical
SPSS的操作就下回再詳談囉
(待續)