[教學] [統計] ANOVA變異數分析小筆記 @ B E L L E A Y A 雜七雜八創作小窩

SPSS

ANOVA 變異數分析小筆記

在量化論文會用到的統計方法裡
ANOVA大概是最常見最常出現在論文中的作法了
以下先介紹基本觀念
然後再示範SPSS的操作與解讀

ANOVA
全名叫Analysis of Variance
事實上ANOVA雖然叫做變異數分析
但其實他比較的仍然是組與組之間
對於某一個依變數的「平均數」
是否有顯著的差異

那到底要怎樣才算是有「顯著差異」？

具體而言
ANOVA想做的事大概就像下面的圖
有兩個組別
比方說我有兩個組
第1組：「奶油烏龍麵」、第2組：「豚骨拉麵」
然後各自都有一些點餐的客人給的評分
我想要比較兩種麵食
哪一種客人比較喜歡？Dotch!

這兩組的曲線長這樣子

ANOVA

然後所有樣本的平均值(總平均)大約在中間

ANOVA

假想說我今天想要在第2組挑一個樣本

ANOVA

我希望挑出來的越靠近第2組的平均 (應該也就是中心點)
代表說我這個組裡面給豚骨拉麵的分數越接近越好

另外我也希望第1組離第2組越遠越好
也就是說
希望豚骨拉麵的平均分數
能夠跟奶油烏龍麵分數拉遠一點

基於上述兩個情形
我們才能知道豚骨拉麵和烏龍麵兩者的好吃程度有很顯著的不同

如下圖
你隨便挑一個樣本
希望他的組內變異越小越好
然後組間變異越大越好
(至於總變異就是組間跟組內的和)

ANOVA

照這樣的想法來當出發點
想要所有的樣本平均而言都能夠「組內越近」、「組間差越大」
於是就有了公式了：

1.想知道每個樣本在所有樣本的離散程度
可以先用離均差平方和(SS, Sum of Square)來加總起來
這個作用就如上圖桃色部份所指的總變異

ANOVA

2.想知道每個組和總平均離得夠不夠遠(整體而言希望越遠越好)
所以就把所有組的平均和總平均相差的平方和也加總起來
也就是組間變異

ANOVA

3.想知道整體而言組內的離散程度(希望組內越近越好)
一樣是把組內的樣本減掉組平均的平方加起來
再把所有組的組內離均差平方和加起來
即是組內變異

ANOVA

由以上推導出來的
但是概念上
我們希望要看的是整體而言的平均值
只是這邊要除掉的是稱為「自由度(df)」的東西
除掉之後就是均方和(MS)
也就是我們所要的

ANOVA

df怎麼算？
也有公式可詢

這個表就是ANOVA最重要的計算

ANOVA

算出組間和組內均方和後
也就差不多找出整體平均而言的
組間的差異、組內的差異

我們希望的是組間差異越大越好
組內差異越小越好

所以
就把他們兩個相除
算出來的就是「F值」

這個F值的大小也就決定了你的組跟組之間是否有顯著的差異
F值越大當然也就代表組跟組之間差異越大 or 組內差異越小
然後就針對自由度來查表
看看F值是否夠大
要大到超過顯著的臨界的值才能說
組與組之間有顯著的差異

所以由以上概念也要特別注意的幾個要做ANOVA必須符合的先決條件

1.常態性：母體一定要常態

常態分佈又叫高斯分佈
你要比較不同組的差異
長得奇形怪狀的比當然比不出什麼東西
所以一定要常態來比才有意義

2.獨立性：樣本一定是獨立的簡單隨機抽樣

抽樣一定是要獨立的
你要分析資料當然是要足夠公正
不能自己刻意去挑豚骨拉麵比較高分的幾個人、奶油烏龍特低的幾個
而且簡單隨機抽樣
如果母體常態則抽樣出來的也會是常態

3.同質性：兩組曲線的高矮胖瘦要差不多

希望造成差異的只有組的平均數
而不是因為其他有的沒的原因
所以要比較的話仍希望兩者的變異數要同質
也就是離散程度是差不多的

ANOVA

通常要判定是否同質
是用Levene同質性檢定

然而如果不同質的話呢？

ANOVA

高矮胖瘦不一樣到底該怎麼比
其實數學家也有辦法

因為他離散程度不一
高矮胖瘦是我們沒辦法去更改它的
所以能動手腳的就是在「自由度」上了
因此除了一般做ANOVA外
要是不同質的話
則可以使用Welch和Brown的方法 (SPSS都可以跑)
他們就是透過某種更改自由度的方式來盡量讓組與組之間比起來有意義
所以你把他們兩個的方法當作是另一種ANOVA也不為過

ANOVA分析的流程大概如下圖：

首先就先判定是否同質
若同質的話就直接看ANOVA的分析表
但若不同質就使用Welch/Brown

ANOVA