SPSS  
 

ANOVA 變異數分析 小筆記

在量化論文會用到的統計方法裡
ANOVA大概是最常見最常出現在論文中的作法了
以下先介紹基本觀念
然後再示範SPSS的操作與解讀

 

ANOVA
全名叫Analysis of Variance
事實上ANOVA雖然叫做變異數分析
但其實他比較的仍然是組與組之間
對於某一個依變數的「平均數」
是否有顯著的差異

那到底要怎樣才算是有「顯著差異」?

 

 

具體而言
ANOVA想做的事大概就像下面的圖
有兩個組別
比方說我有兩個組
第1組:「奶油烏龍麵」、第2組:「豚骨拉麵」
然後各自都有一些點餐的客人給的評分
我想要比較兩種麵食
哪一種客人比較喜歡?Dotch!

 

這兩組的曲線長這樣子

 

ANOVA

 

 

 

然後所有樣本的平均值(總平均)大約在中間

 

ANOVA

 

 

 

 

假想說我今天想要在第2組挑一個樣本

 

ANOVA

 

 

 

我希望挑出來的越靠近第2組的平均 (應該也就是中心點)
代表說我這個組裡面給豚骨拉麵的分數越接近越好

另外我也希望第1組離第2組越遠越好
也就是說
希望豚骨拉麵的平均分數
能夠跟奶油烏龍麵分數拉遠一點

基於上述兩個情形
我們才能知道豚骨拉麵和烏龍麵兩者的好吃程度有很顯著的不同

 

 

 

如下圖
你隨便挑一個樣本
希望他的組內變異越小越好
然後組間變異越大越好
(至於總變異就是組間跟組內的和)

 

ANOVA

 

 

 

 

照這樣的想法來當出發點
想要所有的樣本平均而言都能夠「組內越近」、「組間差越大」
於是就有了公式了:

1.想知道每個樣本在所有樣本的離散程度
可以先用離均差平方和(SS, Sum of Square)來加總起來
這個作用就如上圖桃色部份所指的總變異

 

  ANOVA  
 

 

 

 

2.想知道每個組和總平均離得夠不夠遠(整體而言希望越遠越好)
所以就把所有組的平均和總平均相差的平方和也加總起來
也就是組間變異

 

  ANOVA
  

 

 

 

3.想知道整體而言組內的離散程度(希望組內越近越好)
一樣是把組內的樣本減掉組平均的平方加起來
再把所有組的組內離均差平方和加起來
即是組內變異
 

ANOVA
  

 

 

 

 

由以上推導出來的
但是概念上
我們希望要看的是整體而言的平均值
只是這邊要除掉的是稱為「自由度(df)」的東西
除掉之後就是均方和(MS)
也就是我們所要的
 

ANOVA

 

 

 

df怎麼算?
也有公式可詢

這個表就是ANOVA最重要的計算

ANOVA

 

 

 

算出組間和組內均方和後
也就差不多找出整體平均而言的
組間的差異、組內的差異

我們希望的是組間差異越大越好
組內差異越小越好

所以
就把他們兩個相除
算出來的就是「F值

這個F值的大小也就決定了你的組跟組之間是否有顯著的差異
F值越大當然也就代表組跟組之間差異越大 or 組內差異越小
然後就針對自由度來查表
看看F值是否夠大
要大到超過顯著的臨界的值才能說
組與組之間有顯著的差異

 

 

 

所以由以上概念也要特別注意的幾個要做ANOVA必須符合的先決條件

1.常態性:母體一定要常態

常態分佈又叫高斯分佈
你要比較不同組的差異
長得奇形怪狀的比當然比不出什麼東西
所以一定要常態來比才有意義

2.獨立性:樣本一定是獨立的簡單隨機抽樣

抽樣一定是要獨立的
你要分析資料當然是要足夠公正
不能自己刻意去挑豚骨拉麵比較高分的幾個人、奶油烏龍特低的幾個
而且簡單隨機抽樣
如果母體常態則抽樣出來的也會是常態

3.同質性:兩組曲線的高矮胖瘦要差不多

希望造成差異的只有組的平均數
而不是因為其他有的沒的原因
所以要比較的話仍希望兩者的變異數要同質
也就是離散程度是差不多的

 

 

ANOVA

 

 

通常要判定是否同質
是用Levene同質性檢定

 

然而如果不同質的話呢?

ANOVA

高矮胖瘦不一樣到底該怎麼比
其實數學家也有辦法

因為他離散程度不一
高矮胖瘦是我們沒辦法去更改它的
所以能動手腳的就是在「自由度」上了
因此除了一般做ANOVA外
要是不同質的話
則可以使用Welch和Brown的方法 (SPSS都可以跑)
他們就是透過某種更改自由度的方式來盡量讓組與組之間比起來有意義
所以你把他們兩個的方法當作是另一種ANOVA也不為過

 

 

 

 

 

 

ANOVA分析的流程大概如下圖:

首先就先判定是否同質
若同質的話就直接看ANOVA的分析表
但若不同質就使用Welch/Brown

 

ANOVA  

 

大家有沒有發現一個怪異的單字:Post-hoc

什麼是Post-hoc?
回想一下前面的計算
因為我們是一次把所有組間組內都計算出MS
如果只有兩組的話
當然很簡單就知道是這兩組有差

但如果是三組以上呢?
因為最後算出來的是所有的值
所以即使知道最後結果是有的組和組之間真的有差異
我們卻無法知道是哪兩組不一樣

這就是需要Post-hoc 後續分析的地方了
他的方法其實有點像T檢定
都是兩兩互比
但是因為兩兩互比其實容易產生型I錯誤(容易顯著而無中生有)
所以Post-hoc 是用更為嚴苛的方式來檢驗

不過依照你樣本數、同質性等不同
要選用的Post-hoc方法也不同
如果組別有三組以上、又有顯著的話
則請參考上面流程圖來選擇適用的Post-hoc吧

 

 

 

 

 

 

 


 

以下將示範ANOVA的上機

SPSS上機:ANOVA

在分析前要注意的就是資料的整理
SPSS其中一欄資料要認的是你的分組(也就是自變項、因子,如本例就是麵類:奶油烏龍麵、豚骨拉麵)
另一欄就是要用來分析的連續變數(就是依變項,本例是得分)

 

打開SPSS開新資料後
點左下角的變數檢視
就會跳到變數設定的地方

ANOVA 上機

 

 

如下圖
我設定兩個變數
一個是麵類、一個是得分
而因為麵類是分組用的變數,所以要在測量那邊,把「尺度」改為「名義」(不過不改好像不會影響)

ANOVA 上機

另外在值的地方點一下「...」
因為分組我們是以數字表示
但為了瀏覽方便
不然只有數字會看不懂也會忘記是什麼麵

 

 

點了之後會跳出這個視窗
在值的地方輸入1、標記輸入「奶油烏龍麵」,新增
然後再在值輸2、標記輸入「豚骨拉麵」,新增

ANOVA 上機

意義就是說
如果組別是1就代表是奶油烏龍麵、組別號碼是2就是豚骨
依此類推
ok後按確定

 

 

 

接著就點左下角資料檢視

ANOVA 上機

 

 

 

然後把資料輸進去
奶油烏龍和豚骨拉麵的分數各有十筆
我先輸入奶油烏龍
麵類那邊我就都輸入1
同理在豚骨拉麵的麵類那攔我輸入2

ANOVA 上機

 

 

 

如果想要看變數代表的意義
點一下上面這個鍵「數值標記」

ANOVA 上機

 

 

 

點完之後就會發現麵類裡面顯示為數值代表的麵種了!!
這就是剛剛在變數設定值的用途

ANOVA 上機

 

 

 

再來就是重頭戲啦!
準備要ANOVA了

點「分析」→「比較平均數法」→「單因子變異數分析」

ANOVA 上機

 

 

 

出現一個對話框
左邊是你可以選的變數們

ANOVA 上機

 

 

點選變數再按中間箭頭把變數移進右邊的框中
因子就是分組所以我把麵類移進去
依變數是我要分析的所以把分數移進去

ANOVA 上機

 

 

然後點右邊的「選項」
點「描述性統計量」和「變異數同質性檢定」

ANOVA 上機

 

 

點「Post Hoc 檢定」
這邊就要決定要哪種Post Hoc了
如果各組樣本數一樣
就用LSD或Tukey
若各組樣本數差很多
就用Scheffe
(而若同質性檢定沒過,不同質的話就用Games-Howell)

ANOVA 上機

 

 

跑出來的結果大概就長這樣子:

ANOVA 上機

 

 

 

描述性統計應該不用多說

再來就是變異數同質性檢定
要看它的顯著性
如果不顯著(>.05)
就代表不拒絕虛無假設(H0:變異數同質)
也就代表可以直接看ANOVA結果

像這邊跑出來顯著性是p=.659
代表變異數是同質的
可以繼續做下一步
(但不同質的話就是另一種作法了,可以參考上面的流程圖)

接著看ANOVA的表格
這跟我們直接用手算的表很像
基本上就是先看後面顯著性
這邊很顯然是非常顯著(他上面寫.000不代表等於0,而是比.001還要小)

 

 

 

論文中回報的方式如下:

分析結果顯示為顯著(F(1,18)=31.224,p<.001),故拒絕虛無假設,即兩組麵食的得分具有顯著差異,豚骨拉麵得分顯著高於奶油烏龍麵。
F後面就是組間和組內自由度
後面則是F值
p則是判斷其顯著性的值

這邊補充一點
所謂虛無假設(H0)是指「原本假設兩組的平均數沒有顯著差異」
如果顯著的話代表要拒絕H0
也就是「有」顯著差異

 

另外也要特別注意
如果不顯著的話,千萬不要寫「接受虛無假設」
應該要寫「不拒絕虛無假設」
因為不拒絕只是因為證據不夠
而不代表要接受它!
這點很多人寫錯
一定要注意

 

 

 .

 .

 . 

 .

 .

arrow
arrow
    創作者介紹
    創作者 belleaya (愛) 的頭像
    belleaya (愛)

    B E L L E A Y A 雜七雜八創作小窩

    belleaya (愛) 發表在 痞客邦 留言(106) 人氣()