卡方檢定 (Chi-square Test) 小筆記
在之前有提到ANOVA (這邊)
ANOVA是用來檢視不同的組別
比方說豚骨拉麵和奶油烏龍兩種麵之間得分有沒有明顯差異
而麵類就是屬於類別變項(因子有兩種水準:豚骨拉麵、奶油烏龍)
而得分就是連續的
這種就適合用ANOVA
但是如果今天我們想要討論的是:
這間店推出套餐:
麵+附餐→大爽滿足套餐
麵類有:(1)豚骨拉麵、(2)奶油烏龍、(3)紅醬義大利麵
附餐有:(1)味噌醬炸豬排、(2)鹽烤鯖魚片、(3)羅勒蕃茄披薩
我們想知道點餐的人
在點麵和點飯的種類上是不是有關聯
比方說是不是點豚骨拉麵的人也會特別搭豬排?
這種就適合用卡方
Ho:點什麼麵和點什麼附餐無關 (點什麼麵不影響點什麼附餐,也就是獨立)
H1:點什麼麵和點什麼附餐有關
只是這樣要怎麼比較呢?
首先把資料整理一下
因為是類別變項所以基本上就是跟次數有關
麵類分別是豚(豚骨拉麵)、奶(奶油烏龍)、義(義大利麵)
配餐則是豬(豬排)、魚(烤鯖魚片)、披(披薩)
把總共50個客人點的套餐整理次數如下表
左邊是麵上面是附餐
但是我們想要驗證看看這樣的次數分配
是不是麵和附餐是有關、或者獨立互不影響
所謂獨立就代表說一個細格(就裡面的格子)會是兩個邊際的機率相乘
所以說比方像點豚骨拉麵、又點豬排的人
出現機率應該是豚骨拉麵的機率乘上豬排的機率
也就是
(16/50) x (17/50) = 272/250 = .1088
那那格期望的值就應該是 50 x .1088 = 5.44
所以整理如下表的話
表中的細格部份就是期望的次數
我們想知道到底實際上的值(觀察值)和期望相距大不大
所以卡方的公式就用這樣:
因為那個長得像x的唸chi(開)
然後有平方所以叫Chi-square
也因此翻譯作卡方
計算如下:
(7-5.44)2/5.44 + (9-5.44)2/5.44 + (0-5.12)2/5.12 + ...... + (11-5.44)2/5.44
= 1.562/5.44 + 3.562/5.44 + 5.122/5.12 + ...... + 5.562/5.44
= 18.04
這個用excel拉一拉就出來了
或者用spss也可以
跑出來的值就要看它的自由度
然後再去查表
本例的自由度是(3-1)x(3-1)=4
前面3是麵有三種、後面的3是附餐有三種
根據查表可得知
結果是顯著的
也就是說
要拒絕掉虛無假設(H0:兩者是獨立的)
表示兩者並非獨立
對主餐麵食的選擇和選擇的附餐是有關聯的!
這種作法就是卡方檢定的其中一種功能:獨立性考驗 (或稱關聯性考驗)
SPSS步驟
如果是像上面的例子
在SPSS裡是在敘述統計→交叉表
把一個放列一個放欄
點選統計量
把卡方分配打勾
跑出來結果就會像這樣:
他結果跟我們計算的結果一樣
會先幫我們把次數表先做出來
然後下面就會有卡方檢定
看第一個Pearson卡方的值和顯著性
來決定是否拒絕虛無假設
結果要回報的話可以寫:
卡方檢定結果顯示麵食與附餐選擇之間具顯著關係(X2(4)=18.036, p=.001)。
不過這篇舉例的數字其實並不是那麼正確
因為卡方其實有一些限制比方細格不可為0、且80%以上大於5才能夠讓剩下20%限制下修至1
所以說在做之前,應該要注意Data要收到多少才能跑卡方~
(待補)

不知道為何我看的好餓喔
XDDDDD 等寫到公式就會想吐了
你真的好棒喔!!我學統計一直都是學了又忘~"~忘了又學,勉勉強強才記得遇到什麼問題要用什麼統計方法(全靠SAS跟SPSS的案例操作之後記得哪些值老師講過很重要),會勾會選但總不知道原因(囧)不知道為何要選那些選項,只記得某某東西很重要要記得勾,最後就只丟一句是顯著還是不顯著交差了事,但看了大大寫的好幾篇統計方法的筆記之後。忽然可以理解了,真的太感謝你了
不客氣XDDDD 因為我也是到博班才真正有在學統計 一整個覺得以前大學時根本有聽沒懂 不得不說我也遇到很好的老師 有他講解完我也才能再用自己的白話再寫教學這樣~ 交大教育所吳俊育老師!!超讚!!!
如果是2x2卡方, df=1, 應該要作校正: (O-E-0.5)^2/E 不曉得SPSS有沒有校正?
這真是個好問題...... 我再問老師看看好了 orz
(20/50) x (22/50) = 44/250 = .088 關於這個算式,想要問20/50跟22/50是如何計算出的呢????
好像是我寫錯數字.........囧
不是(20/50) x (22/50) = 44/250 = .088 那是...?
(16/50)(17/50)才對~
大哥,你太強了 請問最小預期個數是甚麼意思 如果不在那個範圍內該如何
主要是要看你有幾%的預期個數小於5 如果有超過20%的細格的預期個數小於5 就表示不適合跑卡方 至於最小的預期個數只是單純告訴你 所有的細格中 最小的預期個數是幾而已~~
謝謝你 你救了我統計 這樣的說法比教科書實際多 也更易瞭解 謝謝你
哈哈哈~~加油!!!
感謝大大~期待續篇補完 大學真的是有聽沒有懂...
嗯嗯!! 我考完資格考再來補>"<
你好: 在半年過後的今天,研究概論的老師再度要抽考一些生統的概念,對學護理的我這些真的好艱澀,上網隨手打上卡方檢定看到了你的這篇文章,覺得很有趣,也很好了解。但還有很多概念不是很了解,大概要多看幾遍吧,不知道能不能再麻煩多問你依些小問題...真的非常感謝你><
可以呀~~
Thank you!
不客氣!
您好....卡方檢定有規定格內次數最小不得為0吧?
是的~在這篇有講到 http://molecular-service-science.com/2012/08/03/cross-table-and-chi-squared-test/ 而且需要細格80%大於5 所以我這篇數字其實是有誤的......
您的操作簡單易懂,真是不錯的介紹!
您好,因為寫論文的需要上網看到你的這篇文章,收穫良多,但我的資料剛好是細格期望值數字小於5的佔80%以上,想了很久不知道怎麼解決,在spss23.0版也找不到校正方式,能請你教我嗎?謝謝!
期待補完啊啊啊
無聊當有趣
您好手算的最後結果 X2=18.04>X2(4,0.05) 但spss跑出來的圖表上顯著性0.01,那麼為何不是上面0.05
上述說“麵類就是屬於類別變項(因子有兩種水準:豚骨拉麵、奶油烏龍) 而得分就是連續的,這種就適合用ANOVA” 所以他們是連續的,但仍是獨立的嗎?因為anova那篇寫用於獨立樣本