Pearson 相關
相關應該是統計分析中很常見的概念
對於兩個不同的連續變項而言
所謂相關簡單講
就是兩個變項的線性變化
是不是其中一個增加、另一個也會增加?
比方身高高的人往往體重多半也會比較容易重一些
或者其中一個增加、另一個反隨之減少?
想知道的是:有沒有辦法用較簡單的統計方式來描述兩個變項之間的關係?
畢竟一大堆資料沒辦法隨身帶著走
要形容手上的資料的關係
當然是能夠越簡單明瞭越好
而要用來描述兩個變數之間線性相關性的就是「相關係數」(Correlation Coefficient)
相關係數概念的出發點
就是要想辦法用一個數來表示(1)到底兩者之間影響大不大(2)影響的方向(一起變大或反之)
所以希望找的就是兩個隨機變數之間是不是有什麼關聯
這就想到了「共變異數」(Covariance)
共變異數的作用就是要知道兩個變數一同變大/變小的程度
想知道如果A變數離均值越遠、B是否也離均值越遠
(A越正B就越正、或A越正B就越負)
所以
對於某個 Xi 離均值 X 的距離就是 (Xi-X)
對於某個 Yi 離均值 Y 的距離就是 (Yi-Y)
希望的是對於所有的 Xi 和 Yi 都能夠同進退(或剛好背道而馳)
那要保留住兩者的正負號並且希望能夠也保留住兩者距離
那就是很乾脆的把兩者相乘起來!
於是共變異數公式就出來了:
CovXY是X和Y共變異數的意思
他就是把每組的距離相乘後
再加總起來
而這樣的值就介於正無限大和負無限大之間
越正代表X越大則Y也越大
反之若值越負代表X越大而Y越小
如果CovXY是0則代表兩者統計獨立
誰也不跟誰那個
只是既然是介於正負無限大之間
那還是很難說到底相關程度大還是不大
所以相關係數要再把共變異數做點處理
有點像是要把它標準化這樣
所以就把它除以兩者的標準差了
又簡單又直接:
當然公式還可以簡化一下:
這就是相關係數的計算方法囉!
而因為這是皮爾森(Pearson)所設計出來的相關性指標
所以也就稱之為 Pearson correlation coefficient 皮爾森相關係數
他的值會介於 -1 到 +1 之間
(相關係數分析要注意的是兩個變項都是連續的)
有個範圍之後我們就可以訂出他的相關程度:
相關係數絕對值 | 相關程度 |
約=1 | 完全相關 (Perfect correlated) |
0.7~0.99 | 高度相關 (Highly correlated) |
0.4~0.69 | 中度相關 (Moderately correlated) |
0.1~0.39 | 低度相關 (Modestly correlated) |
0.01~0.09 | 接近無相關 (Weakly correlated) |
約=0 | 無相關 |
留言列表