統計學 上講嘅相關 (粵拼 :soeng1 gwaan1 ;參見英文 :correlation )定義 如下:如果話x 同y 呢兩個變數 成正相關 ,即係話x 數值高嗰陣y 數值都傾向高,而x 數值低嗰陣y 數值都傾向低;如果話x 同y 呢兩個變數成負相關 ,即係話x 數值高嗰陣y 數值傾向低,而x 數值低嗰陣y 數值就會傾向高;如果話x 同y 呢兩個變數冇明顯相關 ,即係話x 嘅數值唔會點預測得到y 嘅數值。
統計相關呢個概念,喺經濟學 同語言學 等各種社科 上都會用到。
皮亞遜積差相關係數 (參見英文 :Pearson correlation coefficient )係統計學成日用嘅一個指標,變數 x 同 y 之間嘅皮亞遜積差相關係數ρ X , Y {\displaystyle \rho _{X,Y}} 係噉定義 嘅:
ρ X , Y = c o r r ( X , Y ) = c o v ( X , Y ) σ X σ Y = E [ ( X − μ X ) ( Y − μ Y ) ] σ X σ Y {\displaystyle \rho _{X,Y}=\mathrm {corr} (X,Y)={\mathrm {cov} (X,Y) \over \sigma _{X}\sigma _{Y}}={E[(X-\mu _{X})(Y-\mu _{Y})] \over \sigma _{X}\sigma _{Y}}} 呢條式會得出一個相關值 ,個數值會喺 -1 同 1 之間,
負數 表示兩個變數成反比(一個數值高嗰陣另一個傾向數值低),正數 就表示兩個變數成正比(兩個數值傾向一齊高或者一齊低),個相關值愈接近零表示兩個變數之間嘅關係愈弱, 而如果個相關值等於零就表示兩個變數根本唔啦更。 喺做相關性研究嗰陣科學家會先收集一啲數據,再用好似上面呢條式等嘅方法計出變數之間嘅相關值,搵出研究緊嘅變數之間有乜嘢啦掕,而呢個過程俾出嚟嘅資訊喺將來有得攞嚟預測某啲現象[ 1] 。
上圖嘅X 軸 同Y 軸 代表變數 x 同 y,每個有色圓點代表一個個案,每個個案都喺 x 同 y 上各有數值,而每幅圖表示唔同ρ X , Y {\displaystyle \rho _{X,Y}} 值下啲數據會係點嘅樣。
典型相關 係一種統計分析 方法,用嚟研究兩組連續變數 之間嘅關係。例如,一組變數可能係學生嘅語文、數學、科學成績,另一組變數可能係佢哋嘅閱讀時間、溫習時間同埋網上學習活動。典型相關就幫研究者搵出兩組變數之間相關最高嘅線性組合 ,了解整體成績同整體學習行為之間嘅關聯。[ 2] [ 3]
具體做法係:喺第一組變數中搵一個線性組合(叫做典型變數 U ),喺第二組變數中搵另一個線性組合(叫做典型變數V ),令到U 同V 之間嘅皮亞遜積差相關係數最大。接住可以再搵第二對U 同V ,係喺控制咗第一對典型變數之後,第二度最大化相關,依此類推。呢啲典型相關係數就代表兩組變數之間喺唔同維度 上嘅關聯強度。
若果研究者想了解多個變數間嘅線性關係,可以用相關矩陣 [ 註 1] 。所謂相關矩陣,就係一個方形表格 ,行同列都代表同一組變數,而每個格顯示嗰兩個變數之間嘅相關係數 。不過如果變數多得滯,齋靠睇數值就會變得困難,可能需要配合視覺化嘅圖表嚟輔助理解。
以下個示例,係三個變數嘅相關矩陣:
變數 X1 X2 X3 X1(收入) 1.00 0.68 0.45 X2(教育年數) 0.68 1.00 0.52 X3(健康指數) 0.45 0.52 1.00
以上嘅矩陣顯示,收入(X1)同教育年數(X2)之間呈中度正相關(0.68),而健康指數(X3)同其他變數亦有中等程度嘅正相關。
相關熱圖 就係再進一步,將相關係數轉換成顏色嘅深淺同冷暖。一般以藍等嘅冷色表示負相關,紅等嘅暖色表示正相關,顏色愈深代表絕對值 愈高。透過熱圖,睇嘅人可以一眼睇得出邊啲變數之間關係密切,邊啲變數之間冇乜相關。熱圖喺社會科學 同生物統計學 研究入便特別有用,能夠幫助研究者以直覺 化嘅方式發現啲相關值之中有咩規律。
實務上,研究者往往會生成個相關矩陣先,再用統計軟件(例如Python )將佢轉換為熱圖。
相關熱圖嘅例子:
統計相關呢個概念,同統計依賴 嘅概念關係密切,但兩者並非同一樣嘢。如果兩個隨機變數 之間無統計依賴性,佢哋之間實 冇相關,但係兩者之間冇相關,都唔表示佢哋實冇統計依賴[ 註 2] ,噉係因為無統計依賴 呢種條件比無相關 更加「強」,講緊兩個變數間冇任何條件概率 上嘅關聯[ 4] :p. 151 。舉例說明,假想有個隨機變數 X 佢均勻噉分佈喺 -1 同 1 之間,而依家設
Y = X 2 {\displaystyle Y=X^{2}} 由於X 同Y 嘅關係成平方 ,當X 為極正或極負嗰時,Y 都會有同樣嘅值。 因此X 同Y 嘅協方差 係零,即係冇線性嘅統計相關。 不過,佢哋仍然有統計依賴性:知道咗Y 嘅值,就可以縮窄X 嘅可能範圍,對X 嘅值作出預測。 譬如下圖列出咗唔同 X-Y 分佈下出嘅統計相關值,完全無統計依賴性嘅情況係完全雜亂(最上嗰行中間嗰幅 0 圖),X 嘅值唔能夠預測 Y,反之亦然。但由最下面嗰行睇得出,有好多種顯然有統計依賴性嘅情況,都可以出到 0 嘅相關值。
統計相關有好多用途。
多角投資 係投資 上嘅一種做法,講到一位投資者 要同時揸多種唔同嘅資產 ,即係例如同時又揸股票 又揸黃金 呀噉。多角投資相關嘅研究又提到,自己手上嘅唔同資產之間喺價格上唔應該有太強嘅正相關,即係呢啲資產嘅價唔可以傾向一齊升或者一齊跌,否則就好易出現「手上啲資產嘅價全部一齊下跌」嘅困境[ 5] 。
實際行因素分析 之前,研究者可以先睇吓啲變數之間嘅統計相關。有統計學專家主張,啲變數之間嘅統計相關最少要係 .30,先至有可能表示佢哋反映緊某啲潛在變數。
相關唔蘊含因果 ,但係好多人都以為兩樣嘢之間有相關就表示佢哋一個係因一個係果 。
↑ Rodgers, J. L.; Nicewander, W. A. (1988). "Thirteen ways to look at the correlation coefficient".The American Statistician . 42 (1): 59–66. ↑ Sieranoja, S.; Sahidullah, Md; Kinnunen, T.; Komulainen, J.; Hadid, A. (July 2018)."Audiovisual Synchrony Detection with Optimized Audio Features" (PDF) .2018 IEEE 3rd International Conference on Signal and Image Processing (ICSIP) . pp. 377–381.doi :10.1109/SIPROCESS.2018.8600424 .ISBN 978-1-5386-6396-7 .S2CID 51682024 . ↑ Tofallis, C. (1999). "Model Building with Multiple Dependent Variables and Constraints".Journal of the Royal Statistical Society, Series D .48 (3): 371–378.arXiv :1109.0725 .doi :10.1111/1467-9884.00195 .S2CID 8942357 . ↑ Park, Kun Il (2018).Fundamentals of Probability and Stochastic Processes with Applications to Communications . Springer.ISBN 978-3-319-68074-3 . ↑ Invest in Gold A Portfolio Diversifier With Staying Power - SSGA (PDF)