相関係数の性質を理解していても、その本質を理解している人は意外と少ないんじゃないでしょうか。
*かくいう私も最近まで理解してませんでした。
相関係数の性質
相関係数は2種類のデータの関連性を示すものです。
-1~1の値を取り、下記のような性質を持つことが知られてます。
- 相関係数が1に近い:同傾向が強い
- 相関係数が-1に近い:反対傾向が強い
- 相関係数が0に近い:(直線的な)関連がない
この辺りは知ってる人も多いと思います。
今回考えたいのは、よく知られた性質の話ではなく、一体どこからこのようなものが出てきたのかということです。
相関係数とは何者
まず相関係数の定義を見てみます。2種類のデータ列X, Yがあったとき、
$$ 相関係数= \frac{共分散}{Xの標準偏差\times Yの標準偏差}$$
共分散をX, Yの標準偏差の積で割ったものですね。なぜこのような式になるのか。前回の記事で書いたように、共分散は二つのデータ列の傾向を示してます。
しかし、共分散の値の大きさから傾向の程度を判断する基準がありません。例えば共分散が100だから同傾向の度合いが大きいとか、30だから小さいとか言えないわけです。なぜかというと、傾向の程度はX,Yの分散との比で決まる相対的なものだからです。
これは共分散の役割から考えると分かります。
合計(X+Y)の分散 = Xの分散+Yの分散+共分散
上式のように共分散はX、Yの傾向から合計の分散の値を調整するものです。
分散はXとYの単純な足しあわせにならず、共分散項による調整を受けるということです。
なので、例えば下記二つの例では同じ共分散100でも意味が異なるわけです。
- Xの分散, Yの分散 = 110, 130のときの共分散100
- Xの分散, Yの分散 = 1000, 800のときの共分散100
当然前者の方が合計の分散に与える影響が大きいため、前者の場合の方が同傾向の度合いは大きいと考えられます。
絶対的な判断基準を作る
「共分散の傾向の程度はX,Yの分散との比で決まる相対的なもの」です。
じゃあ、共分散をX, Yの分散で割ってあげれば絶対的な判断基準ができますよね。実際には分散ではなく、分散の平方根、つまり標準偏差で割ります。なので、下記の定義になるわけですね。
$$ 相関係数= \frac{共分散}{Xの標準偏差\times Yの標準偏差}$$
そして、この式の右辺は必ず-1 ~ 1となります。
この証明はググればいろいろ出てくるので割愛します。
まとめ
はい、ということで、共分散のままでは傾向の度合いに対する判断基準がないので、
標準偏差で割ることで絶対的な判断基準を作ったと、
そしてそれが相関係数と名付けられたということですね。
では。

