相関係数って何者?: 共分散のスケーリング



相関係数の性質を理解していても、その本質を理解している人は意外と少ないんじゃないでしょうか。
*かくいう私も最近まで理解してませんでした。

相関係数の性質


相関係数は2種類のデータの関連性を示すものです。
-1~1の値を取り、下記のような性質を持つことが知られてます。

  • 相関係数が1に近い:同傾向が強い
  • 相関係数が-1に近い:反対傾向が強い
  • 相関係数が0に近い:(直線的な)関連がない

この辺りは知ってる人も多いと思います。

今回考えたいのは、よく知られた性質の話ではなく、一体どこからこのようなものが出てきたのかということです。

相関係数とは何者


まず相関係数の定義を見てみます。2種類のデータ列X, Yがあったとき、

$$ 相関係数= \frac{共分散}{Xの標準偏差\times Yの標準偏差}$$

共分散をX, Yの標準偏差の積で割ったものですね。なぜこのような式になるのか。前回の記事で書いたように、共分散は二つのデータ列の傾向を示してます。

しかし、共分散の値の大きさから傾向の程度を判断する基準がありません。例えば共分散が100だから同傾向の度合いが大きいとか、30だから小さいとか言えないわけです。なぜかというと、傾向の程度はX,Yの分散との比で決まる相対的なものだからです。

これは共分散の役割から考えると分かります。

合計(X+Y)の分散 = Xの分散+Yの分散+共分散

上式のように共分散はX、Yの傾向から合計の分散の値を調整するものです。
分散はXとYの単純な足しあわせにならず、共分散項による調整を受けるということです。

なので、例えば下記二つの例では同じ共分散100でも意味が異なるわけです。

  • Xの分散, Yの分散 = 110, 130のときの共分散100
  • Xの分散, Yの分散 = 1000, 800のときの共分散100

当然前者の方が合計の分散に与える影響が大きいため、前者の場合の方が同傾向の度合いは大きいと考えられます。

絶対的な判断基準を作る

「共分散の傾向の程度はX,Yの分散との比で決まる相対的なもの」です。

じゃあ、共分散をX, Yの分散で割ってあげれば絶対的な判断基準ができますよね。実際には分散ではなく、分散の平方根、つまり標準偏差で割ります。なので、下記の定義になるわけですね。

$$ 相関係数= \frac{共分散}{Xの標準偏差\times Yの標準偏差}$$

そして、この式の右辺は必ず-1 ~ 1となります。
この証明はググればいろいろ出てくるので割愛します。

まとめ

はい、ということで、共分散のままでは傾向の度合いに対する判断基準がないので、

標準偏差で割ることで絶対的な判断基準を作ったと、

そしてそれが相関係数と名付けられたということですね。

では。