相関係数計算サイト
相関係数とは
相関係数は、二つの変数(つまり、測定されたり観察されたりする二つのもの)の間の関係の強さと方向を示す数値です。簡単に言うと、一方が変わるときにもう一方がどのように変わるかを示します。
相関係数の種類
- ピアソンの相関係数: これは最も一般的な相関係数で、二つの変数がどれだけ直線的な関係にあるかを測ります。値は -1 から +1 まで変動します。
- +1は完全な正の直線的関係を意味します(一つが増加するともう一つも増加します)。
- -1は完全な負の直線的関係を意味します(一つが増加するともう一つは減少します)。
- 0は全く相関がないことを意味します(一つが変わってももう一つは関係なく変わる)。
相関係数の意味
- 高い正の相関(例えば、0.7以上): 一つの変数が増加すると、もう一つも増加する傾向があります。
- 高い負の相関(例えば、-0.7以下): 一つの変数が増加すると、もう一つは減少する傾向があります。
- 低いまたは無相関(例えば、-0.3から0.3の間): 変数間に明確な関係は見られません。
重要なポイント
- 相関係数は因果関係を示しません。つまり、二つの変数の間に相関があっても、一方が他方を引き起こしているとは限りません。
- 外れ値(非常に普通ではないデータポイント)は、相関係数を大きく歪めることがあります。
例
たとえば、ある学校で学生の勉強時間と試験のスコアを測定したとします。これらの二つのデータセットを使って相関係数を計算すると、勉強時間が長いほど試験のスコアが高くなる傾向があるかどうかを数値で示すことができます。高い正の相関係数が得られれば、勉強時間が長い学生は通常、高いスコアを取ることが示唆されます。しかし、これは必ずしも勉強時間がスコアを高めるという因果関係を意味するわけではありません。
相関係数は、関連性の強さを理解するのに役立ちますが、これが全ての情報を提供するわけではないことを理解することが重要です。他の要因も考慮に入れる必要があります。
ピアソンの相関係数について
ピアソンの相関係数は、二つの変数間の線形(直線的)関係の強さと方向を測定する統計的手法です。具体的には、一方の変数が増加するとき、もう一方の変数がどのように振る舞うかを数値で示します。この数値は -1 から +1 の範囲で、+1 は完全な正の線形関係、-1 は完全な負の線形関係、0 は全くの無関係を意味します。
計算式
ピアソンの相関係数 $ r $ は以下の式で計算されます。
$ r = \frac{n(\sum xy) – (\sum x)(\sum y)}{\sqrt{[n\sum x^2 – (\sum x)^2][n\sum y^2 – (\sum y)^2]}} $
ここで、
- $ n $ はデータポイントの数
- $ \sum xy $ はすべてのデータポイントの $ x $ と $ y $ の積の合計
- $ \sum x $ と $ \sum y $ はそれぞれ $ x $ と $ y $ の値の合計
- $ \sum x^2 $ と $ \sum y^2 $ はそれぞれ $ x $ と $ y $ の値の二乗の合計
計算の手順
- 各変数の合計を計算: $ x $ と $ y $ の値の合計をそれぞれ計算します。
- 積の合計を計算: それぞれの $ x $ と $ y $ のペアの積の合計を計算します。
- 二乗の合計を計算: $ x $ と $ y $ の各値を二乗して、それぞれの合計を計算します。
- 相関係数の計算: 上記の式に従って、相関係数 $ r $ を計算します。
例
例として、5人の学生がそれぞれ異なる時間勉強したとします。勉強時間 (時間) が $ x $、テストスコア (%) が $ y $ として、以下のデータがあるとします。
学生 | 勉強時間 ( x ) | テストスコア ( y ) |
---|---|---|
1 | 2 | 81 |
2 | 1 | 60 |
3 | 3 | 88 |
4 | 4 | 89 |
5 | 5 | 91 |
これらの値を使ってピアソンの相関係数を計算します。計算は少し複雑ですが、一歩一歩進めることで、これらの変数間にどの程度の線形関係があるかを知ることができます。