どうもみなさんごきげんよう。こえびです。
Alteyxで相関係数を出してみました。
前回の記事は標準偏差でした。
標準偏差は、1つの変数のデータの散らばりを表す数値でした。
今回は2つの変数の関係を表す数値になります。
相関って何?
2つの変数の関係を表す数値です。
2つの変数の関係って…?
たとえば、国語・英語・数学の3教科のテストを受験した100人について、国語の得点と英語の得点のデータを見てみると「国語の得点が高い人ほど英語の得点が高い」傾向にあったとします。
これが2つの変数の関係です。
相関には3種類の相関があります。
1.変数xが大きいほど変数yも大きい傾向にある = 正の相関
2.変数xが大きいほど変数yは小さい傾向にある = 負の相関
3.変数xの大小の変化と変数yの大小の変化との間に関係はない = 無相関
相関の強さを1つの数値で表したものが相関係数といいます。
相関係数は―1~1で相関の強さを表します。
こんな感じです。
相関の強さ、弱さの目安はこんな感じです。
ただ、これは目安であってこの考えが絶対というのではありません。
実際にAlteryxで相関係数を出してみた
真ん中にあるPと書いてあるツールがPerson Correlationというツールでこのツールで相関係数を算出します。設定画面はこんな感じで相関係数をみたい変数を選択するだけです。
結果はこれです!相関係数の目安でいうと、強い相関ありですね。
プロットしてみましょう。
赤丸のScatterplotというツールでプロットしてくれます。
設定画面はこんな感じで2つの変数を選べばOKです。
このScatterplotは色んな情報をくれるのですが、それはまた今度ブログで説明します。
あとがき
相関係数は少数の外れ値の存在によって相関係数の値が大きく影響を受けたりすることがあります。
なので、相関係数を算出する前にはプロットした方が良いと思います。
※申し訳ありません…私はこのブログで正反対をなことをしています…反面教師としてください…
ここら辺の外れ値の話はまた今度ブログで書こうと思います。
それではみなさんごきげんよう。