Exploratoryによる相関分析の紹介

Featured_Image

こんにちは。Truestarグエンです。今回は弊社内で使っているツール「Exploratory」による相関分析を紹介します。

相関分析って何?

相関分析という用語を聞いたことがない方もいらっしゃると思うので簡単に説明します。

まず相関とは、あるデータにおいて2つの変数に直線的な関係性があり、⼀⽅が増加するともう⼀⽅も増加する場合や、⼀⽅が増加するともう一方は減少する現象です。

次に多重共線性(略して「マルチコ」とも呼ばれる)とは、重回帰分析のモデルに入る複数の説明変数同士に、強い相関があるということを表す用語です。入力データにマルチコがあると、重回帰分析が不安定になったり、精度が下がってしまったりします。そのため、重回帰分析の前に相関分析を行って、相関している説明変数を除外しなくてはいけません。

Exploratoryで相関分析をどうやって行うの?

例として、Kaggleが公開している以下の「KC_House_Data」データを使用します。

https://www.kaggle.com/swathiachath/kc-housesales-data

このデータを使ってExploratoryで相関分析を実施してみましょう。

ステップ1: データを読み込みます。その中のPriceは予測変数、それに続く16の変数は説明変数となります。

 

ステップ2: 以下の通り操作します。

相関の結果はどうなるの?

上記の2ステップを行うと以下のような結果が出ました。

相関ヒートマップ:

相関の強さは「相関係数」(r)で示され、-11の値になります。相関係数(r値)が大きいほど強い正の相関で、0に近いと相関はなし、値が小さいほど強い負の相関となります。相関ヒートマップを見ると、赤いセルは正の相関で、青いセルは負の相関となり、色の濃いところが相関が強いことが分かります。

 

正の相関の係数:

 

負の相関の係数:

では、r値はどのぐらいなら相関が強いと言えるのでしょうか?

一般的には、係数0.7以上(または-0.7以下)が「相関が強い」とされています。

上の正の相関負の相関のテーブルを見ると、相関が強い説明変数のペアがすぐ分かります。

sqft_living(全使用面積) と sqft_above(2階の面積)が他の変数とよく相関している(確かに。。。)ことが分かりました。なので、重回帰分析ではその2つの変数を取り除いた方が良いでしょう。

まとめ

Exploratoryでは簡単に統計解析を行うことができ、結果が綺麗に出るまでたった56秒しかかかりませんので非常に便利です。

また今後もExploratoryでのデータ加工やデータ分析も紹介していきたいと思います。

Click here for English version.