Exploratoryを使った相関分析 ~散布図編~

通勤vs睡眠

こんにちは、truestarのYui.Uです。

最近truestarで使われ始めている「Exploratory」。

  • データ接続・加工
  • データ分析・統計解析・機械学習
  • 可視化

が簡単にできる便利なツールです!

弊社のグエンがExploratoryを使った相関分析の紹介記事を書いてくれたので、今回はさらに散布図を作って分析してみたいとおもいます。

散布図を作るわけ

相関分析をするときは、散布図を作ることにより、相関の有無や強さに加えてこんなことが分かります。

  • サンプルのばらつき
  • ばらつき方の特徴
  • 外れ値や異常値がないか

たとえば下の散布図は、仕事と育児の1日の平均時間を表したものです。この2つは、相関係数だけで見ると-0.89と、強い相関があるように思えます。

しかし散布図にしてみると、男性と女性で層が分かれてしまっていることが分かりました。

このように、散布図を見ることによって相関係数だけでは気づけなかったデータの特徴を知ることができます!

 

分析の概要

データはこちらを使いました >>  統計局: 社会生活統計指標(2016)

データの中身をざっくりご紹介すると、生活時間を「睡眠」「食事」「仕事」など約20種類の活動に分け、それぞれ1日平均何分を費やしたか、を都道府県・性別・有業種別(仕事をしているか)ごとに調査した集計データです。

*今回は15歳以上の仕事をしている「有業者」に絞ってみていくことにします。

このデータを使って活動間の相関を調べることで、

  • どんな活動同士が関係しているのか(××の時間が増えると○○の時間も増える、■■の時間が増えると△△の時間が減る)
  • 傾向に地域による特徴はあるのか

を見てみたいと思います!

相関を調べる

では早速相関を見ていきます。

各生活時間の数値を列で持つ横持ち(ワイド型)でデータを用意すれば、「アナリティクス」画面からすぐに相関係数を調べられます。

*やり方はこちら→Exploratoryによる相関分析の紹介

相関分析の結果↓ 左が女性、右が男性の結果です。

男性について、通勤時間と睡眠時間に強い負の相関(相関係数-0.88)があるようです。こちらを散布図で詳しく見てみたいと思います。

散布図を見てみる

散布図の作り方は以下の通りです。とても簡単です。

トレンドラインも表示します

「男性(有業者)」の、通勤時間と睡眠時間の散布図ができました。

たしかに、全体的に右下がりの直線に近い傾向が見えます。

そして、特に散布図の右下、通勤時間が長く睡眠時間が短いゾーンには東京・大阪とその周辺県が多く見られます。

おまけ

通勤時間が長く睡眠時間が短いゾーンに東京・大阪とその周辺県が多く見られました。

これらの地域は電車通勤の方が多そうなので、乗車時間を何をして過ごしているのかが気になります。

そこでもう一度相関の結果を見ると、通勤時間と「学習・自己啓発」の時間の相関係数が0.65ありました。

通勤時間が長く、電車通勤の方が多いであろう地域では学習・自己啓発の時間も他地域より長い傾向があるかもしれません。

 

確かめてみるために先程作った散布図に「学習・自己啓発」の要素も加えてみます。

下記の手順で、「学習・自己啓発」の時間を散布図のプロットの「サイズ」で表すことができます。

確かに東京・大阪とその周辺県はプロットのサイズが大きめ(「学習・自己啓発」の時間が比較的長い)の結果が出ました↓

ただし、他の地域にも「学習・自己啓発」の時間が長い府・県はあります。

対象者の年齢、地域ごとの産業や人口構成の特徴など他の視点も取り入れていけば、もっと詳細に分析できそうです。

まとめ

散布図は相関の有無や強さだけでなくサンプルのばらつきや傾向を知るのに必要ですが、Exploratoryではその作成がさくっとできるので、

色々な仮説を簡単に検証できてとても便利です。

今回は簡単な分析例でしたが、今後もExploratoryで出来る分析をご紹介していきたいと思います!