その数字の背景を想像しよう! – データリテラシーを身につける

その数字の背景を想像しよう! – データリテラシーを身につける | Tableau-id Press -タブロイド-
data_bunseki

はじめに

こんにちは。truestarの齋藤です。データリテラシーの重要性が増している昨今ですが、今回はとあるニュース記事を参照し、その中に出てくる数字の背景を考え、出てきた仮説をExploratoryを使用して検証してみたいと思います。

※この記事で使用しているExploratoryのバージョンは6.6.3となります。違うバージョンを使用されている場合、操作方法やアウトプットがこの記事とは異なる可能性がある点ご了承ください。

参照するニュース記事:睡眠時間の国際比較

今回取り上げる記事はこちらです。

日本人の平均睡眠時間は「世界最短」 ショートスリーパーの割合も最多に

ヘルスケアデバイスを手掛けるフランスの企業が各国のユーザーデータを集計したところ、日本が最も睡眠時間が短かった、という内容です。確かに記事を見ると日本はほかの国に比べてかなり睡眠時間が短くなっています。

数字の背景を考える

この結果を見て皆さんどう思われたでしょうか?

「やっぱり日本人って睡眠時間少ないんだな~」 「意外にも中国も睡眠時間が少ない?」 「ヨーロッパは長く眠れるのはうらやましいな~」

ぱっと数字を見ただけではそういう感想も出てきそうですが、この数字の背景も考えてみると、例えば以下の疑問が思いつきます。

  • サンプル数は適切なのだろうか? あまり名前を聞かないフランス企業であり、ひょっとして日本だけサンプル数が少なくなってしまい、現実を反映していない可能性はないか?
  • 使用しているユーザー層に偏りはないか? 特殊なユーザーが多くなっていないだろうか?
  • 年齢が高いと睡眠時間が短くなるが、そもそも国によってユーザーの年齢層が違っているのではないか?

主にサンプリング面での疑問が浮かびました。

上記のうちの3つ目の「年齢層の違い」について、ユーザーの年齢層は我々のほうではわからないのですが、国全体の年齢層の違いが及ぼす影響は我々でも確認できそうです。今回は「睡眠時間が短い国は年齢層が高いのではないか?」という仮説をExploratoryを使って検証してみたいと思います。

Exploratoryで睡眠時間と年齢層の関連性を検証する

睡眠時間は上記の記事のデータを数表化しました。年齢層の違いについては、以下のサイトに中央年齢の情報がありましたのでこちらを数表化し、それぞれExploratoryに取り込みます。

世界・中央年齢ランキング(WHO版)

取り込んだ後で少し加工しました。睡眠時間データはそのまま取り込むと日付時間データとして取り込まれますが、散布図にしたときにトレンドラインが引けないため、数値データに変換します。また中央年齢データには「~才」という文字がついていたため、文字を取り除いたうえで数値データに変換します。

上記データを国名をキーに結合して、睡眠時間の横に中央年齢のデータを付加します。(偶然国名が完全一致していたために簡単に結合できました!)

そのうえで2指標を使って散布図化してみました。

相関係数は-0.138(上記画像には表示されていませんが、Exploratory使用時にはマウスオーバーすると相関係数などの情報が表示されます)と仮説どおりの関係がややありそうですが、そもそも中国と日本が異常値になってしまっています。まず中国を除いてみましょう。

相関係数が-0.549と強くなりました。ただし日本の異常値で引っ張られていますね。日本も除いて欧米諸国のみにしてみます。

相関係数は-0.215となりました。弱いですが関係性はありそうです。

全体でも欧米に絞っても年齢と睡眠時間には関係がありそうでしたので、仮説のとおり日本の睡眠時間の短さには日本の年齢層が影響している可能性はありそうです。ただし年齢の要素以外に大きい要因があることは確かです。

最後に

今回はニュース記事の数字の背景についてExploratoryを使って仮説を検証してみました。Exploratoryであればこのように思いついた仮説も簡単に検証できます。今後もこちらのブログでExploratoryでできることについて取り上げていく予定です。

またtruestarではデータ活用に関する様々な業務を承っております。是非こちらからご相談ください。