実数と割合 データ解釈を間違えないために!

実数と割合 データ解釈を間違えないために! | Tableau-id Press -タブロイド-
math_mark02_minus

データを扱ううえで、「実数で見るか割合で見るか」どういうふうに選んでいますか?

最近『分析者のためのデータ解釈学入門 江崎貴裕(著)』という本を読んだのですが、「第11章 データ分析の罠」でこのテーマが分かりやすく取り上げられていたのでポイントをまとめたいと思います。

この記事でまとめるポイント

・実数or割合だけに注目すると特にデータの罠にはまりやすいケース

・割合を計算するときに注意すべきこと

『メディア報道で実数を見たら割合を疑え、割合を見たら実数を疑え』

こちらは当該書籍から引用したことばです。著者は特に、以下のようなケースでは実数or割合の片方だけに注目していると解釈を誤るとしています。

①分母と分子が大きく乖離している場合
例:都内で新型コロナウィルス新規感染者が100人発生した=割合でみると0.0007%の人が新規に感染した
→実数だけ聞くのと割合だけ聞くのとでは印象が変わる

②比較対象とするもの同士で分母の数が異なる場合
例:都内の新型コロナウィルス新規感染者数と住民数の少ない自治体での新規感染者数は単純比較できない

日常のデータ分析においても、実数だけor割合だけ見ていると解釈を間違えてしまうことがあります。

たとえば、以下は売上・返品データ(ダミー)から過去4年の返品数をチャートにしたものです。(Exploratoryを使用)

2020年は少し減りましたが、ここ数年返品数が増加傾向です。 一方、返品率をチャートにすると・・・

過去4年で返品率は半分以下になっていることが分かりました。そこで売上件数を見てみます。

過去4年で売上件数は約3倍に増えていました。返品の実数だけを見ていると「返品が増えているのでなんとかしなくちゃ」という結論にいってしまいそうですが、実際は「売上件数が伸びたことに伴う返品数の増加であり、返品率自体は減っている」と捉える方が正しそうです。

今度は別のデータで商品ごとの返品率を見てみます。

商品Q、Kの返品率が高く、要注意商品のように思えます。今度は返品数を見てみます。

商品Q、Kの返品数は10未満です。商品売上件数も見てみます。

商品Q、Kに関してはそもそもの売上件数がかなり少なく、数件の返品が%に大きくインパクトを与えてしまっていることが分かります。 (10人の購入者中5人が返品するような場合は、それはそれで検証が必要かもしれませんが・・・)

またまた本の言葉を引用すると、

・「割合」の計算は気軽にしてしまいがちだが

・「分母の数」と「分子の数」という二つの数を一つの「割合」という数にまとめてしまうので、当然情報が失われる

・どういう情報が失われているのか、それは無視しても差し支えないのか、に常に気を配る必要がある

『分析者のためのデータ解釈学入門』p217

これは実数だけ見ている場合も同じではないでしょうか。

感覚や経験的に実数・割合どちらを見るべきか(orどちらも見るべきか)分かる方も多いと思いますが、それぞれどんな情報が失われているのか、無視して支障ないか、という視点は他の人と解釈を共有するうえでも大切なポイントだと思います。

ちなみに、先の返品率の場合、失われていた「売上件数」という情報を以下のように加味すると、対策の優先度が高い商品は赤枠部分ということが分かりました。

その割合計算は正しいか

最後にもう1つ割合で考えるときの注意点を引用します。 以下は2人の医師の治療成功率を比較した例です。

『分析者のためのデータ解釈学入門』p218より一部加工

重症例、中等症例いずれも医師Aの方が成功率が高く、さらに重症例は治療の難易度がより高いので、医師Aの方がパフォーマンスが高い、と解釈できます。 しかし重症例と中等症例を合計して成功率を出してしまうと、患者合計数と成功例数が単純に多くなる医師Bの方が成果を出しているという解釈をしてしまいます。

これは「シンプソンのパラドックス」という統計学の現象らしいです。

当然だよな・・・という感じですが、書籍内でも指摘されていますが、なじみのない問題設定やデータでは意外と「グループ内での関係」と「全体での関係」は一致しない可能性がある、というのは盲点になりえるので注意したいところです。

まとめ

・分母と分子が大きく乖離している場合や比較対象とするもの同士で分母の数が異なる場合は、特に実数or割合だけを見ていると解釈を誤る可能性があるので注意する

・実数or割合だけを見ているときは、失われている情報に注意する

・「グループ内での関係(割合)」と「全体の関係(割合)」が必ずしも一致しないことに注意する 当たり前のことかもしれませんが、ポイントを言語化されると色んなケースで落とし穴に気づけそうです。

書籍もおすすめ

今回引用させていただいた『分析者のためのデータ解釈学入門 データの本質をとらえる技術 江崎貴裕(著)

データ分析にあたってのデータの集め方~データ操作の注意点、基本的な統計分析手法などが網羅的にまとめられていて勉強になりました。

特にこれからデータ分析を学んでいきたいビジネスパーソンの方にとって参考になるのではないかと思います。

お読みいただきありがとうございました!