こんにちは。ひらいです。
Tableauでダッシュボード(に限らずBIや集計レポートなど)を作成した際に、避けて通れないのが数値検証。
既に運用されているレポートの数字や別でデータベースから直接集計した数字と、Tableau上で集計されて出てきた数字とを突き合わせて数値検証を行うわけですが、一発で数字がぴったり一致するということはまずありません。
ここから、遠く果てしない数値検証の旅が始まるわけです。
ということで今回は、数値検証を効率よく行う方法について紹介します。
数値検証の二大鉄則!
元のレポート上の数字とTableauで集計した数字とが違う!ということで、Tableauでの集計のどこが間違っているのかを探す旅の始まりです。
こんな時、ただTableauの計算式を眺めるだけでは、答えにはなかなかたどり着けません。
数値検証を効率的に行う方法。それは、
一、集計値を分解する
二、差分の法則を見つける
です。
集計値を分解する
一つ目の「集計値を分解する」です。
まずは集計されて出てきた数値を、より細かい粒度で集計し直してみましょう。
例えば時系列の集計値は、年間合計なら月ごとに、月間合計なら日ごとに、といった具合に分解してみましょう。
店舗合計なら商品ごとや顧客ごとに分けてみましょう。
TableauをはじめとするBIツールなら、行や列ペインに対象のフィールドを持って行けば、すぐに分解集計してくれますね。
分解したことによって、特定の区分で差が出ているなら、その区分に原因がありそうです。
○○率や○○比なら分子と分母に、○○差なら引き算の前後に分けてみましょう。
分子 or 分母のみが違っているのであれば、確認すべき部分が半分で済みます。
このように、集計が合っている部分と間違っている部分とを切り分けるのが、数値検証の第一歩です。
差分の法則を見つける
次に「差分の法則を見つける」です。
元の数字と集計値とで違いのある部分に対して、どのような法則があるのかを見極めましょう。
例えば元の数字に対して集計値が常に大きいのか、常に小さいのか、あるいは大小ばらばらなのか。
その「違い方」によって、差分の原因も異なります。
以下、差分の法則とその原因の例を見てみましょう。
必ずしもそれが原因というわけではありませんが、そうである可能性が高いものを挙げました。
● 一部の値が元の値の倍になっている
→ データの重複が発生している
2倍だけでなく、3倍、4倍になっている場合もあります。数字が大きく異なる場合はこのケースを疑いましょう。
● 一部の値のみ異なる
→ その異なっている一部の区分で共通点がないかを探る
● 一部の値が欠損
→ 集計の条件が違っている
● 一部の値が異常値
→ データの異常(データソースに異常値があるのを、元の数字では手で補正していたなど)
元の数字と集計値とで似たような数字の並びになっている場合は、元の数字が転記ミスを起こしている可能性もあります。(1357→1537、など)
● 元の値よりも常に大きい
→ 集計から除外すべき条件が漏れている
● 元の値よりも常に小さい
→ 集計に含めるべき条件・データが漏れている
● 元の値と1~2の微差が常にある
→ 四捨五入による誤差が出ている
微差の積み重ねで大きな誤差が生じている場合もあります。
● 元の値より大きかったり小さかったり
→ さらに細かい粒度で分けてみる
→ 複数の原因である場合も……
● 合計は合っているが区分別が異なる
→ 区分の条件が異なる
→ 時系列のデータなら、年や週の区切りが異なるなど
● 時系列データで直近ほど差分が大きい
→ 過去にさかのぼってデータが更新されているなど(直近のデータほど更新されやすい)
この場合は元の数字と合わせるのは無理なこともあります。
以上、代表的な差分の法則と、その対処法を挙げてみました。
数値検証はやみくもにやっても時間ばかりかかってしまいます。
今回紹介した「集計値を分解する」「差分の法則を見つける」という二大鉄則を念頭に置いて、数値検証の旅をエンジョイしてください!
それでは。