どうもみなさんごきげんよう。こえびです。
以前はKazuki Koebisawaという名前でAlteryxに関する記事を投稿していたのですが、
こえびに変更です。
気分です。
本題ですが、Alteyxで標準偏差を出してみました。
標準偏差とはデータの散らばりを表す数値です。
標準偏差は何に使えるの?
この標準偏差を使って、外れ値を探したり、どのデータが上位15%or下位15%に入るか等を
把握することができます。
なぜそんなことができるのか?
もし、データの確率分布が真ん中を平均にして正規分布と呼ばれる上図の
ような形をしていた場合
「平均-1×標準偏差」~「平均+1×標準偏差」内に、あるデータが含まれる確率が約68%
「平均-2×標準偏差」~「平均+2×標準偏差」内に、あるデータが含まれる確率が約95%
となるということがわかっています。
なので、外れ値を探したり、どのデータが上位15%or下位15%に入るか等を知ることができるのです。
注意する点としては、正規分布とはこの世でもっとも一般的な分布であるが、
すべてのものが正規分布になると仮定できるとは限らないということです。
ここら辺は統計学を勉強する必要があります。
実際にAlteryxで出してみた
赤丸のSummraizeツールで標準偏差を算出しています。 対象となる列に対して Numeric > Standard Diveationを選択することで標準偏差を算出できます。同じように平均も算出しておきます。
設定画面以下のようになります。StdDevが標準偏差で、Avgが平均ですね。
この標準偏差と平均のデータを紫色ツール:Append Feildsで元データにくっつけます。
すると以下のようになります。
ここで先ほど記載しました、正規分布のルールを使って、0.1%の分布に入るデータを
最後の青いツールのFilterツールでフィルターします。
あとがき
これは計算の裏側で起きていることなのですが、標準偏差を出すには分散というこちらもデータの散らばりを表す数値をまず出す必要があります。
分散には、不偏分散と標本分散があります。
だいたいの計算ソフトは不偏分散で計算しています。Alteryxも不偏分散です。
不偏分散は標本の値から母集団の値を推測するときに使われます。
標本分散は、手元にすべてのデータがあるときに使われます。
Alteryxで標本分散の標準偏差を出したいという要望があれば、そちらもブログにしますので、ご要望お待ちしております!