Dataikuでできる統計とは?初心者が一変量・二変量・多変量解析をやってみた!

Dataikuでできる統計とは?初心者が一変量・二変量・多変量解析をやってみた! | Tableau-id Press -タブロイド-
dataiku

入社3ヶ月目のkobayashiです。

「Dataikuは統計が強い」というのは聞いたことがありますが、統計機能って具体的にどんなことができるのでしょうか。今回は初心者でも簡単に使える統計機能についてご紹介します。

使用するデータは  dataiku ACADEMY  にあるコアデザイナーのラーニングパスで作成した customers_labelled です。

dataiku ACADEMY についてはこちら

1. 統計カードの種類

分析したいDatasetsを開き、右上の「統計」を選択。

「+ADD NEW CARD」もしくは「+NEW CARD」を選択します。

Dataikuでできる統計がずらっと出てきます。(残念ながら、日本語版にしても英語表記です)

ここで「Multivariate analysis」と「Fit curves & distributions」を選択すると、さらに色んな種類が出てきます。

これらの情報を日本語に訳してまとめると下記の表のようになります。

色んなことができそうですね!

今回は初心者でも扱いやすそうな、一変量解析、二変量解析、多変量解析にトライしてみようと思います。

2. 一変量解析(Univariate analysis)

「Univariate analysis」を選択。

データに含まれるカラム名が出てくるので、調べたいカラムを選択し、「+」をクリックします。

次にOptionを選択するのですが、カラムが「文字列」 か「数値」で選べるOptionが異なります。Optionを選択したら「CREATE CARD」をクリックします。

データの分布や平均・最大値・最小値といった要約統計量など、カラムの特徴を捉えることができました。

3. 二変量解析(Bivariate analysis)

「Bivariate analysis」を選択。

二変量解析では「factor」と「response」を選ぶ必要があります。「factor」は複数のカラムを選択できますが「response」は1つのカラムしか選べません。

それぞれカラムを選択したら、Optionを選択し、「CREATE CARD」をクリックします。Optionはカラムがもつ「文字列」と「数値」の組み合わせで選べるものが異なります。

(結果が長いので示している画像は2枚を切り貼りしています)

パッと見で2つのカラムがどんな関係性がありそうか、想定することができそうです。

4.多変量解析(Multivariate analysis)

今回は相関行列(Correlation matrix)をメインに、主成分分析と3D散布図、平行座標プロットは簡単に紹介します。

4-1. 相関行列(Correlation matrix)

「Multivariate analysis」を選択後、「Correlation matrix」を選択。

カラム名を選択しますが、ここで「文字列」は選択できません。これは相関行列は相関係数を出すため、数値である必要があるからです。Optionsで「Spearman(スピアマン)」か「Pearson(ピアソン)」を選択します。

この違いは計算方法にあるのですが、とても簡単にまとめると、

・Speaman:前提条件がない(順位や5段階評価などの指標も使える)

・Pearson:データが正規分布に沿っていることが条件(順位や5段階評価などの指標は使えない) です。

今回はSpearmanを選択します。

相関行列は選択したカラムの組合せでにおける相関係数を表示してくれます。このデータ間の相関係数は低めですね。

4-2. 主成分分析(Principal Component Analysis)

ここからは、どんな結果を見ることができるのか簡単に紹介していきます。

選択したカラムから新しいカラム(PC1,2,3)を作成し、元のカラムと新しい成分の関係性を示しています。元のカラム間の関係性をみることができます。

4-3.  3D散布図(Scatter plot 3D)

3つのカラムを選択し、作成します。ドラッグするといろんな角度から分布をみることができます。

4-4.平行座標プロット(Parallel coordinates plot)

複数の変数を折れ線で示しています。カラム名を選択するところで順番を入れ替えると折れ線グラフの順番も変わります。

5.まとめ

いかがでしたでしょうか。

統計と聞くとちょっと難しそうですが、Dataikuであればノーコードでデータの概要をすぐに可視化し、特徴を押さえることができました!データを加工する前にどんなデータなのかを把握するためにも、とても使えそうです。

truestarではDataikuの検討、導入支援や環境構築から導入後の運用まで幅広くサポート可能です。

Dataikuに゙興味がある、導入済みだけどもっとうまく活用したい等々ありましたら、ぜひこちらからご相談ください。