Pre-Predictive: データ分析を始める前に

G’day みなさん!
ケニーです。

 

姫野が書いた記事 にもありましたが、Alteryx Inspire 2019 に参加してきました!

会場では様々なトレーニングやセッションが行われていたのですが、その中でも今回は Vo と私が参加してきたトレーニングセッションのご紹介を。

Pre-Predictive Data Investigation

 

と題されたこのトレーニングセッション。

要はいきなり データ→分析 と焦るよりもまず データ→精査→クレンジング→分析
と段階を踏みましょう!ということです。

急がば回れってやつですね。

セッション自体は2時間程でしたが、説明が30分、残り1時間半は実際に手を動かすワークショップ形式でした。
登壇されていたのは Alteryx のパートナーで、北米でテックコンサルを生業としている ProKarma の方でした。
Pre-Predictive とタイトルにもあるとおり、セッションは「予測」分析に焦点を当てていましたが、内容自体は分析全般に当てはまるものだと思います。


さて、前置きはこれくらいにして実際のトレーニング内容を!

データ分析から予測モデルの展開まで行うには大きく分けて6つのステップがあります。

  1. ビジネス・現状の理解 (Business Undestanding)
  2. データの取得 (Data Acquisition)
  3. データの前準備 (Data Prep)
  4. データの調査・精査・整形 (Data Exploration and Engineering)
  5. 予測モデルの実行と評価 (Predictive Model and Evaluation)
  6. 結果の解釈と展開 (Interpret and Deployment)

あまり予測モデルの構築や分析に親しみがないと 3、4 を軽視しがちですが、実際にモデルを組むときはこの2ステップが最も時間がかかります。
特に Alteryx を使用すると、予測モデル構築が R等でいちから組むよりも早いので、なおさら比重が大きくなるかと思います。

実際のハンズオン自体をお見せすることは難しいのですが、主に使用したツール等をご紹介:

基本的にデータの精査はこちらの「Data Investigation」ツール群で行い、整形は「Preparation」や「Join」等を使用して行います。

この中でも「Field Summary」・「Frequency Table」・「Contingency Table」ツールは重宝します。

大体どのツールもアウトプットの一つに「I」というのがあるので、ここでデータの分布や欠けている項目、項目同士の関係性等がダッシュボードのような形で確認できます。

  • 「Field Summary」でデータの概要をつかむ
  • 「Frequency Table」でデータの頻度を確認、どの予測モデルを使用するかを考察
  • 「Contingency Table」でデータ同士の関係性を確認、どの項目を計数として使用するか検討

見たいな使い方がよいかと思います!

また、「Field Summary」等でどのデータにどれくらいNullが含まれているかも確認できるので、果たしてNullがデータの欠如によるものなのか、それとも何か意味のあるNull値なのかも検討できれば予測モデルが組みやすくなります。


あまり使用する機会がないかもしれない「Data Investigation」ツール群でしたが、データを把握するのに最適なツールが色々と入っているので、ぜひ使ってみてください!

そしてあなたも Alteryx Inspire 2020 へ!

それではみなさん、Bye-bye!