G’day みなさん!
ケニーです。
姫野が書いた記事 にもありましたが、Alteryx Inspire 2019 に参加してきました!
会場では様々なトレーニングやセッションが行われていたのですが、その中でも今回は Vo と私が参加してきたトレーニングセッションのご紹介を。
Pre-Predictive Data Investigation
と題されたこのトレーニングセッション。
要はいきなり データ→分析 と焦るよりもまず データ→精査→クレンジング→分析
と段階を踏みましょう!ということです。
急がば回れってやつですね。
セッション自体は2時間程でしたが、説明が30分、残り1時間半は実際に手を動かすワークショップ形式でした。
登壇されていたのは Alteryx のパートナーで、北米でテックコンサルを生業としている ProKarma の方でした。
Pre-Predictive とタイトルにもあるとおり、セッションは「予測」分析に焦点を当てていましたが、内容自体は分析全般に当てはまるものだと思います。
さて、前置きはこれくらいにして実際のトレーニング内容を!
データ分析から予測モデルの展開まで行うには大きく分けて6つのステップがあります。
- ビジネス・現状の理解 (Business Undestanding)
- データの取得 (Data Acquisition)
- データの前準備 (Data Prep)
- データの調査・精査・整形 (Data Exploration and Engineering)
- 予測モデルの実行と評価 (Predictive Model and Evaluation)
- 結果の解釈と展開 (Interpret and Deployment)
あまり予測モデルの構築や分析に親しみがないと 3、4 を軽視しがちですが、実際にモデルを組むときはこの2ステップが最も時間がかかります。
特に Alteryx を使用すると、予測モデル構築が R等でいちから組むよりも早いので、なおさら比重が大きくなるかと思います。
実際のハンズオン自体をお見せすることは難しいのですが、主に使用したツール等をご紹介:
基本的にデータの精査はこちらの「Data Investigation」ツール群で行い、整形は「Preparation」や「Join」等を使用して行います。
この中でも「Field Summary」・「Frequency Table」・「Contingency Table」ツールは重宝します。
大体どのツールもアウトプットの一つに「I」というのがあるので、ここでデータの分布や欠けている項目、項目同士の関係性等がダッシュボードのような形で確認できます。
- 「Field Summary」でデータの概要をつかむ
- 「Frequency Table」でデータの頻度を確認、どの予測モデルを使用するかを考察
- 「Contingency Table」でデータ同士の関係性を確認、どの項目を計数として使用するか検討
見たいな使い方がよいかと思います!
また、「Field Summary」等でどのデータにどれくらいNullが含まれているかも確認できるので、果たしてNullがデータの欠如によるものなのか、それとも何か意味のあるNull値なのかも検討できれば予測モデルが組みやすくなります。
あまり使用する機会がないかもしれない「Data Investigation」ツール群でしたが、データを把握するのに最適なツールが色々と入っているので、ぜひ使ってみてください!
そしてあなたも Alteryx Inspire 2020 へ!
それではみなさん、Bye-bye!