こんにちは!
今回はDataikuの基本的な使い方を学ぶために、コアデザイナーというチュートリアルのコースを一通りやってみました!
これからDataiku触ってみたい、という人向けに、「こんな感じで使うのね」というイメージをもっていただけるよう、
チュートリアルの一部をご紹介したいと思います!
なぜこのチュートリアルを紹介したいか
今回ご紹介するVisual Recipe101でとりあげているのは、ビジュアルレシピというものです。
Dataikuでは、データを加工・整形する変換ステップをレシピと呼び、2種類にわけられます。
コードレシピ:Python、R、SQL などの言語を使用して、コードで自由に処理を定義するもの
ビジュアルレシピ:GUIであらかじめ決まった処理を実行できるもの(ノンコーダー向け)
このチュートリアルではビジュアルレシピの使い方を実践的に学ぶことができ、
ノンコーダーの私でも実際の使い方がイメージしやすかったことから、本記事のテーマとしてピックアップしました!
なにをやるか
さて、このチュートリアルでアメリカの国際線利用者と貨物の統計レポートいうオープンデータをDataikuで成形して、
以下を読み解いていきます!
・最も利用者が多い空港はどこか確認する
・航空会社のシェアを出す
・前年度比を出す
全部やるとめちゃめちゃ長くなりそうなので、
この中の「最も利用者が多い空港はどこか確認する」部分をダイジェストでお届けしたいと思います!
やってみよう!
ではまず最初のステップです。
1.プロジェクトの作成
「プロジェクト」とは、Dataiku上でのフォルダのようなもので、
この中でデータをアップしたり、加工・分析したり、という作業を行っていくイメージです。
DataikuのUI上で右上の+NEW PROJECTボタンをクリックして作成します。
今回はBlank projectでゼロから作成しますが、チュートリアルによってはフォーマットが準備されているものもあり、
DSS tutorialsの方からデータセット付のプロジェクトを作成できたりします
2.データのダウンロードとデータセットの作成
1で作成したプロジェクトの中に、分析したいデータを入れていきます。
ダウンロードレシピ
データを入れる方法は色々とありますが、ここではまず、ビジュアルレシピの「ダウンロードレシピ」を使用します。
このレシピを使うと、ファイルベースの接続(S3、FTP、HTTP等)パス・URLからファイルをダウンロードできます。
パス・URLを入力してレシピを実行すると、ダウンロードが開始されます。
今回はアメリカの運輸省が提供しているオープンデータのダウンロードURLを入力しました。
データセットの作成
ダウンロードができたら、Create Datasetをクリックしてこのプロジェクトで使用するデータとして読み込みます。
プロジェクト内にデータセットを作成できました!
黄色くて丸いアイコンがレシピ、青色で四角いアイコンがデータセットです。
このように、Dataikuではデータセットとレシピで処理の流れが構成されていきます。
この流れをDataikuではフローと呼びます(そのまんま)。
3.データの加工
では早速データセットをいじっていきましょう!
サンプリング・フィルターレシピ
今回分析に使用したいデータは2017年のものだけなので、
「サンプル・フィルターレシピ」を使って絞り込んでいきます。
まずは、データセットを選択し、右カラムのビジュアルレシピのsample/filterをクリック。
レシピとクリックすると、レシピで加工した後のデータセットの名前と、保管する場所を選択するモーダルが出ます。
※これらはレシピを使用する度に設定する必要があります
今回はそのまま「Create Recipe」をクリックして、レシピの設定に移ります。
サンプル・フィルターレシピの設定画面は以下の通り。
フィルターをオンにして、ドロップダウンでカラムや条件を選んでいくだけで、 直感的に操作ができます。
今回の場合はYearというカラムを選んで、equalsという条件、2017という条件値を入れています。
上記の設定で実行すると、「Passengers_filtered」というデータセットが出力されました。
「Passengers_filtered」の中身を確認してみると…ちゃんと2017年に絞り込まれていますね。
グループレシピ
次に、空港ごとに利用者を合計していきます。
「グループレシピ」という、指定したカラムをキーにして、列の値を集計するレシピを使います。
今回は利用者が多い空港を知りたいので、空港ごとに集計します。
Group by、つまり集計するキーとして、usg_apt(空港コード)を選択。
グループレシピの設定画面は以下の通り。 先ほど設定したusg_aptがキーとなっていますが、他のキーも追加が可能です。
Per field aggredationsで集計するカラムと集計方法を選択します。
今回はScheduled(定期便)、Charter(チャーター便)、Total(合計)カラムをそれぞれsumで集計します。
結果、出力されたデータセットはこんな感じ。 狙い通り、空港別に集計されています。
Top Nレシピ
最後に、「Top Nレシピ」を使って、利用者が多いトップ20に絞り込み&並べ替えます。
Top Nレシピの設定画面は以下の通りです。
今回はTop20を取得してみましょう。 [ ] top rows(上位)の部分に20と入力して、
ソートするカラムをtotal_sum(定期便とチャーター便の合計を総計したもの)の、降順↓の並びとします。
結果はこんな感じ。 2017年もっとも利用者が多かった空港は、ジョン・F・ケネディ国際空港でした!
その他のおすすめチュートリアル
いかがでしたでしょうかか?
その他にもチュートリアルコンテンツはたくさん用意されており、
こちらから確認いただけます。
私はとりあえず基本を抑えるため、ラーニングパスのコアデザイナーを一通りやりました。
コアデザイナーでは、ステップバイステップで使い方を学びながら、小クイズに答えていきます。
最後に試験もあり、単純に知識を問う設問だけではなく、
実際にデータを用いて分析しながら回答する設問もあって実践的でした!
認定証も発行されるのでやりがいがありますよ!
日本語版が無いチュートリアルもあるのですが、コアデザイナーの必須コースは日本語版もあります。
※リンクを踏んでいるうちに英語版に遷移してしまうことがあるので、
日本語がよい人は注意してくださいね
コアデザイナーについて詳しく知りたい方は、こちらの記事もご覧ください。
さいごに
今回はDataikuのチュートリアルの一部をご紹介させていただきました。
これからDataikuを触ってみよう!という方のご参考になれば幸いです。
また、truestarではデータ活用に関する様々な業務を承っております。是非こちらからご相談ください!