【Dataiku】スプリットレシピの使い方

【Dataiku】スプリットレシピの使い方 | Tableau-id Press -タブロイド-
39f0aa1ba9411f3bb240e15f936224ac-150x150

Alteryxで頻繫に使うフィルターツールは、Dataikuだと何で代替できるのでしょうか。今回はこの疑問に対して、レシピの使用方法から、マップ上への可視化まで解説いたします。

Alteryxのフィルターツールの役割

Alteryxのフィルターツールは、データセット内の行をフィルタリングするために使用されるツールです。このツールを使用することで、特定の条件に基づいてデータを抽出したり、不要なデータを削除したりすることができます。出力にTとFのアンカーがあり、それぞれにほかのツールをつなげて、データ加工を続行できる点がとても便利です。

Dataikuではスプリットレシピを使おう

今回のデータセット

以下のデータセットを用いて、具体的な使用方法を解説します。

データセット –>  https://www.kaggle.com/datasets/dgomonov/new-york-city-airbnb-open-data 

New YorkのAirbnbのデータセットです。Dataikuのスプリットレシピを使用し、「1泊50ドルで宿泊できるプライベートルーム」と「それ以外」に分別しましょう。

プリペアレシピでデータを整理

今回必要な列は、座標、部屋の種類、価格、最低の宿泊数のみなので、それ以外の不要な列を削除します。
プリペアレシピにて、右上のCOLUMNSを選択すると、この作業が一度にできるので便利です。

スプリットレシピ

早速ですが、ここが最も大事なポイントです。
Action –> Split の順で進み、TrueとFalseの2個のファイルをこの時点で作成する必要があります。作成しなかった場合、設定した条件に合うデータのみ抽出され、Falseに分類されるはずのデータセットは削除されてしまいます。

ここでは、Define Filtersを選択します。

Locationはデータの出力先ですので、先ほど作成したTrueのファイルを選択しましょう。
定義の部分では、今回の課題である「1泊50ドルで宿泊できるプライベートルーム」が抽出されるように定義します。
さらに、定義から外れるデータをFalseファイルに出力してあげます。

最後にRUNをクリック。

 

すると、TrueとFalseのファイルにデータセットが分別されました。これでAlteryxのフィルターツールがDataikuで再現されました。

分別したデータ可視化する

Trueの方を可視化すると、こうなりました。
詳しい可視化の手順は、以下のブログを参考にしてください。
可視化の方法 –> https://blog.truestar.co.jp/dataiku/20230612/54463/

こちらはFalseのファイル。
左の赤枠部分を、Filtersにドラッグ&ドロップすることで、マップ上のジオポイントもフィルターにかけることができます。
Dataikuのみで、データ加工から地理データの可視化までできてしまいます!さらに、ビジュアルもきれいですので、一度試してみてください。

まとめ

以上、Dataikuのスプリットレシピについての解説でした。Alteryxだと予めT/Fアンカーがありますが、Dataikuのスプリットレシピは自分で設定する必要があります。しかしながら、作業自体は複雑ではありません。今回のブログを参考に実践してみてください。