Alteryxで頻繫に使うフィルターツールは、Dataikuだと何で代替できるのでしょうか。今回はこの疑問に対して、レシピの使用方法から、マップ上への可視化まで解説いたします。
Alteryxのフィルターツールの役割
Alteryxのフィルターツールは、データセット内の行をフィルタリングするために使用されるツールです。このツールを使用することで、特定の条件に基づいてデータを抽出したり、不要なデータを削除したりすることができます。出力にTとFのアンカーがあり、それぞれにほかのツールをつなげて、データ加工を続行できる点がとても便利です。
Dataikuではスプリットレシピを使おう
今回のデータセット
以下のデータセットを用いて、具体的な使用方法を解説します。
データセット –> https://www.kaggle.com/datasets/dgomonov/new-york-city-airbnb-open-data
New YorkのAirbnbのデータセットです。Dataikuのスプリットレシピを使用し、「1泊50ドルで宿泊できるプライベートルーム」と「それ以外」に分別しましょう。
プリペアレシピでデータを整理
今回必要な列は、座標、部屋の種類、価格、最低の宿泊数のみなので、それ以外の不要な列を削除します。
プリペアレシピにて、右上のCOLUMNSを選択すると、この作業が一度にできるので便利です。
スプリットレシピ
早速ですが、ここが最も大事なポイントです。
Action –> Split の順で進み、TrueとFalseの2個のファイルをこの時点で作成する必要があります。作成しなかった場合、設定した条件に合うデータのみ抽出され、Falseに分類されるはずのデータセットは削除されてしまいます。
ここでは、Define Filtersを選択します。
Locationはデータの出力先ですので、先ほど作成したTrueのファイルを選択しましょう。
定義の部分では、今回の課題である「1泊50ドルで宿泊できるプライベートルーム」が抽出されるように定義します。
さらに、定義から外れるデータをFalseファイルに出力してあげます。
最後にRUNをクリック。
すると、TrueとFalseのファイルにデータセットが分別されました。これでAlteryxのフィルターツールがDataikuで再現されました。
分別したデータ可視化する
Trueの方を可視化すると、こうなりました。
詳しい可視化の手順は、以下のブログを参考にしてください。
可視化の方法 –> https://blog.truestar.co.jp/dataiku/20230612/54463/
こちらはFalseのファイル。
左の赤枠部分を、Filtersにドラッグ&ドロップすることで、マップ上のジオポイントもフィルターにかけることができます。
Dataikuのみで、データ加工から地理データの可視化までできてしまいます!さらに、ビジュアルもきれいですので、一度試してみてください。
まとめ
以上、Dataikuのスプリットレシピについての解説でした。Alteryxだと予めT/Fアンカーがありますが、Dataikuのスプリットレシピは自分で設定する必要があります。しかしながら、作業自体は複雑ではありません。今回のブログを参考に実践してみてください。