ノンプログラマー分析者がDataikuを使ってみた感想

By y.saito Dataiku 2023/05/23

はじめに

こんにちは。truestarの齋藤です。今回はDataikuについてご紹介します。

私はDataikuのラーニングパスにあるコアデザイナーとMLプラクティショナーで学習を行い、認定資格のコアデザイナー認定証とMLプラクティショナー認定証を取得しました。ノンプログラマー分析者である私が、学習の中で気づいたことについてシェアしたいと思います。

ここで使用しているDataiku DSSのバージョンは11.4.0のインストール版となります。違うバージョンを使用されている場合、操作方法やアウトプットがこの記事とは異なる可能性がある点ご了承ください。

まずはやはりこのツールだけで分析のほぼすべてが完結できることが素晴らしいと思います。データ取得～加工～可視化～モデル作成～デプロイ～運用までノンプログラミングで実施が可能です。DataikuもDataikuのみで完結できることを売りにしているようです。

また上記の過程が以下のようなフローとして可視化されることも分かりやすく便利です。

デフォルトの設定が便利でして、ポチポチしていけばそれなりのモデルができてしまいます。また例えばモデル作成時にデフォルトで25%をValidationサンプルに分けてその結果をレポートしてくれます。

また結果をチェックしたり比較するのも簡単です。例えば2つのモデルの精度を確認したい場合は、モデルを選択して「Compare」を押すと、自動で以下のようなレポートを作成してくれます。

またモデルの試行錯誤過程において、結果が枝状に派生してしていく場合がよくあると思いますが、（例えば設定Aと設定Bの結果があって、それぞれからA2、A2-2、B2、B2-2、、、などと派生がどんどんできていって整理ができなくなっていく…）、各結果の設定に戻して実施、ということが簡単にできます。

これはまだ具体的に試しているわけではないのですが、ノンプログラマーが作ったものを、プログラマーに渡してプログラムを追加してもらうこともできます。モデルのコンセプトを誰かがまず作って、それを他の人に渡して細部を詰めていく、というようなスタイルの進め方もDataikuではやりやすいかと思います。

Dataikuでは、LABという場所でモデルを開発し、最終的に決まったモデルをデプロイする、という方法を取ることが多いです。なのでデプロイされたモデルがどれかが分かりやすくなっています。

ただしモデルを試行錯誤しながら開発する際、結果がどんどん増えていって散乱しやすいという点には注意が必要かと思います。これはどのツールを使っても起きる課題かもしれませんが…。モデル結果のフォルダ分け・タグ付けなどの機能が今後追加されるとより便利になるかなと思いました。

ただし結果にアプローチしやすい仕組みは既にあって、以下の図のように星マークを付けて星マークがついているモデルに絞り込んだり、精度指標でソートしたりもできます。

デフォルトでモデルに関する様々な結果が出力されることは便利なのですが、注目すべき指標がどれなのか理解していないと、指標だらけでどれを見るべきか分からなくなってしまうことがありそうです。

またこれはモデルの設定についても同じで、デフォルトで標準の設定で実行してくれるのですが、設定を調整できる部分も多くあります。どこをどう調整すると結果がどう変わるのか分からない箇所もあり、分析者の腕が問われる部分でもあるかと思います。

今回はDataikuを触ってみた感想をシェアさせていただきました。今後もこちらのブログでDataikuのご紹介をしていきたいと思います。

またtruestarではデータ活用に関する様々な業務を承っております。是非こちらからご相談ください。