ノンプログラマー分析者がDataikuを使ってみた感想

ノンプログラマー分析者がDataikuを使ってみた感想 | Tableau-id Press -タブロイド-
dataiku_logo

はじめに

こんにちは。truestarの齋藤です。今回はDataikuについてご紹介します。

私はDataikuのラーニングパスにあるコアデザイナーMLプラクティショナーで学習を行い、認定資格コアデザイナー認定証MLプラクティショナー認定証を取得しました。ノンプログラマー分析者である私が、学習の中で気づいたことについてシェアしたいと思います。

ここで使用しているDataiku DSSのバージョンは11.4.0のインストール版となります。違うバージョンを使用されている場合、操作方法やアウトプットがこの記事とは異なる可能性がある点ご了承ください。

使いやすい点

これ一つで完結できる

まずはやはりこのツールだけで分析のほぼすべてが完結できることが素晴らしいと思います。データ取得~加工~可視化~モデル作成~デプロイ~運用までノンプログラミングで実施が可能です。DataikuもDataikuのみで完結できることを売りにしているようです。

また上記の過程が以下のようなフローとして可視化されることも分かりやすく便利です。

手間が省ける

デフォルトの設定が便利でして、ポチポチしていけばそれなりのモデルができてしまいます。また例えばモデル作成時にデフォルトで25%をValidationサンプルに分けてその結果をレポートしてくれます。

また結果をチェックしたり比較するのも簡単です。例えば2つのモデルの精度を確認したい場合は、モデルを選択して「Compare」を押すと、自動で以下のようなレポートを作成してくれます。

またモデルの試行錯誤過程において、結果が枝状に派生してしていく場合がよくあると思いますが、(例えば設定Aと設定Bの結果があって、それぞれからA2、A2-2、B2、B2-2、、、などと派生がどんどんできていって整理ができなくなっていく…)、各結果の設定に戻して実施、ということが簡単にできます。

共同作業しやすい

これはまだ具体的に試しているわけではないのですが、ノンプログラマーが作ったものを、プログラマーに渡してプログラムを追加してもらうこともできます。モデルのコンセプトを誰かがまず作って、それを他の人に渡して細部を詰めていく、というようなスタイルの進め方もDataikuではやりやすいかと思います。

気を付ける必要がある点

結果の整理が必要

Dataikuでは、LABという場所でモデルを開発し、最終的に決まったモデルをデプロイする、という方法を取ることが多いです。なのでデプロイされたモデルがどれかが分かりやすくなっています。

ただしモデルを試行錯誤しながら開発する際、結果がどんどん増えていって散乱しやすいという点には注意が必要かと思います。これはどのツールを使っても起きる課題かもしれませんが…。モデル結果のフォルダ分け・タグ付けなどの機能が今後追加されるとより便利になるかなと思いました。

ただし結果にアプローチしやすい仕組みは既にあって、以下の図のように星マークを付けて星マークがついているモデルに絞り込んだり、精度指標でソートしたりもできます。

見るべき指標の数が多い

デフォルトでモデルに関する様々な結果が出力されることは便利なのですが、注目すべき指標がどれなのか理解していないと、指標だらけでどれを見るべきか分からなくなってしまうことがありそうです。

またこれはモデルの設定についても同じで、デフォルトで標準の設定で実行してくれるのですが、設定を調整できる部分も多くあります。どこをどう調整すると結果がどう変わるのか分からない箇所もあり、分析者の腕が問われる部分でもあるかと思います。

さいごに

今回はDataikuを触ってみた感想をシェアさせていただきました。今後もこちらのブログでDataikuのご紹介をしていきたいと思います。

またtruestarではデータ活用に関する様々な業務を承っております。是非こちらからご相談ください。