【Dataiku】Internal Statsで始める運用改善

【Dataiku】Internal Statsで始める運用改善 | Tableau-id Press -タブロイド-
eyecatch_dataiku

はじめに

Dataikuを日々活用していると、「このプロジェクト、どれくらい使われているのだろう?」「最近ジョブの失敗が増えていないか?」といった疑問が浮かぶことはありませんか? そんなときに役立つのが、Internal Statsデータセットです。
本記事では、Internal Statsの基本的な使い方から、取得できるデータの中身、そして実際の活用方法をご紹介します。

本記事はこんな方におすすめ

  • Dataikuの運用状況を可視化・分析したい方
  • システムの健全性や監査対応を強化したい方
  • プロジェクトの活用度を把握し、運用改善に活かしたい方

Internal Statsとは?

Internal Statsは、Dataikuが管理している内部メタデータをデータセットとして取り出せる仕組みです。このデータを活用することで、プロジェクトの使用状況やジョブの失敗傾向などを把握できます。

Internal Statsの作成方法

  1. 「+DATASET」から作成
      • 新しいデータセット作成時、「Internal stats」タイプを選択

     

 

  1. 対象のメトリクスを選択
    • cluster tasks, commits, jobsなどから用途に応じて選択

    • 必要に応じてプロジェクトやコネクションを絞ったり、日付順に並び替えることが可能

  1. 更新頻度を設定
    • シナリオで各データセットをBUILDするよう定期実行を設定することで、最新のデータを取得することが可能

Internal Statsデータセットの中身

Cluster tasks:コネクションを通じて実行されたDSSの処理のログ

Commits (internal Git):DSSバックエンドが内部Gitリポジトリに行ったコミットの履歴

Jobs:すべてのジョブの実行履歴Scenario runs:すべてのシナリオ実行履歴Object states:各オブジェクトの実行履歴

どのように活用すべきか?

Internal Statsは下記のように利用することで、Dataikuを継続的に監視することに活用できます。
Dataikuの内蔵ダッシュボード機能や、Tableauなどで可視化することでより利用しやすくなりますね。

1. 運用の効率化とボトルネックの特定

頻繁に失敗しているレシピや、実行に時間がかかっているジョブを可視化することで、処理の最適化やリソース配分の見直しが可能になります。たとえば、特定の時間帯に集中しているジョブを分散させることで、全体のパフォーマンスを向上させることができます。

2. 監査・コンプライアンス対応

誰が、いつ、どのような操作を行ったかを記録として残すことができるため、内部統制や監査対応にも有効です。特に、金融や医療などの厳格な規制が求められる業界では、操作履歴のトラッキングが重要な要素となります。

3. ガバナンスとプロジェクトの健全性管理

長期間更新されていないプロジェクトや、利用頻度の低いシナリオを特定することで、不要なリソースの整理やメンテナンスコストの削減につながります。活発に使われているプロジェクトとそうでないものを見極めることで、より戦略的な運用が可能になります。

参考

Dataikuドキュメント Internal stats dataset

さいごに

Dataikuを運用するにあたって、簡単に取得して活用できるデータを紹介しました。
皆さんの環境に取り入れて、運用監視で役立てていただけたらと思います。

truestarではDataikuの検討、導入支援や環境構築から導入後の運用まで幅広くサポート可能です。
Dataikuに興味がある、導入済みだけどもっとうまく活用したい等々ありましたら、ぜひこちらからご相談ください。