
2025年07月09日(水)、Databricks社が主催するウェビナーイベント『Data + AI Summit 2025 ダイジェスト』が開催されました。
このイベントは現地サンフランシスコで2025年6月9日から6月12日に開催されたDatabricks社のカンファレンスイベント『Data + AI Summit 2025』でアナウンスされた主要機能の発表を日本語でまとめた内容となっています。
当エントリでは当日の視聴内容を簡単ではありますがまとめておこうと思います。
はじめに
イベント公式ページはこちら:
セッション動画アーカイブはこちら:Databricks – YouTube ※『Data + AI Summit 2025』のキーワードで動画リスト及びセッション動画が多数展開されています)
- テーマ:"Data Intelligence for all"
- 過去最大、150カ国より現地参加22000名以上(バーチャルを含めると65000名以上)
- 日本からは280名以上が現地参加
- 合計700以上のセッション、20以上のハンズオン
- 2日間のキーノートで主要な新機能が適宜紹介された(以下に続く)
Lakebase
Databaseに完全統合された、Managed Postgres Database。[Public Preview]
-
Lakebaseの特徴
-
Postgres基盤:Postgres compatibility | Databricks Documentation
-
コンピュートとストレージの分離
-
AI時代を拓く開発者体験
-
レイクハウスとの統合&エンタープライズ対応
-
Lakebaseのユースケース
-
[推奨] レイクハウスからModel/Apps向けのデータサービング
-
[推奨] Appsの状態管理
-
[推奨] レイクハウスのデータ分析
-
[避けるべき] 大規模なOLTP移行
-
[避けるべき] レイクハウスが関与しない一般的なシステム開発
Databricks Apps
セキュアなデータ&アプリを迅速に構築出来る仕組み。[GA]
- Webアプリをシンプルに構築可能
- 成長が最も早いパブリックプレビュー:20000以上のアプリが作成済み、2000以上のアクティブ顧客
- Powered by Data Intelligence:Databricks上で構築、認証・SSO、Lakebaseとのワンクリック統合
- Secure and governed:マネージドのインフラ、Unity Catalogによるリソースレベルのガバナンス、企業監査のための認証・アクセスログ提供
- Open ecosystem:Pythonフレームワーク対応、Javascript対応、プリインストールされたマネージドOSSパッケージ群
- 充実したアプリ開発エコシステム
Agent Bricks
ユーザーのデータに自動最適化されたエージェントを構築可能な機能。ノーコードエージェント(構築が容易)+DIYエージェント(高品質)の"良いところ取り"な位置付けとなっている。
現在は以下4つのエージェントを提供。
- 情報抽出エージェント:ドキュメントから重要な情報を抽出、構造化されたアウトプットを生成
- カスタムLLMエージェント
- ナレッジアシスタントエージェント:より質の高いRAGで情報へのアクセスを民主化
- マルチエージェント・スーパーバイザー:複数のツールやエージェントが最適に連携するようにオーケストレート
新しいアルゴリズム(人間のフィードバックに基づくエージェント学習)によるエージェント品質を担保。本日(2025年07月09日)からβ版が利用可能。
また、セッションではサーバレスGPUコンピュートの紹介もされていました。
MLflow 3.0
生成AIのためのML Ops(機械学習モデルの開発から運用までのプロセスを効率化し、継続的に改善するための実践的な手法や考え方)。
ML Opsの詳細については下記databricks社のドキュメントが参考になります。
- モデルをベースとしたデータモデルへの移行
- プロンプトの保存、更新、最適化
- 人手評価とアノテーション(トレースと共に評価指標や正解ラベルをMLflowに記録)
- 新しい評価APIでオフライン・オンラインの評価:共通の評価実装を開発・本番環境で再利用可能
Unity Catalog
データとAIのための統合されたオープンガバナンス。サイロを排除し、ガバナンスを簡素化。大規模なインサイトを加速する機能。
メトリクス管理の最適化を実現可能。関係者毎に異なる指標や答えが出る『定義の不統一』が信頼とガバナンスの欠如を引き起こしていた状況が、
Unity Catalog Metricsを採用することによりあらゆる場所で信頼可能な定義に変わり、統一されたメトリクスで全社共通の答えを実現出来るように。
また、ビジネスユーザーが価値あるデータを見つけるために、認証情報とメタデータ付きの新しいキュレーション済み社内マーケットプレイス『UC Discover』も紹介されていました。(プライベートプレビューで近日展開予定)
Real-Time Mode(リアルタイムモード)
1秒未満の遅延(Sub-Second Latency/超低遅延)に対応する『リアルタイムモード』を提供。
『Sub-Second Latency/超低遅延』の詳細についてはこのあたりのブログ記事が詳しいです。
Apache Spark 4.0の紹介もこのパートで行われました。
- API操作、運用面の使いやすさ:Plotlyのネイティブサポート
- モニタリング機能の強化:Structured logging, UDF Profiling
- DWHエンジンとしてのSpark
Open Table Format(OTF)
『レイクハウスの基礎』でもあるOpen Table Format。Databricksでは『Delta Lake 4.0.0』と『Iceberg v3』に対応。
- 『Delta Lake 4.0.0』と『Iceberg v3』をdatabricks上で併用可能。
- Managed Iceberg on Unity Catalogの紹介
- 『Unity Catalog』エコシステムの世界
Lakeflow
あらゆるデータに対してより信頼性の高いデータパイプラインをより早く構築するための統合ETLソリューション。
- Lakeflow Connect:コネクタのさらなる拡大 – Lakeflowコネクト のマネージド コネクタ | Databricks Documentation
- Lakeflow Connect Zerobus:イベントデータ等を行レベルで直接Databricksへ取り込む機能
- Lakeflow Declarative Pipelines(旧DLT):新しいLakeflowパイプラインエディタ。OSS化されてDatabricksの外でも利用可能に
- Lakeflow Designer:Unity Catalogのガバナンス上でノーコードETLを実現する新機能。自然言語や画像認識をフル活用し、ノーコードとフルコードの完全な互換性を実現。データコピーやガバナンスのサイロを増やさない対応も
Databricks SQL(DBSQL)
- サーバレスSQLウェアハウスの自動性能向上 – 2022年04月からクエリは5倍高速化
- ETL用のSQLのシンプル化 – SQL Scripting(Public Preview), Temp Tbales(Private Preview), Multi-statement transactions(Private Preview)
- Databricksへの包括的な移行ツール – Lakebridge(GA):データウェアハウスをモダナイズする無料、オープン、AI搭載のマイグレーション。Introducing Lakebridge: Free, Open Data Migration to Databricks SQL | Databricks Blog
AI/BI & Free Edition
『Databricks Genie』は自然言語を利用してデータ分析が行えるサービス。
- 会話型アナリティクス
- ビジネスに最適化されたAI
- ガバナンスとセキュリティ
- どこからでもアクセス可能
- Deep Research
- Knowledge Store
- Table Metadata
『Databricks One』- すべてのビジネスユーザーに、データとAIをシンプルに届ける新しい方法。クラスター、クエリ、モデル、ノートブックといった技術的な要素を理解する必要なく、データやAIと直感的にやり取りできる単一の入り口を提供。
『Databricks Free Edition』 – Databricksの無料バージョン。幾つかの機能制限がある
まとめ
というわけで、Databricksのカンファレンスイベント『Data + AI Summit 2025』の日本語ダイジェストウェビナーの視聴内容まとめの紹介でした。開催元公式が紹介する内容だけあって、端的に分かりやすく全容を把握するのにちょうど良い内容だったと思います。この内容をベースに、新しい機能を含めたDatabricksを色々と触って行ければと思います!
当ブログでは他にも『Data + AI Summit 2025』に関する参加レポートを公開しています。合わせてお読み頂けますと幸いです。