データブリックス、リアルタイム分析をレイクハウス上で直接実現する「Lakehouse//RT」を発表

-
データブリックスは、新たなコンピュートエンジン「Reyden」を基盤とするリアルタイム版レイクハウス「Lakehouse//RT」を発表。適切なガバナンスが施された「Delta Lake」と「Apache Iceberg™」テーブル上で直接、数万人規模の同時接続ユーザーやエージェントに対してミリ秒単位のクエリレイテンシーを実現
-
Lakehouse//RTにより、既存のリアルタイムサービング基盤と比較して最大16倍のパフォーマンス向上を実現。小規模データセットでは10ミリ秒、大規模データセットでも100ミリ秒未満の応答を達成
-
Lakehouse//RTのすべてのクエリは、「Unity Catalog」によるガバナンスの下でネイティブに実行されるため、個別の権限管理レイヤーや独自フォーマット、同期・CDCパイプラインが不要となり、レイクハウスとは別に、リアルタイムサービング基盤を維持管理するコストや複雑性を解消
データとAIの企業であるDatabricks(本社:米国カリフォルニア州サンフランシスコ、以下「データブリックス」)は、レイクハウスをリアルタイム対応へと進化させる「Lakehouse//RT」を、米国時間6月16日に発表しました。Lakehouse//RTは、適切なガバナンスが施された「Delta Lake」と「Apache Iceberg™」上のデータに対して直接リアルタイム分析を実行できるため、企業はミリ秒単位の応答パフォーマンスを実現するために、別のサービングシステムを構築する必要がありません。Lakehouse//RTは、現代のエージェント型企業が求める高い同時実行性と低レイテンシー要件に対応するために開発された、新しいコンピュートエンジン「Reyden」を基盤としており、現在ベータ版として提供されています。
リアルタイム・レイクハウスの実現
これまで、高い同時接続数と低レイテンシーを必要とする企業には、レイクハウスとは別に、リアルタイムサービングレイヤーを構築する以外に選択肢がありませんでした。しかし、そのサービングレイヤーには、ベンダーロックインやインフラコストの増加、ガバナンスの分断、常にコピーされたもののためリアルタイム性を欠くデータといった課題がありました。その結果、企業は「レイテンシーを受け入れるか、データ基盤を分断するか」という選択を迫られてきました。これは人間のユーザーにとって悩みの種ですが、常時稼働し継続的に推論を行いながら動作するAIエージェントにとってその仕組みは機能しません。エージェントの能力は、複雑な企業データへ、どれだけ高速にアクセスできるかに大きく左右されます。
Lakehouse//RTは、この課題を解消するために開発されました。適切なガバナンスが施されたレイクハウス上のDeltaおよびIcebergテーブルを直接クエリすることで、AIエージェントやユーザーは、データをコピーしたり移動したりすることなく、最新かつ完全で信頼できるデータにアクセスできます。その実行エンジンは、数万規模の同時接続ユーザーやエージェントをサポートしながら、一貫して低レイテンシーを維持できるよう設計されています。標準的な分析ベンチマークでは、毎秒12,000クエリで100ミリ秒未満のレイテンシーを実現しており、顧客環境では既存の専用リアルタイムサービング基盤と比べて、最大16倍の性能向上が確認されています。また、別のサービングレイヤーを構築する必要がなくなることで、それに伴うコスト、CDC・同期パイプライン、ガバナンス上の課題、独自技術によるベンダーロックインも解消されます。
データブリックスの共同設立者兼CEOであるアリ・ゴディシは、次のように述べています。
「この10年間で当社は、データエンジニアリングとデータサイエンスはSparkで、データウェアハウスをPhotonとLakehouseで実現し、現代のデータスタックにおける主要なワークロードを、単一のオープン基盤へと統合してきました。Lakehouse//RTは、そのエンジンスペクトラムを完成させる存在です。人々が求め、エージェントが必要とするミリ秒単位の処理レイヤーを提供します。私たちが『最高のデータウェアハウスは、レイクハウスである』ことを証明したように、今や『最高のリアルタイム分析エンジンも、レイクハウスである』と言えるでしょう」
詳細情報
Lakehouse//RTは、大規模なリアルタイムサービングという特定の要件を満たすために設計されています。主な特徴は、以下の通りです。
-
あらゆる規模で、ミリ秒単位のレイテンシー
Reydenの完全非同期実行モデルにより、小規模データセットでは10ミリ秒、大規模データセットでも100ミリ秒程度の応答時間を実現します。また、スループットが数万件規模に増加しても、レイテンシーは低水準で維持されます。さらに、単純なデータ検索に最適化されたエンジンとは異なり、複雑な分析処理の全般に対して、最先端のパフォーマンス技術を適用します。
-
オープンでガバナンスが効いた単一システム
すべてのクエリは、ポリシー管理、権限管理、監査機能を含む、「Unity Catalog」によるガバナンスの下で実行されます。そのため、別途ガバナンスレイヤーを維持する必要がなく、分析サービング環境とその他のデータ資産との間にギャップが生じません。
-
設定不要で最新データへ即時にアクセス
Lakehouse//RTは、独自フォーマットへの変換やデータコピー、取り込みパイプラインを必要とせず、DeltaおよびIcebergテーブルに直接クエリを実行します。既存のテーブルを指定するだけで、数分以内にライブデータのクエリを開始できます。
お客様の声
Cicso データプラットフォーム責任者 Chris Kopek
「脅威情報の検索では、ユーザーやエージェントによる利用が拡大しても、一貫して低レイテンシーを維持することが求められます。Lakehouse//RTでは、ライブデータに対してミリ秒単位のパフォーマンスを実現し、応答時間が5倍改善されています。これにより、別のサービングシステムを維持する代わりに、当社のレイクハウス上でこれらのワークロードを実行できる仕組みが整います」
Magnite エンジニアリング担当シニアディレクター Kayvon Raphael
「当社のプラットフォームは、顧客基盤全体にわたるリアルタイムのパフォーマンスデータに対して、毎秒数百件のクエリを処理しており、レイテンシーと一貫性は顧客体験に直結します。Lakehouse//RTでは、主要なダッシュボードクエリにおいて、安定して200ミリ秒未満のパフォーマンスを実現しています。さらに、これを自社データレイク内でガバナンス管理しながら実現できるため、データパイプラインの管理やコンシューマー向けアプリケーションへのデータ提供に伴う複雑性を大幅に削減できます」
提供について
Lakehouse//RTは現在、ベータ版として提供されています。詳細は、ブログ記事(英語)をご覧ください。
データブリックスについて
データブリックスはデータとAIの会社です。アディダス、AT&T、バイエル、Block、Mastercard、リヴィアン、ユニリーバ、Fortune 500の70%以上の企業を含め、グローバルで2万社超が、データとAIのアプリケーション、アナリティクス、エージェントの構築・拡張に、データブリックスを利用しています。米国カリフォルニア州サンフランシスコに本社を置き、世界で30以上のオフィスを構えるデータブリックスは、「Lakebase」「Genie」「Agent Bricks」「Lakeflow」「Lakehouse」「Unity Catalog」などが統合されたプラットフォームを提供しています。詳細は、ウェブサイト(日本語) をご覧ください。
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像
