データストリームシステムアーキテクチャ概要
データストリームの課題を解くには、様々な要件が必要となる。以下にそれらのシステムに求められる特性を示す。
- 巨大なデータへの対応
- ストリームデータへの対応
- ヘテロジニアスなデータセットの連携
- 不完全なデータへの対応
- ノイジーなデータへの対応
- 応答性(速度)の高い答えを提供する
- 粒度の細かな情報へのアクセス
- 複雑なドメインモデルの統合
これらに対して対応できる可能性のある既存のシステムとしては大きく分けて以下に示すように2つある。
- データストリーム管理システム(Data Stream Management System:DSMS)
- 複合イベント処理システム(CEP(Complex Event Procesing)system)
DSMSは、データを圧縮したり、ウィンドウで分割することでクエリが受け取れるデータに変換し、常時動作しているクエリでデータを処理するもので、例えば多くのエリアに設置された煙・温度センサーを用いて、火災が発生したときに警告を出す(例えば、煙と温度が50°以上)システムを考えた時、煙と温度のセンサである一定の時間帯のウィンドを設定し、そのウィンドの中で所定の数値になったらアラートを出すシステムとなる。(詳細はリンク先参照)
CEPは複数のソースからなるデータを組み合わせてより複雑な状況を示唆するイベントやパターンを推論するイベント処理となり、上記の例では、1分以内に煙と高温のイベントを受信すると、そのエリアで火災アラートイベントが生成されるようなシステムとなる。(詳細はリンク先参照)
このDSMS/CEPでは先ほどの要求に対して、「1.巨大なデータへの対応、2. ストリームデータへの対応、5.ノイジーなデータへの対応、6.応答性(速度)の高い答えを提供する、7.粒度の細かな情報へのアクセスに対しての対応」は可能だが、「3.ヘテロジニアスなデータセットの連携、4.不完全なデータへの対応、8.複雑なドメインモデルの統合」に対しては対応できない。
この課題に対して、”Ontology Based Data Access(ODBA)と生成系AIとGNN“で述べているオントロジーベースデータアクセスシステム(Ontology Based Data Access System)は、オントロジーと呼ばれる知識データを用いて、クエリを書き換える機能を持つことで「3.ヘテロジニアスなデータセットの連携、4.不完全なデータへの対応、8.複雑なドメインモデルの統合」に対応可能となるが、静的なデータアクセスシステムである為「2.ストリームデータへの対応、5.ノイジーなデータへの対応、6.応答性(速度)の高い答えを提供する」には対応できない。
これらを解決する為、オントロジーベースデータアクセスシステムとDSMS/CEPの特徴を備え持つシステムとしてStream Reasoningと呼ばれる技術が提案された。これは様々なストリームデータをフレキシブルに組み合わせて、様々なコンテキストに合わせたクエリーに対応させようという技術となる。
次回以降それらの技術に対する詳細について述べる。
コメント
[…] データストリームシステムアーキテクチャ概要 […]