Uncertainty Reasoning for the Semantic Web 1論文集

機械学習技術 人工知能技術 自然言語処理技術 セマンティックウェブ技術 オントロジー技術 デジタルトランスフォーメーション技術   AI学会論文    知識情報処理技術   AI学会論文を集めて     推論技術

本書は、2005年、2006年、2007年にISWCで開催されたUncertainty Reasoning for the Semantic Web (URSW)の最初の3ワークショップの議事録である。ここでは、ワークショップで発表された論文の改訂版および大幅な拡張版に加え、この分野および関連分野の第一人者による招待論文を収録している。

本書は、セマンティックWebの文脈における不確実性推論への最先端の研究アプローチを初めて包括的にまとめたものであり、不確実性の異なるモデルや、不確実な形式知を用いた演繹的推論および帰納的推論へのアプローチを捉えている。

World Wide Webコミュニティは、人間とコンピュータの間の楽な相互作用、Webアプリケーション間のシームレスな相互運用性と情報交換、および適切なWebサービスの迅速かつ正確な識別と呼び出しを想定している。意味論とサービスに関する研究がより野心的になるにつれ、不確実性の形式的表現とその下での推論に対する原則的アプローチの必要性がますます認識されるようになっている。不確実性という用語は、ここでは、不完全性、結論なし、曖昧さ、曖昧さ、その他を含む、様々な形の不完全な知識を包含することを意図している。不確実性推論という用語は、ブール式の真理値が未知、未知、または適用不可能な場合に、知識を表現し推論するために設計された方法の全範囲を示すことを意図している。不確実性推論に一般的に適用されるアプローチには、確率論、デンプスターシェーファー理論、ファジー論理、可能性理論、および他の多くの方法論が含まれている。

不確実性の下で推論することによって解決されるWeb関連の課題には、以下のようなものがある。

利用可能な情報の不確実性。World Wide Web上の多くの情報は不確実である。例えば、天気予報やギャンブルのオッズなどである。このような情報を表現し、統合するための正規の方法が、情報をシームレスに伝達するために必要である。

情報の不完全性 World Wide Webのような大規模な情報ネットワークから抽出される情報は、通常、不完全である。部分的な情報を利用する能力は、サービスや情報の提供元を特定するのに非常に有効である。例えば、あるオンラインサービスがグリーティングカードを扱っていることは、そのサービスが文房具も販売していることの証拠になるかもしれない。このように、不確実性を扱う技術を適切に利用することで、検索効率が向上することは明らかである。

情報の不正確さ。ウェブ情報は不正確であったり、部分的に正しくないことが多く、信頼性・信用性に関わる問題がある。不確実性の表現と推論により、信頼度や信用度が異なる情報源間の緊張関係を解消し、複数の情報源から得られる論争的な情報の統合を容易にすることができる。

不確かなオントロジー・マッピング。セマンティックウェブのビジョンでは、多くの異なるが概念的に重複するオントロジーが共存し、相互運用されることを示唆している。このようなシナリオでは、ソースオントロジーのクラスメンバーシップに関する情報があれば、ターゲットオントロジーのカテゴリーに属する度合いや尤度を表現する能力が、オントロジーマッピングに役立つと思われる。

ウェブサービスに関する不定な情報。Webサービスの動的な組み合わせは、処理およびデータリソースの実行時識別と、ポリシー目標の解決を必要とする。不確実性推論技術は、既存の情報が確定的でない状況を解決するために必要である場合がある。

このように、不確実性はWebおよびセマンティックWeb上の多くの重要なタスクの本質的な特徴であり、処理可能なデータおよびサービスのソースとしてWorld Wide Webを完全に実現するには、不確実性の下で表現および推論できるフォーマリズムが必要である。残念ながら、これらのニーズはいずれも、現在のWeb標準では原理的に対処できない。OWLやRDF(S)などのセマンティックマークアップ言語を用いて、不確実性に関する定性的・定量的情報を表現することはある程度可能であるが、そのための基盤が確立されておらず、実現可能なアプローチは極めて限定的である。さらに、不確実性表現の表現力と簡便性のバランスをどうとるか、どの不確実性表現技術が上記の例のような用途に対応するか、表現形式とオントロジーの一貫性をどう確保するか、などの付随的な問題もある。

このような背景から、近年、セマンティックWeb上での不確実性推論に対するいくつかの有望なアプローチが提唱されている。本書では、既存のWeb関連ロジックの不確実性表現への拡張から、Web上の不確実性の下での帰納的推論へのアプローチまで、これらのアプローチの代表的な断面をカバーしている。

本書では、提案されたアプローチの多様性を反映し、それらを不確実性の基礎モデルと関連付けるために、以下のように分類している。

確率論的モデルおよびデンプスター・シェイファーモデル

確率論は、数学的に健全な表現言語と合理的な信念の度合いのための正式な計算法を提供し、異なるエージェントに与えられた仮説について異なる信念を持つ自由を与えるものである。これは、多様なエージェントからもたらされる不確実で不完全な知識を表現するための説得力のあるフレームワークを提供するため、セマンティックWebの文脈で確率を使用する多くの異なるアプローチがある。本書では、ベイジアンネットワーク、記述論理や一階論理の確率論的拡張、デンプスター・シャファー理論(古典的なベイズアプローチの一般化)に基づくモデルなどの確率論的モデルを取り上げている。

ファジィモデルと可能性モデル

ファジィ形式は曖昧な(あるいは不正確な)情報の真実の度合いを表現し処理することを可能にする.ファジィ記述論理やオントロジー言語では、概念アサーション、役割アサーション、概念包含、役割包含は二値真理値ではなく、真理の度合いを持つ。本書では、セマンティックウェブの文脈でファジィ論理と可能性理論を利用した様々なアプローチを紹介する。

帰納的推論と機械学習

機械学習は、不完全なデータからのオントロジー学習や、Web上のデータの(半)自動アノテーションなど、様々なタスクを提供することにより、セマンティックWebの構築においてますます重要な役割を果たすことが期待されている。機械学習によって得られる結果は一般に不確実である。機械学習の論理的アプローチである帰納推論は、観測結果(例となる事実)から一般的な命題を導くための手段を提供する。本論文では、オントロジー学習のために帰納推論を活用し、セマンティックウェブにおける機械学習の今後の方向性について述べる。

ハイブリッド・アプローチ

この巻のセグメントは、2つ以上の前のセグメントからのアプローチを組み合わせる、または不確実性推論への特定の古典的なアプローチに依存しない論文を含んでいる。

Probabilistic and Dempster-Shafer Models

近年、セマンティックウェブの実現には、豊かな一階表現に基づく不確実な推論が必要であることが明らかになりつつある。マルコフ論理は、論理式に重みを付け、それをマルコフネットワークの特徴のテンプレートとみなすことで、一階論理に確率的モデリングの力をもたらす。これにより、不確実な、あるいは矛盾した知識ベースに、自然な確率的意味づけを最小限の工学的努力で与えることができる。マルコフ論理の推論アルゴリズムは、充足可能性、マルコフ連鎖モンテカルロ、知識ベースモデル構築のアイデアを用いている。学習アルゴリズムは、共役勾配アルゴリズム、擬似尤度、および導関数的論理プログラミングに基づくものである。マルコフ論理は、実体の解明、リンク予測、情報抽出などの問題への応用に成功し、オープンソースのシステムAlchemyの基礎となっている。

この章では、セマンティックサイエンスに関する研究を概観する。これは、豊富なオントロジーを用いて、観測データとデータに対して(確率的)予測を行う理論の両方を公開し、理論の改善や比較、また新しいケースでの予測を行うことを目的としている。本論文では、このように利用可能な科学理論に機械的にアクセスできるようにするための課題と進捗について集中的に議論する。この論文では、壮大なビジョン、地質学的領域(鉱物探査と地質災害)のためのそのようなシステムを構築する際に生じた問題、そしてこのビジョンの根底にある形式的基礎を概説する。新しい科学的理論が利用可能なすべてのデータで検証され、新しいデータがそのデータを予測する既存のすべての理論の評価に利用され、新しい事例が発生したときにその事例を予測する最善の理論が利用できるようなステージに到達することが目標である。

エージェントは、単独では不可能なタスクを遂行するために、コミュニケーションをとる必要がある。コミュニケーションには、エージェントが共通のオントロジーを共有することが必要です。異なる背景を持つエージェントが短期間出会うオープンな環境では、事前にすべてのオントロジーをマッピングすることは不可能であるため、このことは強い前提となっています。エージェントは、メッセージを受信すると、メッセージ内の外来語を自身のローカルオントロジーのすべての用語と比較し、最も類似したものを検索する必要があります。しかし、メッセージの内容は、相互作用モデルを用いて記述することができる。用語が参照するエンティティは、相互作用の他のエンティティと相関しており、以前の類似の相互作用によって決定された事前確率を持つこともある。相互作用のコンテキスト内で、受信したメッセージが含む可能性のあるエンティティのセットを予測することが可能であり、外来語を最も可能性の高いローカルなものとのみ比較することにより、効率性のために想起を犠牲にすることが可能である。これにより、新しい形の動的オントロジー・マッチングが可能となる。

これまでの研究で、我々はセマンティックウェブのための確率的記述論理プログラムを導入した。このプログラムは、記述論理、アンサーセット(resp., well-founded)意味論の下での通常のプログラム、および確率的な不確実性を組み合わせたものである。本論文では、この研究を継続する。本論文では、セマンティックウェブにおける確率的データ統合のための、確率的記述論理プログラムに基づくアプローチを提案する。これは、データベースとウェブのコミュニティにおける確率的データ統合に関する最近の研究[5,2]に触発されたものである。

オントロジー間のマッピングの使用は、セマンティックウェブにおける意味的異質性の問題にアプローチするための一般的な方法である。セマンティックウェブ言語に適合するためには、マッピングのための適切な論理ベースの表現フォーマリズムが必要であり、オントロジーとマッピングを統合的に推論し、自動的に作成されるマッピングの不確実性と矛盾を扱うことができる。我々は、このようなフォーマリズムの要件を分析し、記述論理オントロジーと確率的ルールを統合するフレームワークを使用することを提案する。このようなフレームワークを2つ比較し、決定論的なフレームワークの確率論的な拡張を使用することの利点を示す。比較する2つのフレームワークは、OWL DL resp. OWL Liteの背後にある記述論理、解集合セマンティクスの下での分離論理プログラム、およびベイズ確率を緊密に結合した確率的dl-プログラムと、OWL LiteのDLP-フラグメントとベイジアンネットワークのセマンティクスに基づくデータログ(否定と等号なし)を緊密に結合した一般化ベイズ dl-プログラムである。© 2008 Springer Berlin Heidelberg.

本論文では、セマンティックウェブのための現行技術の主要な弱点、すなわち、不確実性を表現し推論するための原理的手段の欠如を取り上げる。これは、セマンティックウェブに対する当初のビジョンの実現を妨げるだけでなく、不確実な現象を適切に扱う必要がある一般知識アプリケーションのための新しく強力な機能の開発に対する障害にもなっている。そこで、World Wide Web Consortium (W3C)が推奨するオントロジー言語OWLを拡張し、確率的知識を表現する機能を提供することを提案する。この新しい言語PR-OWLは、従来のオントロジーと新しく開発された確率論的オントロジーの相互運用を可能にする。PR-OWLは、現在の決定論的古典論理の限界を超え、完全な一階確率論的論理に移行する。PR-OWLは、オントロジーにおける不確実性をモデル化する原理的な手段を提供することにより、オントロジー言語における確率的推論の恩恵を受ける多くのアプリケーションの支援ツールとして機能することになり、W3CのセマンティックWebのビジョンに向けた重要な一歩となるであろう。

セマンティックウェブサービス発見は文献上では広く研究されているが([7]、[12]、[15]、[10])、効果的、完全かつ自動的な発見プロセスの実現にはほど遠い。本稿では、真理関数型確率計算であるincidence calculus [4] と軽量ブローカー機構 [17] を用いて、セマンティックWebサービス環境における確率的推論の統合の適否を検討する。マッチングプロセスの緩和と、過去の成功した実行の履歴に基づくウェブサービス能力の評価の組み合わせが、サービス発見における新しい可能性をどのように可能にするかを示している。

セマンティック)ウェブでは、特定の、合意された、または権威ある知識の存在または生産性を仮定することはできず、知識ソースの信頼性と評判を判断する基準は与えられない場合があります。これらの問題は、異質で、おそらく一貫性のない主張と意図を考慮し、そのような異質性を明示し、推論メカニズムに管理可能にするウェブ情報の形式化を生じさせる。このようなアプローチは、オープンまたは分散オントロジー、ソーシャルソフトウェア、ランキングや推薦システム、政治や文化のような論争の多い領域など、現代の応用分野で貴重なメタ知識を提供することができる。このアプローチとして、我々はセマンティックウェブのためのリーンな形式主義を導入する。この形式主義では、いわゆる社会的文脈によって、論争の的になる個人やグループの意見や目標を明示的に表現し、オプションとして不確実または矛盾する記述の確率的信念併合を行うことができる。そうすることで、我々のアプローチは、オントロジーや他の種類のセマンティックウェブ知識の文脈における実績アノテーションや投票などの概念を一般化することができる。

情報抽出アルゴリズムを用いた自動オントロジー構築では、矛盾した知識ベースが生成されることがある。抽出アルゴリズムによって割り当てられた信頼度は、生成された矛盾を修復するのに役立つ証拠となりうる。デンプスター・シェイファー(Dempster-Shafer)理論とは、抽出アルゴリズムの信頼値を適切に解釈するための形式論である。本論文では、矛盾を含むサブオントロジーを信念伝播ネットワークに変換し、Dempster-Shaferの尤度に基づいて矛盾を修復するアルゴリズムを提示する。

診療ガイドライン(Clinical Practice Guidelines: CPG)は、医療の質と患者の転帰を改善する上で重要な役割を担っている。セマンティックウェブ技術を用いた機械可読な診療ガイドライン表現がいくつか発表されているが、診療ガイドラインのアクティビティグラフに関する不確実性を表現するための実装は存在しない。本論文では、オントロジーに基づきCPGの不確実性を表現するベイジアンネットワーク(BN)のアプローチを検討する。このような不確実性の表現に基づき、あるアクティビティが発生した際に、そのアクティビティが臨床プロセス全体に与える影響を評価し、医師が他のアクティビティの不確実性のリスクを判断し、意思決定することが可能となる。BN推論を実現するために変数除去アルゴリズムを適用し、糖尿病患者に対するアスピリン治療シナリオの検証を提案する。

Fuzzy and Possibilistic Models

ファジィ記述論理は、不確実性と曖昧性に影響される構造化された知識の表現(およびその中での推論)を可能にする論理の一群である。ファジー記述論理は、このような知識を扱う際の古典的な記述論理の限界を克服するために生まれたが、適切なファジー言語の合意や、推論アルゴリズムの実用的かつ高度に最適化された実装を必要とする、いくつかの新しい課題をもたらしている。本論文では、SHOINのファジー拡張のためのクリスプ表現を得るための推論保存手順を提示することによって、これらの問題に対処する。さらに、名辞構文のファジィ版の構文と意味論を定義し、ファジィ一般概念包含の中で推論することを可能にする。

古典的なオントロジーは、不正確な情報や不確実な情報を表現するのに適していない。ファジィ記述論理は前者の知識を表現するために生まれたが、適切なファジィ言語が合意され、利用可能なリソースが多数適応されることが必要である。本論文では、これらの問題に対処するため、ファジィ概念と役割の包含の意味論にG¨model implicationを用いた論理SROIQのファジィ拡張のためのクリスプ表現を得るための推論保存手続きを提示する。この方法によって、現在利用可能な推論器と同様に、クリスプ表現言語を再利用することができる。本手法は、関連研究に対して最適化され、結果として得られる知識ベースのサイズを縮小し、ファジーOWL DLをサポートする最初の推論器DeLoreanに実装されている。

我々は、Webリソースを人間が処理するのを自動処理に置き換えることに着目している。実験システムにおいて、自動処理を困難にしている不確実性の問題を明らかにし、人間の介入を最小限にすることを試みている。特に、Webコンテンツマイニングシステムとユーザープレファレンスマイニングシステムにおける不確実性の問題に注目する。最後に、不確実性機能を持つOWLの拡張に向けた将来の発展可能性について述べる。

情報(またはオブジェクトのセット)を整理するために階層的な分類法を使用することは、セマンティックウェブなどでは一般的なアプローチであり、オブジェクトの粒度を徐々に細かくすることに基づいている。多くの場合、一見鮮明に見える分類は、カテゴリが緩く定義された概念に基づいているという事実を隠蔽しており、段階的なメンバーシップを許可することでよりよくモデル化されている。また、異なる構造を持つ分類法が使われた場合、統合の過程でファジーなカテゴリが生成されることがあるため、関連する問題が発生する。ファジーセットは分離可能性分布ではなく、接続的に解釈されなければならないのである。我々はこの区別を明確にし、拡張質量割り当てフレームワークを用いて、ファジーカテゴリ間の関係を抽出する方法を示す。これらの関係はアソシエーションルールであり、異なる階層に分類された複数の情報源を統合する際に有用である。我々のアソシエーションルールは、ファジーなカーディナリティの使用に関連する問題に悩まされることはない。映画データベースとテロ事件データベースにおける関連ルールの発見に関する実験結果を示す。

セマンティックウェブ言語は現在、曖昧で不確実な情報を表現することができない。しかし、そのクリスプモデル理論的意味論は、一階論理がファジー論理に拡張されたのと同じように、不確実性を表現するために拡張することが可能である。我々は、RDFグラフ(またはRDFスキーマのオントロジー)の解釈がいかに値の問題になりうるかを示し、現実の知識管理における共通の問題に対処する。修正されていないRDFトリプルは新しい意味論に従って解釈できるが、ファジーメンバーシップ値を文中に格納するためには、拡張された構文が必要である。我々は、拡張された解釈が拡張グラフのモデルであるために満たすべき条件を与える。拡張されたファジィ言語での推論は、現在の推論ツールに最小限の変更を加えるだけで実装できる。

ここ数年、記述論理(DL)やOWLのようなオントロジー言語に対する不確実性やファジー拡張が、多くのセマンティックWeb(SW)アプリケーションの改善に重要な役割を果たすことが広く認められている。信頼、マッチング、マージ、ランキングといったSWのタスクの多くは、通常、信頼度や真実度を表現し、推論する必要がある。ファジーDLは、「背が高い」人、「暑い」場所、「中年」人、「近い」目的地など、曖昧な概念を表現することが可能である。本論文では,SHINmathcal{SHIN}というDLのファジー拡張を提案する.まず,意味論を述べ,次にファジィ SHINmathcal{SHIN} の主要な推論タスクのほとんどを決定する詳細な推論アルゴ リズムを紹介する.最後に、提案アルゴリズムを実装したファジー推論システムFiREと、FiREを通してファジーDLを適用した2つのユースケースを簡単に紹介する。

Inductive Reasoning and Machine Learning

この論文では、セマンティックウェブにおける機械学習の機会と課題について検討する。セマンティックウェブは、データとオントロジー的背景知識の両方を表現するための標準化されたフォーマットを提供する。セマンティックウェブ標準はメタデータを記述するために使われるが、データ通信とデータ統合のための一般的なデータフォーマットとしても大きな可能性を秘めている。広範なアプリケーションの中で、機械学習はますます重要な役割を果たすようになるだろう。機械学習のソリューションは、オントロジーの管理、非構造化データの半自動アノテーション、ウェブマイニングへのセマンティック情報の統合のために開発されてきた。機械学習は、セマンティックウェブ形式で記述された分散データソースを分析し、近似的なセマンティックウェブ推論とクエリをサポートするために、ますます採用されるであろう。本論文では、セマンティックウェブのデータ構造の関係性に適した学習アルゴリズムに強く焦点を当て、セマンティックウェブにおける機械学習の既存および将来のアプリケーションについて議論する。また、拡張性、欠損や矛盾するデータ、オントロジー的背景知識を統合する可能性など、セマンティックウェブに関連すると思われる学習の特殊な側面について議論する。さらに、オントロジーの学習とオントロジーの生成に関する研究を、主にテキストデータの文脈でレビューする。

形式オントロジーへの不確実な概念の挿入をサポートするための論理的フォーマリズムを提示する。これは2つの自動推論システム(ARS)による拡張の探索に基づいており、我々が認知エントロピーと呼ぶものによって駆動されるものである。

本研究では、記述論理で表現された知識ベースに対する帰納的(記憶ベース)推論のための、多関係インスタンスベース学習に基づくフレームワークを提示する。情報量の概念に基づく関係非類似度尺度を利用するこの手順は、クラスメンバーシップの問い合わせに答えるためと、知識ベースが論理的に含意しないかもしれない主張を予測するための両方に利用することができる。これらのタスクは、オントロジー構築と進化のための他の帰納的手法のベースラインとなる可能性がある。予備実験において、我々はこの手法が健全であることを示した。さらに、知識ベースにおいて獲得されるかもしれない新しい知識を誘導することが実際に可能である。

我々は、近似的な識別可能性の基準と証拠の組み合わせに基づく意味的距離尺度を提案する。不完全な知識が存在する場合、距離関数は、一組の識別特徴に関連する基本確率質量の推定値を組み合わせることによって、2つの個体の識別可能性に対する信念の度合いを測定する。また、個体と概念、概念と他の概念を比較するために、この距離を拡張する方法を提案する。k-NearestNeighborアルゴリズムに統合されたこれらの測度は、帰納的概念検索のタスクで実験的にテストされ、その適用の有効性を実証した。

テキストからのオントロジー学習は、自然言語処理と機械学習の技術を適用して、テキストリソースからドメインオントロジーを生成することを目的としている。オントロジー学習では、学習されたオントロジーが不確実で矛盾する可能性のある知識を表現していることが特徴である。論理的な観点から、学習されたオントロジーは潜在的に矛盾した知識ベースであり、したがって、意味のある推論を直接行うことができない。本論文では、知識の不確実性を考慮し、学習したオントロジーモデルから一貫性のあるOWLオントロジーを生成するアプローチを提示する。さらに、デジタルライブラリから学習したオントロジーを用いた実験による評価結果も示す。

    Hybrid Approaches

    記述論理(DL)で記述され、一般TBox、すなわち、サイクルと一般概念包含(GCI)を含む非確実性を持つオントロジーに対する推論手順を示す。このために、我々は、不確実性パラメータがABoxesとToxesに関連付けられ、一般Toxesを許容する記述言語ALCUを考慮する。この言語を基礎として、我々は入力知識ベースのセマンティクスをアサーションと確実性変数に対する線形および/または非線形算術制約のセットとしてコード化するタブローアルゴリズムを提示する。知識ベースの不確実性パラメータを調整することにより、不確実性の異なる概念をモデ ル化し、同じフレームワークの中で推論することが可能である。我々の推論手順は決定論的であり、一般的なTBoxを用いた標準的なDLにおける経験的な難解さを回避することができる。さらに、ALCUの文脈で一般的なTBoxを用いた推論を行う際のブロック化の必要性を説明する。

    次回はUncertainty Reasoning for the Semantic Web 2論文集について述べる。

    コメント

    1. […] Uncertain reasoning for the semantic web Ⅰ […]

    タイトルとURLをコピーしました