Uncertainty Reasoning for the Semantic Web 2論文集より

機械学習技術 人工知能技術 自然言語処理技術 セマンティックウェブ技術 オントロジー技術 デジタルトランスフォーメーション技術 AI学会論文 知識情報処理技術 AI学会論文を集めて 推論技術 本ブログのナビ

 

本書は「Uncertainty Reasoning for the Semantic Web」に関する第2巻であり、2008年、2009年、2010年にInternational Semantic Web Conference (ISWC) で開催されたUncertainty Reasoning for the Semantic Web (URSW) に関するワークショップ、あるいは2010年のFirst International Workshop on Un- certainty in Description Logics (UniDL) で提示されたパスの改訂および大幅な拡張版である。第1巻は、2005年、2006年、2007年にISWCで開催されたURSWに関する最初の3つのワークショップの議事録を収録したものである。

この2冊は、セマンティックWebの文脈における不確実性推論への最先端の研究アプローチを包括的にまとめたもので、不確実性の異なるモデルや、不確実な形式知による帰納的推論と同様に帰納的推論へのアプローチを捉えている。

World Wide Webコミュニティは、人間とコンピュータの間の楽な相互作用、Webアプリケーション間のシームレスな相互運用性と情報交換、および、適切なWebサービスの迅速かつ正確な特定と呼び出しを想定している。セマンティクスとサービスの研究がより野心的になるにつれ、不確実性の表現と推論に対する原則的なアプローチの必要性がますます認識されてきている。不確実性という用語は、不完全性、結論なし、曖昧さ、曖昧さ、その他を含む、様々な形態の不完全な知識を包含することを意図している。不確実性推論という用語は、ブール式の真理値が未知、未知、または適用不可能な場合に、知識を表現し推論するために設計された方法の全範囲を示すことを意図している。不確実性推論に一般的に適用されるアプローチには、確率論、デンプスター・シェーファー理論、ファジー論理、可能性理論、その他多数の方法論が含まれる。

不確実性の下での推論によって対処されるWeb関連の課題には、以下のようなものがある。

利用可能な情報の不確実性:  World Wide Web上の多くの情報は不確実である。例えば、天気予報やギャンブルのオッズなどである。このような情報を表現し、統合するための正規の方法が、情報をシームレスに伝達するために必要である。

情報の不完全性:  World Wide Webのような大規模な情報ネットワークから抽出される情報は、通常、不完全である。部分的な情報を利用する能力は、サービスや情報の提供元を特定するのに非常に有効である。例えば、あるオンラインサービスがグリーティングカードを扱っていることは、そのサービスが文房具も販売していることの証拠になるかもしれない。このように、不確実性を扱う技術を適切に利用することで、検索効率が向上することは明らかである。

情報の不正確さ: Web上の情報には不正確なものや部分的に正しいものも多く、信頼性・信用性に関わる問題がある。不確実性の表現と推論は、信頼度や信用度が異なる情報源間の緊張関係を解消し、複数の情報源から得られる論争的な情報の統合を促進することが可能である。

不確実なオントロジー・マッピング。セマンティックWebのビジョンでは、異なるが概念的には重複する複数のオントロジーが共存し、相互運用されることを示唆している。このようなシナリオでは、ソースオントロジーのクラスメンバーシップに関する情報があれば、ターゲットオントロジーのカテゴリーに属する度合いや尤度を表現する能力によって、オントロジーマッピングが恩恵を受けると思われる。

ウェブサービスに関する不定な情報。Webサービスの動的な複合化は、処理およびデータリソースの実行時識別と、ポリシー目標の解決を必要とする。既存の情報が確定的でない状況を解決するために、不確実性推論技術が必要となる場合がある。

したがって、不確実性はWebおよびセマンティックWeb上の多くの重要なタスクの本質的な特徴であり、処理可能なデータおよびサービスのソースとしてWorld Wide Webを完全に実現するには、不確実性の下で表現および推論できるフォーマリズムが必要である。残念ながら、これらのニーズのいずれも、現在のWeb標準では原理的な方法でアドレッシングすることができない。OWLやRDF(S)などのセマンティックマークアップ言語を用いて不確実性の質的・量的情報を表現することはある程度可能であるが、そのための基盤が確立されておらず、実現可能なアプローチは極めて限定的である。さらに、不確実性表現の表現力と簡便性のバランスをどうとるか、どの不確実性表現技術が上記のような用途に対応できるか、表現形式とオントロジーの整合性をどう確保するか、などの付随的な課題も存在する。

このような切迫した要求に応えるため、近年、セマンティックWeb上での不確実性推論への有望なアプローチがいくつか提案されている。本書では、既存のWeb関連論理の不確実性表現への拡張から、Web上の不確実性の下での帰納的推論へのアプローチまで、これらのアプローチの代表的な部分をカバーする。

発表されたアプローチの多様性を反映し、それらを不確実性の基礎モデルに関連付けるために、本ボリュームへの貢献は以下のようにグループ化されている。

確率論的モデルおよびデンプスター・シェイファーモデル

確率論は数学的に健全な表現言語と合理的な信念の度合いの公式計算を提供し、異なるエージェントが与えられた仮説について異なる信念を持つ自由を与えている。これは、多様なエージェントからもたらされる不確実で不完全な知識を表現するための説得力のあるフレームワークを提供するため、セマンティックWebの文脈で確率を使用する多くの異なるアプローチがあります。本書では、ベイジアンネットワーク、記述論理や一階論理の確率論的拡張、デンプスター・シャファー理論(古典的なベイズ理論の一般化)に基づくモデルなどを取り上げている。

ファジィモデルと可能性モデル

ファジィ形式は曖昧な(あるいは不正確な)情報の真実の度合いを表現し処理することを可能にする.ファジィ記述論理やオントロジー言語では、概念アサーション、役割アサーション、概念包含、役割包含は二値真理値ではなく、真理の度合いを持つ。本書では、セマンティックウェブの文脈でファジィ論理と可能性理論を利用した様々なアプローチを紹介する。

帰納的推論と機械学習

機械学習は、不完全なデータからのオントロジー学習や、Web上のデータの(半)自動アノテーションなど、様々なタスクを提供することで、セマンティックWebの構築においてますます重要な役割を果たすと考えられている。機械学習の結果は、一般的に不確かである。機械学習の論理的アプローチである帰納推論は、観測結果(例となる事実)から一般的な命題を導くための手段を提供する。本論文では、オントロジー学習のために帰納推論を活用し、セマンティックウェブにおける機械学習の今後の方向性について述べる。

ハイブリッド・アプローチ

この巻のセグメントは、2つ以上の前のセグメントからのアプローチを組み合わせる、または不確実性推論への特定の古典的なアプローチに依存しない論文を含んでいます。

 

Probabilistic and Dempster-Shafer Models

過去数年間、セマンティックウェブに関する研究はますます成熟し、新しい標準が開発され、より複雑なユースケースが提案・検討されています。ソフトウェアアプリケーションの複雑さが増すにつれ、現実のソフトウェアアプリケーションに内在する不確実性に対処するための原理的な手段の必要性も増しています。当然ながら、セマンティックWeb上で不確実性の表現と推論に取り組むいくつかのアプローチが出現している[3、4、6、7、10、11、13、14]。例えば、PR-OWL [3]は、MEBN (Multi-Entity Bayesian Network) [8]の理論を表現するためのOWL構造を提供する。この論文では、PR-OWL 1 [2]のいくつかの欠点をレビューし、PR-OWL 2でそれらがどのように対処されるかを説明する。 トリプルからランダム変数(RV)への前後のマッピングのための方法が提示される。この方法は、述語と関数の両方を表現するトリプルに適用される。提案された図式を用いて、n-ary関係をマッピングするための複雑な例が示されている。

ブラジルの会計検査院(CGU)は、透明性と汚職防止を求める社会の声に応えるため、民間企業への啓発活動、国民への教育活動、研究活動、自治体や州の定期検査・監査など、様々な活動を行ってきました。CGUは、歳入庁、連邦警察など数百の異なる情報源から情報を収集してきたが、これらすべてのデータを融合するプロセスは、CGUの意思決定者のニーズを満たすのに十分な効率性を持っているとは言えなかった。したがって、データ融合から知識融合に焦点を変更するのは自然なことです。その結果、従来の構文解析の手法に加え、データベースのセマンティクスを表現し、推論する技術が必要となります。しかし、一般的に使用されているアプローチは、汚職防止における主要な特性である不確実性を扱うことができない。本論文では、確率的OWL(PR-OWL)を用いて、連邦政府の資金を含む調達において起こりうる不正を検出するための情報融合を行うモデルの設計とテストを紹介する。このモデルを設計するために、PR-OWLの専門家のサポートと、CGUの不正検知の専門家の丁寧な指導のもと、最近開発したPR-OWLオントロジー作成用ツールを使用した。

P-(\mathcal{SROIQ}}) は、オントロジーにおける様々な種類の不確実性、すなわち、概念間の一般的な確率的関係と個人に関する確率的事実を表現し推論することが可能な言語として提案されたものである。しかし、P-( \mathcal{SROIQ}) の意味的な特性は不明確であり、確率的なオントロジーの表現に使用できるかどうかが懸念されていた。本論文では、P-( \mathcal{SROIQ}) を可能世界に基づく特定の主観的意味論を持つFOPLに翻訳し、その意味論への洞察を提供する。翻訳が忠実であることを証明し、P-( \mathcal{SROIQ}}) のいくつかの制限の基本的な性質を示す。最後に、公開された論理の意味論的性質が確率的モデリングに与える影響について簡単に述べる。

本論文は、約1000の確率的公理を含む知識ベースを処理できる最初の確率的記述論理推論装置Prontoのシステム解説を行うものである。このようなスケーラビリティを達成するために重要なアルゴリズムを実装するコンポーネントに重点を置いて、推論器の設計とアーキテクチャを説明する。最後に、命題型および非命題型の確率的知識ベースに対するProntoの性能を実験的に評価した結果を示す。

オントロジー・ベースの実用的なアプリケーションでは、確率を表現し、推論することは必須課題である。主観的確率を持つ記述論理に対して、補完法に基づくインスタンス関係 の推論手順が開発されている。本論文では、この技術を拡張し、ELとその確率的拡張Prob-EL01cの非標準的推論:個人の最も具体的な概念の計算とインスタンス関係の説明を見つけるためのアルゴリズムを考案する。

Fuzzy and Possibilistic Models

ファジィ記述論理(DL)は、もともと不正確あるいは曖昧な構造化された知識を表現するための形式論である。ファジィ記述論理では、真理度の有限集合に限定することが、理論的にも実用的にも有用であることが証明されている。本論文では、既存のアプローチの一般化として、有限ファジィDLを提案する。これは、専門家の知識は通常、言語的な用語を用いて表現されるため、実用上、非常に有用である。そして、この集合上で定義される任意の滑らかなt-ノルムに基づくファジーDLを検討する。最初に、有限ファジーDL ALCHに焦点を当て、いくつかの論理的特性を研究し、古典的な場合への推論保存的な漸化式を示すことによって、論理の決定可能性を示す。最後に、非滑らかなt-normを考慮すること、および、追加のDL構成子を考慮することの2つの方向から、我々の論理を拡張する。

古典的なオントロジーは、不正確な情報や曖昧な情報を表現するのに適していないため、非古典的な論理を用いた拡張がいくつか提案されている。特に、ファジィを用いた拡張がいくつか提案されている。本論文では、OWL 2のファジー拡張をサポートした最初のファジーオントロジー推論器DELOREANを紹介し、ファジーオントロジー表現と推論のための使用方法を議論し、いくつかの実装の詳細と最適化技術を説明する。実証的な評価により、これらの最適化が推論器の性能を大幅に向上させることを実証する。

用語の類似性評価は、通常、矛盾する証拠サポートが、ある概念の意味と他の概念との類似性に関して異なる見解を持つ状況に至る。人間の専門家は議論を通じてその違いを解決することができるが、オントロジーマッピングシステムは類似性の組み合わせが高品質の結果を達成する前に矛盾を排除することができる必要がある。このような状況では、異なる類似性は、概念の解釈された意味に関する矛盾した考えを表している。このような矛盾は信頼性のないマッピングの原因となり、マッピングの精度と再現率を悪化させる。このような矛盾した信念を類似度に含めないようにするためには、信念に対する信頼を確立し、信頼できない信念は組み合わせから除外する必要がある。本章では、ファジー投票モデルを用いて、信念の矛盾を管理するためのファジー信頼を確立するための解決策を提案する。

過去10年間のオントロジーの大きな進化は、セマンティックウェブのためのストレージとクエリーの必要性を生んだ。そのため、知識ベースを保存し、それに対する問い合わせを実行することができる多くのRDFツールが構築された。近年、記述論理のファジー拡張が、特に多くのアプリケーションにおける曖昧な情報の取り扱いを目的として、大きな注目を集めている。本論文では、大規模なファジィ情報の永続的な保存と問い合わせを行うために、古典的なRDF保存システムを使用する問題について検討する。これを達成するために、我々はまず、ファジー情報をRDFトリプルに直列化する新しい方法を提案し、これにより、従来の格納システムを拡張なしに使用することができる。さらに、既存のRDFストアの問い合わせ言語を拡張し、文献で提案されている表現力豊かなファジィ問い合わせをサポートする。これらの拡張は、ファジーSHINのためのファジーDL推論器であるFiREファジー推論エンジンによって実装される。最後に、提案アーキテクチャを、テレビコマーシャルやスポットのキャスティングに関する産業応用シナリオを用いて評価する。

本論文では、ファジィ記述論理ALCFLの古典的記述論理ALCHへの充足可能性保存変換を示す。本論文の結果を適用することにより、既存のDLシステムでALCFLの推論を行うことができる。本研究は、ファジィ記述論理fALCHを古典的記述論理ALCHに変換したStracciaに触発されている。

Rule Interchange Format (RIF) は、ルールシステム間でルールを交換するためのW3C勧告である。不確実性は実世界の知識の本質的な特徴であり、それゆえ論理ルールの形式を構築する際にそれを考慮することが重要である。しかし、RIF Framework for Logic Dialects (RIF-FLD)ではもっと多くの値を指定できるにもかかわらず、RIF Basic Logic Dialect (RIF-BLD)の真理値集合は現在2値(tとf)のみで構成され、RIF-FLDはこの真理値集合を利用することができない。本論文では、まず、不確実な知識とそのファジーセマンティクスをRIF-BLD表現構文に符号化する2つの技術を紹介する。次に、不確実な知識の直接表現をサポートする不確実性ルール弁法(RIF-URD)へとつながる拡張を提案する。また、論理プログラム(LP)のルールは、セマンティックウェブの多くの応用場面で、セマンティックウェブの他の広く使われている知識表現形式、すなわち記述論理(DL)と組み合わせて使われることが多い。DLだけでなくLPの拡張も準備するために、ファジーDLPと呼ばれる記述論理プログラム(DLP)のファジー拡張を提示し、そのRIFへのマッピングを議論する。このようなフォーマリズムは、DLPのようにDLとLPを結合するだけでなく、不確実な知識表現もサポートする。

Inductive Reasoning and Machine Learning

あるドメインのオントロジーを手作業で定式化することは、退屈で面倒な作業であることはよく知られている。これは、知識習得がボトルネックになっているためである。そこで、研究者はこのプロセスを自動化するためのアルゴリズムやシステムを開発した。その中には、テキストコーパスを用いて知識を獲得するシステムもある。我々のアイデアも、膨大なテキストコーパスに基づくものである。ここでは、教師なしボトムアップオントロジー生成法を提案する。これは、語彙的意味構造とベイズ推論に基づいて、オントロジー生成プロセスを高速化するものである。本論文では、ハイスループットなスクリーニングアッセイコーパスと2つのカスタムテキストコーパスを用いて、本手法の定量的、定性的な結果を示す。また、このプロセスは、ドメインエキスパートがトップダウンアプローチに基づいてオントロジーを構築する際の根拠となり得る。

近年、Webの未来形としてセマンティックWebの研究が盛んに行われている。その結果、ウェブのキーテクノロジーであるウェブ検索は、セマンティックウェブ検索の新しい形へと進化しつつある。最近の有望なアプローチは、標準的なウェブページと検索クエリをオントロジー背景知識と組み合わせ、標準的なウェブ検索エンジンをセマンティックウェブ検索の主要な推論モーターとして使用するものである。本論文では、帰納的推論技術を用いることにより、セマンティックウェブ検索へのこのアプローチをさらに強化する。これは特に、Webのような分散・異種環境で発生する可能性が高い、矛盾、ノイズ、不完全性を扱う重要な機能を追加するものである。本論文では、新しいアプローチのプロトタイプ実装と実験結果について報告する。

多くの実世界ドメインの背後にあるセマンティクスを表現するオントロジーの普及により、様々なトピックに関するオントロジーが増え続けています。オントロジーの大部分は、さまざまなオントロジスト、専門家、および組織が作成しており、多くの場合、狭い用途のために作成されていますが、より広いドメイン、特にセマンティックWebに関連する他のオントロジーと重なることがよくあります。これらの重複するオントロジーは、類似した理論や一致する理論をモデル化することがありますが、それらは一貫性がない場合があります。本論文では、これらのオントロジーの再利用を支援するために、手動で作成したオントロジーを帰納的に導き出したルールで補完し、非整合性の数を減少させる技術について説明する。導出されたルールは、モデル化されたデータに対して確率を用いた木ベースのデータマイニングアルゴリズムを実行することで作成された決定木から翻訳されたものである。これらのルールは、元のオントロジストが見落とした可能性のある類似性を特定するために、より高い粒度を追加してオントロジーを改訂するために使用することができる。次に、これをどのようにオントロジー・マッチングに適用するかを議論する。また、より広い応用領域のためにオントロジーのセマンティクスを一般化するために、どのように様々なデータタイプを扱うことができるかを議論する。

ABox推論のための帰納的手法に関する先行研究に従い、我々は利用可能な証拠と類推基準に基づく主張を予測するための代替手法を提案する。あるテスト個体の近傍個体がある距離尺度で選択されると、Dempster-Shafer理論から派生した組み合わせ規則が、学習問題における未知の値を予測するために、様々な近傍個体が提供する証拠を結合させることができる。我々は、未知のクラスやロールメンバーを決定する問題や、ABox帰納推論アルゴリズムの基礎となるデータ型プロパティのフィラーを決定する問題において、この手順を利用する方法を示している。また、実際のオントロジーを用いた本手法の実証的な評価も行う。

Hybrid Approaches

我々は、ラフ記述論理による不確実な概念のモデル化について研究している。これは、従来の記述論理を拡張し、ラフセットセマンティクスに基づく概念の下位近似と上位近似によって、近似的な概念定義を扱う簡単な機構を備えたものである。これにより、不確実な知識のモデル化に荒い記述論理を適用することができる。これらの近似は最終的に無分別な関係に基づくため、本論文では、考慮された知識に基づいてそのような関係を定義するための論理的および数値的な方法の可能性を探る。特に、文脈の概念が導入され、近似や類似度測定のために使用される特定の同値関係の定義が可能となり、無分別性の許容範囲の概念を導入するために利用されるかもしれない。

リンクデータのウェブは、グローバルに分散したデータ空間を表し、問い合わせ言語SPARQLを使って問い合わせることができる。しかし、リンクデータの規模と複雑さが増すにつれ、ユーザがその構造と意味について十分に知ることは、ユーザクエリが十分な答えを出すためには非現実的なものとなってきている。さらに、ユーザーやソフトウェアエージェントを誤解させるようなクエリ結果を支配するような信頼性の低いデータも蔓延している。本論文では、リンクデータのWeb上で利用可能なオントロジーを利用して近似結果を生成し、また、RDF文と信頼値を関連付ける信頼モデルを提示することで、信頼できるデータを優先的に扱うことにより、これらの問題に対処する。信頼できる近似結果は、コンパイル時に緩和ステップを実行することにより、複数の緩和されたクエリを生成し、元のクエリとの類似度スコアの降順でソートして実行することにより生成できる。このクエリの実行中に、取得されたRDFデータの信頼スコアが計算される。しかし、生成された緩和クエリには共通の条件があり、実行時にオンザフライで信頼ベースの緩和を行うことで、複数の緩和クエリ間で共有されるデータを繰り返し取得する必要がないことを提案する。このように、信頼ベースの緩和ステップは、クエリ実行自体に統合され、結果として性能上の利点をもたらします。さらに、クエリ実行中に最適化の機会が特定され、結果をもたらさない緩和ステップを削除するために使用されます。本アプローチの実装により、その有効性が実証された。

コメント

  1. […] Uncertain reasoning for the semantic web Ⅱ […]

タイトルとURLをコピーしました