Uncertainty Reasoning(不確実性推論)とは
Uncertainty Reasoning(不確実性推論)とは、曖昧さ・不完全さ・ノイズ・矛盾を含む情報の中から、信頼できる判断や知識を導き出すための推論技術を指し、AI、ロボティクス、セマンティックウェブ、意思決定支援など多くの分野で中核的な役割を果たしているものとなる。
なぜ「不確実性推論」が必要なのか?
現実世界では、以下のような不完全な情報から推論を行うケースが多く存在する。
– データが ノイズを含む(例:センサーデータの揺らぎ)
– 情報が 断片的(例:一部の属性しかわからない)
– 判断が 主観的・あいまい(例:「たぶんそう思う」)
– 複数の情報源が 矛盾している(例:医者Aと医者Bの診断が異なる)
これらを扱うためには、古典的な推論(全て正確で完全な前提を持つ)だけでは不十分で、「不確実性」を前提にした推論が必要となる。
このような「不確実性」を前提とした推論を行うためのアプローチとしては以下のようなものがある。
1. 確率論(Probability Theory)
– 最も基本的な枠組み。
– 不確実性を 確率値(0〜1)で表現。
– 例:`P(雨が降る) = 0.8`
– 応用:ベイズ推論, ベイジアンネットワーク
2. ファジィ論理(Fuzzy Logic)
– 「真か偽か」ではなく、程度を扱う(0〜1の連続値)。
– 例:`ジョンは身長が高い → 高さ = 0.7`
– 曖昧な概念(「少し暑い」「ほぼ完成」)に強い。
– 制御システム(例:エアコンの自動調整)にも使われる。
3. Dempster-Shafer理論(信頼度理論)
– 情報源ごとに信念(Belief)と疑念(Plausibility)を区別。
– 複数の証拠の統合が可能。
– 確率を使わず、「どのくらい信じてよいか」を扱う。
4. 可能性理論(Possibility Theory)
– 「起こりうる可能性の範囲」に注目。
– ファジィ論理とよく併用される。
– 確率論より柔軟で、データが不足しているときに有効。
5. 非単調論理(Non-monotonic Logic)
– 新しい知識で以前の推論が覆ることを許す。
– 「通常は〜だが、例外がある」タイプの推論。
– 例:「鳥は飛ぶ → だがペンギンは飛ばない」
これらのアプローチを用いた不確実性推論は、さまざまな分野で現実世界の不完全で曖昧な情報を扱うために以下のようなケースで広く応用されている。
- 医療診断の分野では、患者の症状が複数の病気に関連している可能性があるため、各病気の候補に対して発症確率やスコアを推定し、最も可能性の高い診断結果を導くのに活用されている。
- センサーネットワークの領域では、個々のセンサーがノイズや誤差を含むデータを送信するため、それらの不確実性を加味しながら信頼できる状況判断を行う必要がある。
- 自動運転においては、周囲の環境を完全に認識することは困難であるため、不確実なセンサーデータに基づいて、事故を回避するための安全な行動選択をリアルタイムに行うことが求められている。
- 質問応答AIのような自然言語処理システムでは、ユーザーの入力があいまいであったり、多義的な表現が含まれていたりするため、文脈や確率的知識に基づいて最も適切な回答を推定する必要がある。
- 知識統合の場面では、複数の知識ベースや情報源から集められた記述の中に矛盾や不整合が含まれることがあり、それらを統合しながら合理的な判断や整合性のある知識構造を構築するために不確実性推論が用いられている。
この不確実性推論は、近年の人工知能技術と融合することで以下のような新たな発展を遂げている。
- 深層学習との融合: 深層学習との融合においては、ニューラルネットワークの学習結果に確率的な信頼度を付与する「確率的ニューラルネットワーク」や、ネットワークのパラメータ自体を確率分布として扱う「ベイズ深層学習」が注目されている。これにより、予測結果の不確実性を定量化し、より信頼性の高いAI判断を実現することが可能になる。
- セマンティックウェブとの融合: セマンティックウェブとの統合も進んでおり、OWLなどの記述論理ベースの形式知識に対して確率やファジィ値を導入することで、あいまいな意味関係や矛盾を内包した知識に対する柔軟な意味推論が可能になっている。これにより、複雑で不確実な情報が混在する知識ベースの活用範囲が大きく広がっている。
- 強化学習との連携: 強化学習との連携においては、報酬や観測結果に不確実性が伴う状況下での意思決定が重要となり、たとえば、センサーの精度にばらつきがある場合や、環境が部分的にしか観測できない状況においても、最適な行動方針(ポリシー)を学習するために、不確実性を考慮したベイズ強化学習などの手法が利用されている。
セマンティックウェブの概要とUncertainty Reasoningによるアプローチ
セマンティックウェブとは?
セマンティックウェブ(Semantic Web)は、Web上の情報に意味(セマンティクス)を持たせ、機械が理解・推論できるようにする構想で、ティム・バーナーズ=リーが提唱し、従来の「文書中心のWeb」から、「知識中心のWeb」への進化を目指したものとなる。
セマンティックウェブの実現を支える基盤技術には、主に以下の4つがある。
- RDF(Resource Description Framework): RDFは、情報を「主語−述語−目的語」という三つ組(トリプル)で記述するデータモデルで、人・場所・出来事などのリソース間の関係を、機械が処理可能な形式で表現可能なものとなる。
- OWL(Web Ontology Language): OWLは、概念間の階層構造や属性、制約などを論理的に定義するためのオントロジー言語で、記述論理(Description Logic)に基づいており、より複雑な意味関係を形式的に記述することが可能なものとなる。
- SPARQL: SPARQLは、RDFで構造化されたデータに対して問い合わせを行うためのクエリ言語で、SQLのように、特定の関係や属性を持つデータを柔軟に検索・抽出可能なものとなる。
- Reasoner(推論エンジン): Reasonerは、OWLに記述されたルールや制約に基づいて、データに含まれない暗黙的な知識を自動的に導き出す役割を担い、たとえば、「すべての犬は哺乳類である」というルールが定義されていれば、”ポチは犬” というデータから “ポチは哺乳類” という知識を推論可能なものとなる。
これらの技術により、セマンティックウェブは以下のような利点を提供している。
- データ間の意味的なつながりを明確に表現できるため、情報同士の関係性を正確に把握することが可能。
- 意味に基づいた高度な知識検索や推論が機械によって行えるため、従来のキーワードベースの検索よりも文脈に沿った情報抽出が実現できる。
- 標準化された構造を持つことから、異なるデータソース間の統合が容易となり、Linked Dataとしての活用が広がっている。
このようにセマンティックウェブでは、現実世界の知識を厳密な論理で表現しているが、現実の情報は必ずしも完全・明確ではないため、例えば以下のような課題に対して対応できない。
- 情報源ごとに主張が異なる(矛盾)
- あいまいな表現や意味(例:「ほぼ同義」「やや関連」)
- 不完全なデータ(例:属性が抜けている)
このような論理ベースの厳密な推論だけでは対応できないケースに、不確実性を扱える推論手法の導入が必要になっている。不確実性の推論には、複数のアプローチが存在し、それぞれ異なる不確実性のタイプに対応している。
- 確率論的アプローチ(Bayesian Logic, PR-OWL): 確率論的アプローチでは、「〜である確率は80%」といった形式で知識に確率を導入し、特に医療分野などの診断支援に有効なものとなっている。
- ファジィ論理(Fuzzy OWL): ファジィ論理は、真偽値の代わりに0から1の連続的な値を使い、曖昧な表現を扱えるため、ユーザーの好みや感情といったあいまいな要素の分析に適している。
- Markov Logic Networks(MLN): MLNは、論理式に重みを付けることで、論理と確率の融合を実現し、複雑な関係が絡む社会ネットワークや人間関係の分析に用いられる。
- Dempster-Shafer理論: Dempster-Shafer理論は、複数の証拠から信頼度を計算し、センサーデータのように信頼度がばらつく情報の統合に適している。
- Possibility Theory(可能性理論): 可能性理論は、確率ではなく「どの程度可能か」という幅を持たせて知識を扱うため、意味の曖昧な知識の解釈やマージ処理に有効なものとなる。
これらを応用するシーンとしては以下のようなものがある。
- 異なる知識ベースを統合する際、矛盾や不一致を不確実性として扱い、合理的に統合する
例:異なる病院や研究機関が持つ診断オントロジーの統合 - ユーザーの曖昧な行動や嗜好パターンを確率やファジィ値でモデル化し、予測やレコメンドに応用
- 情報源ごとの信頼度を考慮しながら、矛盾した知識を統合する処理(知識の信頼性評価)
- セマンティック検索において、曖昧な意味や多義語を含むクエリに対して、意味的な近似による柔軟な応答を実現
Uncertainty Reasoning for the Semantic Web 3論文
今回はUncertainty Reasoning for the Semantic Webの第3巻について述べる。内容としては、2011年、2012年、2013年にInternational Semantic Web Conference (ISWC) と併催されたUncertainty Reasoning for the Semantic Web (URSW) に関する3つのワークショップで発表された論文の改訂および大幅拡張版となる。第1巻は、2005年、2006年、2007年にISWCで開催されたURSWに関する最初の3つのワークショップの議事録を収録し、第2巻は、URSWの2008、2009、2010年版、または2010年に開催された「記述論理における不確実性に関する第1回国際ワークショップ(UniDL)」で発表された論文の改訂版を収録している。
このワークショップは、セマンティックWebの文脈における不確実性推論への最先端の研究アプローチを包括的にまとめたもので、不確実性の異なるモデルや、不確実な形式知を用いた演繹的推論および帰納的推論へのアプローチを捉えている。
World Wide Webコミュニティは、人間とコンピュータの間の楽な相互作用、Webアプリケーション間のシームレスな相互運用性と情報交換、および適切なWebサービスの迅速かつ正確な識別と呼び出しを想定している。意味論とサービスに関する研究がより野心的になるにつれ、不確実性の形式的表現とその下での推論に対する原則的アプローチの必要性がますます認識されるようになっている。不確実性という用語は、不完全性、結論なし、曖昧さ、曖昧さ、その他を含む様々な形の不完全な知識を包含することをここで意図している。不確実性推論という用語は、ブール式の真理値が未知、未知、または適用不可能な場合に、知識を表現し推論するために設計された方法の全範囲を示すことを意図している。不確実性推論には、確率論、デンプスター・シェーファー理論、ファジー論理、可能性理論、その他多くの方法論が一般的に適用されている。
不確実性の下での推論によって対処されるWeb関連の課題には、次のようなものがある。
利用可能な情報の不確実性: World Wide Web上の多くの情報は不確実である。例えば、天気予報やギャンブルのオッズなどになる。
情報の不完全性: World Wide Webのような大規模な情報ネットワークから抽出される情報は、通常、不完全である。部分的な情報を利用する能力は、サービスや情報の提供元を特定するのに非常に有効となる。例えば、あるオンラインサービスがグリーティングカードを扱っていることは、そのサービスが文房具も販売していることの証拠になるかもしれない。このように、不確実性を処理する技術を適切に利用することで、検索の有効性が向上することは明らかである。
情報の不正確さ: Webの情報は不正確であったり、部分的にしか正しくなかったりすることが多く、信頼性や信用性に関わる問題が発生する。不確実性の表現と推論により、信頼度や信用度が異なる情報源間の緊張関係を解消し、複数の情報源から得られる論争的な情報の統合を促進することが可能となる。
不確実なオントロジー・マッピング: セマンティックWebのビジョンでは、多数の異なるが概念的には重複するオントロジーが共存し、相互運用されることを示唆している。このようなシナリオでは、ソースオントロジーのクラスメンバーシップに関する情報があれば、ターゲットオントロジーのカテゴリーに属する度合いや尤度を表現する能力によって、オントロジーマッピングが恩恵を受ける。
ウェブサービスに関する不定な情報: Webサービスの動的な組み合わせは、処理およびデータリソースの実行時識別と、ポリシー目標の解決を必要とする。不確実性推論技術は、既存の情報が確定的でない状況を解決するために必要である場合がある。
このように、不確実性はWebおよびセマンティックWeb上の多くの重要なタスクの本質的な特徴であり、処理可能なデータおよびサービスのソースとしてWorld Wide Webを完全に実現するには、不確実性の下で表現および推論できるフレームワークが必要となる。残念ながら、これらのニーズはいずれも、現在のWeb標準では原理的に対処できていない。OWLやRDF(S)などのセマンティックマークアップ言語を用いて、不確実性に関する定性的・定量的情報を表現することはある程度可能であるが、そのための基盤が確立されておらず、実現可能なアプローチは非常に限られている。さらに、不確実性表現の表現力と簡便性のバランスをどうとるか、どの不確実性表現技術が上記のような用途に対応するか、表現形式とオントロジーの一貫性をどう確保するか、などの付随的な問題もある。
このような背景から、近年、セマンティックウェブ上での不確実性推論に対するいくつかの有望なアプローチが提唱されている。これらは、既存のWeb関連ロジックの不確実性表現への拡張から、Web上の不確実性の下での帰納的推論へのアプローチまでをカバーしている。
今回はそれら不確実性へのアプローチとして以下のように分類している。
確率論的モデルおよびデンプスター・シェイファーモデル:
確率論は、数学的に健全な表現言語と合理的な信念の度合いのための正式な計算法を提供し、異なるエージェントに与えられた仮説について異なる信念を持つ自由を与えるものとなる。これは、多様なエージェントからもたらされる不確実で不完全な知識を表現するための説得力のあるフレームワークを提供するため、セマンティックWebの文脈で確率を使用する多くの異なるアプローチがある。ここでは、ベイジアンネット、記述論理や一階論理の確率論的拡張、デンプスター・シャファー理論(古典的ベイズ理論の一般化)に基づくモデルなど、確率論的モデルを取り上げている。
ファジィモデル、可能性モデル:
ファジィ形式は、曖昧な(あるいは不正確な)情報の真偽度を表現し、処理することを可能にする。ファジィ記述論理やオントロジーでは、概念アサーション、ロールアサーション、概念包含、ロール包含は二値真理値ではなく、真理の度合いを持つ。本書では、セマンティックウェブの文脈でファジー論理と可能性理論を利用した様々なアプローチについて述べる。
帰納的推論と機械学習:
機械学習は、不完全なデータからのオントロジー学習や、ウェブ上のデータの(半)自動アノテーションなど、様々なタスクを提供することで、セマンティックウェブの文脈でますます重要な役割を果たすと考えられている。機械学習アプローチによって得られる結果は一般的に不確実である。機械学習の論理的アプローチである帰納推論は、観測結果(例となる事実)から一般的な命題を導くための手段を提供する。ここでは、オントロジー学習のために帰納推論を活用し、セマンティックウェブにおける機械学習の今後の方向性について述べる。
ハイブリッド・アプローチ:
さらに上記の2つ以上のアプローチを組み合わせたもの、あるいは不確実性推論への特定の古典的アプローチに依存しないものがある。
contents
セマンティックウェブSWにおいて、不確実性を扱うためのいくつかのアプローチが提案されている。確率論的オントロジーPOは、オントロジーにおける不確実性をモデル化する最も有望なアプローチの一つであるが、このより複雑なタイプのオントロジーを作成する方法について、オントロジー技術者にサポートが提供されていない。このタスクは非常に難しく、困難であることが証明されているため、POのモデリングにおいてユーザーをガイドするプロセスであるUncertainty Modeling Process for Semantic Technologies UMP-STを作成する動機付けとなりました。本論文では、このプロセスを実装したツールであるUMP-STプラグインを紹介し、UnBBayes Frameworkに実装されたプラグインが、確率的オントロジーのモデリングに関する主な問題、すなわち作成の複雑さ、維持と進化の難しさ、およびこれらのオントロジーを文書化する中央ツールの欠如をいかに克服しているかを示すものです。UMP-STプラグインがこれらの問題をどのように克服しているかを示すために、ブラジルにおける調達詐欺の検出と防止に関する確率論的オントロジーを使用する。この確率論的オントロジーは、ブラジル会計検査院CGUの研究プロジェクトの一環として作成された概念実証のユースケースである。本論文のショートバージョンは、URSW 2013で発表された。
Credal ALCは、よく知られたALC論理と確率的評価を組み合わせ、用語が概念と役割の不確実性を表現できるようにしたものである。我々は、関係ベイジアンネットワークのクラスのための記述言語として見ることができるCredalALCの制限されたバージョンを提示する。その結果得られる「ALCネットワーク」は、CredalALCと関係ベイジアンネットワークの両方への簡略化された照明の経路を提供する。次に、自由に利用できるパッケージで、近似変分推論とリフトアップされた厳密推論アルゴリズムの実装について説明する。
最近導入されたDatalog±は、軽量なオントロジーを表現し、その上で推論することができる、扱いやすい知識表現形式である。Datalog±は、負の制約と、ルールヘッドに存在量化および等号を含むルールの可能性によって、通常のDatalogを拡張し、同時に、ルールボディにいわゆるガードを追加することによって、ルール構文を制限し、決定可能性と扱いやすさを獲得している。本論文では、最近提案されたDatalog±の確率的拡張が、データ交換、データ統合、ピアツーピア統合などの典型的な情報統合環境におけるオントロジー・マッピングの表現にどのように利用できるかを検討する。マッピングの履歴を再構築し、サイクルを検出し、マッピングのデバッグを可能にするために、我々はまた、実績アノテーションによってそれを拡張することを提案する。
本論文では、DISPONTE意味論のもとで確率的記述論理の構造とパラメータを学習する問題を考察する。DISPONTEは確率的論理型言語の分布意味論に基づいており、アサーションと用語の公理に確率を割り当てる。システムEDGEは、DISPONTE知識ベース(KB)と、概念アサーションの形で正例と負例のセットが与えられると、公理に関連する確率の値を返す。本論文では、EDGEを利用してDISPONTE KBの構造とパラメータを学習するシステムLEAPを紹介する。LEAPはオントロジーエンジニアリングのためのシステムCELOEをベースにしており、可能な公理の空間におけるその探索戦略を利用する。LEAPはCELOEが返す公理を利用して、例の尤度が最大になるようにKBを構築する。EDGEとLEAPの可能性を示す実験を紹介する。
確率的記述論理の意味論は、確率的論理積の分布意味論に基づくものである。この意味論はDISPONTEと呼ばれ、断定的な確率的記述を表現することができる。また、確率的知識ベースに対する問い合わせの確率を計算する2つのシステムも紹介する。BUNDLEとTRILLである。BUNDLEはPellet推論器に基づいており、TRILLは宣言的なProlog言語に基づいている。どちらのアルゴリズムも、クエリに対する説明の集合を表すプロポ的なブール式を計算する。BUNDLEは各接続項が説明に対応する接続法正規形を構築し、TRILLはBaaderとPen ̃alozaが提案した技術を用いて一般的なブール型ピンポイント式を計算する。その後、両アルゴリズムは式を表す二項決定図(BDD)を構築し、動的計画法アルゴリズムを用いてBDDから確率を計算する。また、BUNDLEとTRILLの性能を比較する実験も紹介する。
ここ数年のLOD(Linked Open Data)のようなイニシアチブの出現により、ウェブ上の構造化セマンティックデータの量が大幅に増加した。この発展において中心的な役割を果たしたのがオントロジーである。オントロジーは、実世界のドメインを明示的かつ形式的に表現することができ、その結果、一般的に理解され共有可能なセマンティックデータを生成することができるからである。しかし、このようなデータの共有と再利用は、データ内の曖昧さの存在によって妨げられ、データの意味が明示されなくなることがある。この論文では、オントロジーにおける曖昧なエンティティやその曖昧さに関連する特性を明示的に識別し、記述することを可能にするメタオントロジーである曖昧さオントロジーを紹介し、その評価を行う。その根拠は、曖昧なオントロジーにそのような記述が添えられることで、後者の曖昧な要素がそのユーザによって想定されうる解釈を狭める可能性があるからである。
我々は、有限残差De Morgan格子に基づく意味論を持つファジィ記述論理ALCOIを考察する。この論理での推論は、一般的なTBoxに対して、ExpTime-completeであることを示す。ALCIとALCOの部分論理では、非周期的なTBoxに対して、PSpace-completeである。これは、ALCとALCOIの間の古典的記述論理における推論の既知の複雑さの境界と一致する。
本論文では、背景知識の利用、およびマッチングプロセスとその結果のコンセプトアラインメントにおける不正確さの処理能力という2つの中核的な特徴を持つオントロジーアラインメントフレームワークを提案する。この手順は、マッチングされるオントロジーのための明示的な意味空間を定義するために使用される、一般的な参照語彙の使用に基づいている。YagoのようなWikipediaに基づく汎用の背景知識ソースは、参照語彙の適切な選択と思われる。この手順の結果は、2つのソースオントロジーに共通するものを捉えたファジー知識体系を結合したものである。提案されたアプローチにより、多対多のような概念間の関係を発見することができる。この方法の重要な応用は、言語横断的なオントロジー・マッチングの分野で見られる。
利用可能なドメインオントロジーは、時代とともに増加傾向にある。しかし、RDBMSで保存・管理されているデータはまだ膨大な量に上る。この補完性は、オントロジーでは形式化されていないがデータから学習可能な知識パターンの発見と、形式的なドメインモデルとデータから得られる証拠の組み合わせに依存したオントロジー上での推論強化の両方に利用できる。我々は、オントロジーとRDBMSの両方から、統合的にアソシエーションルールを学習する方法を提案する。抽出されたパターンは、利用可能な知識(両方の形式)を充実させたり、既存のオントロジーを改良するために利用することができる。また、論理的推論と統計的推論を組み合わせた標準的なTableauxアルゴリズムに基づき、接地型知識ベース(RDBMSデータにリンクした知識ベース)上で自動的に推論する方法を提案し、異種データソースを理解できるようにする。
実世界の知識は様々な不確実性を含んでいることが多い。そのため、セマンティックウェブの文脈では、純粋に論理的な形式論だけで実世界の領域をモデル化することは困難である。代替的なアプローチでは、ほとんど常に確率的に強化された知識が利用可能であると仮定するが、これは事前にはほとんど知られていない。さらに、純粋に演繹的な厳密推論は、ウェブスケールのオントロジー知識ベースでは実行不可能な場合があり、データの統計的規則性を利用することができない。このような問題を軽減するために、近似的な演繹的推論や帰納的推論が提案されている。本稿では、概念メンバー予測問題(記述ロジック知識ベース中の個人がある概念のメンバーであるかどうかを予測する問題)を、個人に関する知識ベースから内包されうる知識が与えられた場合に、前述の個人が概念メンバーになる事後確率をモデル化した条件付き確率分布の推定として捉えることを提案する。具体的には、このような事後確率分布を、個人に関する利用可能な知識を表す特徴概念の集合に対する個人の概念メンバシップを用いて、生成的、識別的に構造化された、ベイジアンネットワークとしてモデル化する。
セマンティックウェブの文脈で構造化された機械処理可能な知識の利用可能性が高まっていることを考慮すると、純粋な演繹的推論にのみ依存することは限界があるかもしれない。本研究では、記述ロジック知識ベースにおける類似度に基づくクラスメンバー予測のための新しい手法を提案する。この手法はノンパラメトリックであり、興味深い複雑性の特性を持つため、大規模な帰納的推論の候補となり得るものである。また、SWの文献にある帰納推論に基づく他のアプローチと比較し、その有効性を評価する。
多くのシステムにおいて、信頼の判断はレピュテーションの推定に還元される。しかし、レピュテーションは信頼を決定する一つの方法に過ぎない。信頼の推定は、他の様々な観点から取り組むことができる。本章では、ユーザの評判、ユーザの属性、および出自に依存する信頼をモデル化する。そして、これらの異なる方法によって計算された信頼を組み合わせることの効果を探る。具体的には、本章の最初の貢献は、人口統計と信頼の相関に関する研究である。この研究は、文化遺産領域におけるアノテーションタスクの候補として、どのようなユーザーカテゴリーがより適しているかを理解するのに役立つ。次に、評判に基づく信頼度評価を計算する手順を詳述する。ユーザーの評判は、評価されたシステム(ここで紹介する作業の場合はWaisda?)におけるユーザーのパフォーマンスに基づいて、主観的論理でモデル化される。3つ目の貢献は、W3C PROVモデルを用いて表現された実績情報に基づいて信頼値を計算するための手順である。これらの手順の結果をマージすることが、推定される信頼値の信頼性にとっていかに有益であるかを示す。提案する手法とその統合について、オランダ音像研究所のビデオタギングゲームWaisda?の中で作成されたタグの信頼度を推定・検証することで評価を行った。結果の定量的な分析を通じて、出所や人口統計学的な情報を用いることが信頼度評価の精度に有益であることを実証する。
主観論理は、不確実なデータを扱うのに有効な強力な確率論である。主観的論理はセマンティックウェブデータの内部ノイズを処理するのに有効であり、セマンティックウェブは主観的論理に基づくev-idential reasoningを行うのに有効な証拠を得る手段を提供するので、主観的論理とセマンティックウェブは相互に利益をもたらすことができる。本章では、セマンティックウェブにおける主観的論理の3つの拡張と応用、すなわち、主観的意見の重み付けのための決定論的および確率的意味的類似性尺度の使用、部分観測を考慮する方法、「オープンワールド意見」、すなわち多項意見を拡張する”ディリクレ過程(Dirichlet Process, DP)の概要とアルゴリズム及び実装例について“でも述べているディリクレ過程に基づく主観的意見、について説明する。これらの拡張のそれぞれについて、その有効性を証明するための例と応用を提供する。
ウェブデータはしばしば高いレベルの不確実性を示す。我々はカテゴリカルなウェブデータに注目し、これらの不確実性のレベルを一次または二次の不確実性として表現する。具体的な例として、ベータ二項モデルやディリクレ多項モデルを用いてこれらの不確実性を定量化し取り扱う方法と、ディリクレ過程を用いてサンプル中の未見のカテゴリを考慮する方法を示す。最後に、少なくとも不確実性の一部を考慮した上で、これらの高次モデルがデータセットの解析の基礎としてどのように使用できるかを例証することにより、本論文は締めくくられる。また、Battacharyya統計的距離を用いてディリクレ分布間の類似性を定量化する方法を示し、その結果を用いて海賊版攻撃のウェブデータセットを視覚的かつ自動的に分析する。
プリファレンスの表現と推論は、多くの実世界のシナリオにおいて重要な問題である。現在、嗜好を定性的あるいは定量的に評価するための多くのアプローチがある。嗜好を表現する最も著名な定性的アプローチはCP-netである。CP-netの明確なグラフ構造は、ユーザの欲求を簡単に表現し、最適な結果を計算するための優れた計算機特性を兼ね備えている。ここでは、オントロジーCPネットを紹介する。これは、オントロジー領域上のCPネットを用いて嗜好を表現するものであり、すなわち、変数値は背景のドメインオントロジーに関連して制約を受けた論理式である。
ソーシャルメディアコンテンツは、インターネット上に現れるすべてのテキストコンテンツの大部分を占めている。これらのユーザー生成コンテンツ(UGC)の流れは、メディアアナリストにとって、膨大な量の新しいデータを分析し、新しい情報を推測し推論するためにそれらを使用する機会と課題を提供するものである。自然言語の主な課題は、その曖昧さと漠然としたものである。曖昧さを自動的に解決するために、文の文法的な構造が利用される。しかし、ソーシャルメディアで広く使われている非公式な言語に移ると、言語はより曖昧になり、その結果、自動的な理解の難易度は高くなる。
情報抽出(IE)は、非構造化テキストを構造化して利用することを可能にする研究分野である。名前付きエンティティの抽出(NEE)はIEのサブタスクで、人、組織、場所などのエンティティの名前を表すフレーズ(メンション)を、その種類に関係なくテキストから探し出すことを目的としている。名前付きエンティティの曖昧さ解消(Named Entity Disambiguation: NED)は、ある言及によって参照される人物、場所、イベントなどを正しく判断するタスクである。
本論文の目的は、特に正式な文構造を持たないドメインにおいて、名前付きエンティティの認識と曖昧性解消の人間のやり方を模倣するいくつかのアプローチに関する概要を提供することである。提案する手法は、ソーシャルメディア上のユーザーの投稿に基づく、より洗練されたアプリケーションへの扉を開くものである。我々は、半定形的、非公式なテキストにおけるNEEとNEDのための堅牢な組み合わせのフレームワークを提案する。その結果、言語やドメインによらず、また、選択した抽出・曖昧性解消の手法によらず、ロバスト性を達成することが証明された。また、使用言語の非正規性に対してもロバストであることが示された。我々は強化効果を発見し、曖昧性解消の結果をフィードバックすることによって抽出品質を向上させる技術を開発した。曖昧性解消の結果を改善するために、抽出に関わる不確実性を取り扱う方法を提示する。
コメント