グローバルマッチングでのsimilarity(類似性)(6)意味的アプローチ

人工知能技術 ウェブ技術 知識情報処理技術 セマンティックウェブ技術   自然言語処理 機械学習技術  オントロジー技術 オントロジーマッチング技術

前回は類似性を計算する為に、確率モデルであるベイジアンネットワークモデル、マルコフモデル、マルコフロジックネットワークのアプローチについて述べた。今回は意味的アプローチに対して述べる。

意味論的手法の主な特徴は、その結果を正当化するためにモデル理論的な意味論を用いることとなる。したがって、これらは演繹的手法に分類される。他のグローバルな手法と同様に、純粋な演繹的手法は、オントロジーマッチングのような本質的に帰納的なタスクに対して単独ではあまりうまく機能しない。そのため、アンカーが必要となる。すなわち、例えば、(名前の同一性、外部リソース、またはユーザーの入力などに基づいて)等価であると宣言されたエンティティである。これらのアンカーは、演繹的手法を適用するための最初のアライメントを構成する。意味論的手法は、これらのシードアラインメントを増幅する役割を果たす。

意味論的手法の基本は、新たな対応関係を推論すること、あるいはアラインメントの充足性をテストすることにある。これは、アライメントセマンティクスを実装したリアソナーを用いることで実現できる。そのようなシステムはいくつかあるが、最も一般的に使われている手法は、還元セマンティクスを使うものになる(Meilicke et al. 2009; Meilicke and Stuckenschmidt 2009; Meilicke 2011)。

以下では、命題とモードの充足性に基づく意味論的手法と、新しい対応関係を推論するための記述論理に基づく手法を紹介する。アラインメントの不整合を検出し、それを修復する方法は次章で紹介する。

命題に関する技術
命題充足可能性(SAT)技術をオントロジーマッチングに適用するためのアプローチは、以下のステップに基づいている(Giunchiglia and Shvaiko 2003; Shvaiko 2006)。

  1. 与えられた入力オントロジーに対して、利用可能な公理の組み合わせとして、理論またはドメイン知識(公理)を構築する。理論の構築には、前章で述べた基本的な技術、例えばWordNetに基づく技術や、外部オントロジーを用いる技術(Section.7.3)を用いる。
  2. 両方のオントロジーからクラスcとc′の各ペアのマッチング式を構築する。2つのクラスの間に関係が成立するかどうかを判断する基準は、その関係が前提(理論)に裏付けられているかどうかである。したがって、マッチングクエリは次のような形式の式として作成される。   \[Axioms \Rightarrow r(c,c’) \]は、関係rをテストしたいクラスcとc′の各ペア(内=cとc′はコンテクストと呼ばれることもある。
  3. 式の妥当性、すなわち、すべての命題のすべての真理の割り当てに対して真であることを確認する。式の有効性を確認する。すなわち、式の中で出現するすべての命題変数の真理値の割り当てが真であることを確認する。命題式が有効なのは、その否定が満足できない場合に限られ、満足度ソルバーを使ってチェックする。

SATソルバは、命題の可否を判断するための正しい完全な決定手順であり、したがって、可能なすべての対応関係を網羅的にチェックするために使用することができる。ある意味では、これらの技術は、初期配置の演繹的閉鎖を計算する。

命題論理の関係推論の例。
ステップ1. クラスimagesとEuropeが1つのオントロジーに属し、別のオントロジーがクラスpicturesとEuropeを(同様に)持っていると仮定する。WordNet を使用するマッチャーは、images = pictures と判断できる。他の多くのマッチャーは、両方のオントロジーのEuropeのクラスが同一であること、つまり、Europe = Europeであることを見つけることができる。次に、対象となるクラス間の関係を明らかな方法で命題接続詞に変換すると、次のような公理が得られる。\[ ((images\equiv pictures)∧(Europe\equiv Europe))  \]

ステップ 2. cはヨーロッパのイメージという概念を直感的に表すEurope ⊓ imagesと定義され、c′はヨーロッパの画像という概念を直感的に表すpictures ⊓ Europeと定義されているとする。また、cがc′と等価(≡)であるかどうかを知りたいとき。照合作業では,次のような式を構築する必要がある。\[ ((images\equiv pictures)∧(Europe\equiv Europe)) \ \Rightarrow\\
((Europe∧images)\equiv (Europe ∧ pictures)) \]

ステップ3 この式の否定は不満足であることがわかり、したがって同等関係が成立する。
この手法は、誤った対応関係を刈り取るだけでなく、複雑な概念間の新しい対応関係を推論することもできる。上の例では,c は,Europe と images といった原子概念を組み合わせて(交点をとって)定義される。また,c′についても同様となる。これらは命題言語の表現力の範囲内にある複雑な概念の簡単な例となる。(Europe ∧ images)と(Europe ∧ pictures)のような複雑な概念の間の関係は、最初のステップの後では得られず、推論者によって推論される。
この手法は、クラス分類やタクソノミーのようなツリー状の構造をマッチングする場合にのみ使用でき、プロパティやロールは考慮されない。Modal SATは、(Shvaiko 2006)で提案されているように、命題SATに関連する手法を二項述語に拡張するために用いることができる。

記述論理の手法
記述論理では、整列関係(=、≦、≧、⊥など)を部分集合に関して表現することができる。サブサンプション・テストは、純粋に意味的な方法でクラス間の関係を確立するために使用することができる。実際には、まず2つのオントロジーを(名前を変更した上で)マージし、その後、概念と役割の各ペアのサブサンプションをテストすることで、同じ解釈(または他の解釈のサブセット)を持つ用語をマッチングするのに十分である(Bouquet et al.)

記述論理での関係性の推論の例。 最小の記述論理オントロジーを考えてみる。
\[Microcompany ≡ Company\ ⊓\ ≦\ 5 emploee\]は従業員が5人以下の会社を指す。
\[SME\ ≡\ Firm\ ⊓\ ≦\ 10\ associate\]は、SMEが最大で10人のアソシエイトを持つ企業であることを意味する。以下のような初期配置メンタリング(記述論理シンタックスで表現)は以下の通りとなる。\[Company\ ≡\ Firm\\associate\ ⊑\ employee\] これは、CompanyはFirmと同等であり、associateはemployeeのsubpropertyであることを表している。以上より結論として以下のようになる。\[Microcompany\ ⊑\ SME \]すなわち、Microcompany は SME のサブクラスとなる。

ContentMapは、アラインメントを診断・修復するための対話型ツールとなる。アライメントから、結合されたOWLオントロギーの結果を、推論機(Pellet)を使って生成する。そして、その結果をユーザーに提示し、ユーザーは望ましくない結果を選択することができる。また、ContentMapは修復プラン、つまりアライメントから除外される対応関係のセットを提供することもできる。

記述論理技術には、他にもオントロジーマッチングに関連する用途がある。例えば、(Parent and Spaccapietra 2000)で提唱され、(Sot- nykova et al. 2005)で開発された時空間データベース統合のシナリオでは、スキーマ間の対応関係は、最初に統合スキーマ設計者によって提案され、入力スキーマと共にALCRP(S2⊕T)言語でエンコードされる。次に,記述論理推論サービスを用いて,2つのソーススキーマとスキーマ間対応のセットの充足性をチェックする.もし、満足できないものがあれば、スキーマ間の対応関係を再考する必要がある。

意味論的手法に関するまとめ
意味論的手法は、アライメントの完全性と整合性を確保するために対応関係を生成する際に非常に有効となる。この2つのタイプの操作は、当然ながら一緒に使うことができる。これまでに開発されたこれらの技術はごくわずかである。しかし、セマンティック・ウェブ言語を扱う演繹的ツールの向上に伴い、セマンティックベースの技術を用いたシステムが増えることを期待している。意味論的手法は、アラインメント(Qi et al.2009)やオントロジーのネットワークにおける修正と更新のためのより一般的なアプローチを開発するための良い出発点となる。

まとめ
本稿では、単語レベルの類似の記述で紹介した基本的なマッチャーとは対照的に、オントロジーやオントロジーエンティティをグローバルに比較するアプローチについて説明した。このような技術は、基本的なマッチャーを利用してアンカーやシードアラインメントを提供するが、比較をグローバルに展開するために特定の原理を必要とする。これらは、構造的な関係、意味的な解釈、または確率に基づいている。
結果として、提示された技術は、類似性またはアラインメントを提供することができる。これらは、他の類似性やアラインメントと組み合わせたり、他のマッチャーの結果のように操作したりすることができる。次回はでは、これらを行うための様々な技術を検討し、マッチャーを一貫したシステムにまとめる方法について述べる。

コメント

  1. […] グローバルマッチングでの類似性(similarity)(6) 意味的アプローチ […]

  2. […] 古典的機械学習アルゴリズムである決定木アルゴリズムのRを使った分類 グローバルマッチングでのsimilarity(類似性)(4)最適化マッチング手法 グローバルマッチングでのsimilarity(類似性)(6)意味的アプローチ […]

  3. […] グローバルマッチングでの類似性(similarity)(6) 意味的アプローチ […]

  4. […] 前回までに紹介した基本技術とグローバル技術は、マッチングシステムを構築するためのビルディングブロックとなる。オントロジーエンティティ間の類似性または非類似性が得られれば、あとはアライメントを計算するだけでよい。これには、より包括的な処理が必要となる。本章では、実用的なマッチングシステムを構築するために、特に以下の点を検討する。 […]

  5. […] 5.グローバルマッチングでの類似性(similarity)(5) 確率的アプローチ 6.グローバルマッチングでの類似性(similarity)(6) 意味的アプローチ Chapter7 Matching Strategies(マッチング戦略) […]

  6. […] グローバルマッチングでの類似性(similarity)(6) 意味的アプローチ […]

タイトルとURLをコピーしました