Reasoning Web2017論文集より

機械学習技術 人工知能技術 自然言語処理技術 セマンティックウェブ技術 オントロジー技術 デジタルトランスフォーメーション技術   AI学会論文    知識情報処理技術   AI学会論文を集めて     推論技術

前回はReasoning Web2016について述べた。今回は、2017年7月に英国ロンドンで開催された第13回Reasoning Web Summer School, RW 2017の講義ノートについて述べる。

2017年、本スクールのテーマは「Web上のセマンティック相互運用性」であり、データ統合、オープンデータ管理、リンクデータ上の推論、データベースとオントロジーのマッピング、オントロジー上のクエリー回答、ルールとオントロジーによるハイブリッド推論、オントロジーに基づく動的システムといったテーマを包含している。ここでは、これらのトピックを中心に、アンサーセットプログラミングやオントロジーで用いられる推論の基礎的な技術も取り上げている。

以下詳細を述べる。

本講演では、一般に公開されているWebデータを統合する際の課題と、その解決方法について紹介する。まず、セマンティックウェブ研究の観点からこのテーマを取り上げますが、すべてのデータがRDFやLinked Dataとして容易に利用できるわけではありません。そこで、ウェブ上で普及しているさまざまなデータ形式、すなわち表形式、木形式、グラフデータを公開し交換するための標準的な形式について紹介します。次に、すべてのオープンデータが本当に完全にオープンであるとは限りません。そこで、オープンデータに関連するライセンスや利用条件、データの出所の文書化に関する問題を議論し、対処します。第三に、Web上のOpen Dataに関連する(メタ)データ品質の問題、およびセマンティックWeb技術やボキャブラリーをどのように使ってそれらを記述し、改善できるかについて議論します。第四に、オープンデータの検索性と統合性に関する問題を取り上げ、セマンティック検索がこれらの問題の克服にどの程度役立つかを議論する。最後に、多言語、時間的側面(アーカイブ、進化、時間的クエリ)、統合されたオープンデータの上でのOWLやRDFS推論がどのように役立つかなど、ここで明示的にカバーしていないさらなる問題を簡単に要約し、終了する。

現代の情報検索システムは、キーワードベースのクエリ回答ではなく、コンセプトベースのクエリ回答を基本にユーザーエクスペリエンスを向上させる。

このチュートリアルでは、オントロジークエリングの問題、つまり、事実(データ)と推論ルール(オントロジ)で構成される理論に対するクエリに答える問題を取り上げます。科学文献には様々なオントロジー言語が存在し、クエリ処理の複雑さも様々である。我々は、Datalogから派生した言語群であるDatalog±が、オントロジー問い合わせのための強力なツールであることを主張する。Datalogのカムバックのインパクトを示すために、主要なDatalog±の背後にある基本的なパラダイムと、最近のいくつかの拡張を紹介する。また、いくつかのケースにおける効率的な問合せ処理技術も紹介する。

セマンティックウェブの成功は、リレーショナルデータベースに蓄積された膨大なデータを統合することにかかっていることは、当初から理解されていた。この原稿は、リレーショナルデータベースとセマンティックウェブの統合に関する我々の過去10年の研究成果を振り返るものである。2007年以降、私たちの研究は以下のような問いに答えることになった。 リレーショナルデータベースはどのように、そしてどの程度までセマンティックウェブと統合することができるのか? この答えは2つのパートに分かれています。まず、W3C Direct MappingやR2RMLといったマッピングを通じて、リレーショナルデータベースからセマンティックウェブにアクセスする方法を紹介します。続いて、セマンティック・ウェブがリレーショナル・データベースにアクセスする方法を紹介する。最後に、リレーショナルデータベースとセマンティックウェブの技術が、データ統合のためにどのように利用されているかを紹介し、オープンな課題について議論する。

Linked Dataは、膨大で継続的に増加するオープンデータと、エンティティ、リンク、およびそれらのエンティティ上のプロパティを記述するRDF形式のオントロジーへのアクセスを提供する。Linked Dataに推論機能を持たせることで、セマンティックWebを実現するための道が開かれる。本調査では、演繹的RDFトリプリストアと呼ばれるRDFオントロジーとデータベースの統一的なフレームワークを説明する。このフレームワークは、RDFトリプルストアにDatalog推論ルールを装備することで構成される。このルール言語は、プロパティの遷移性や対称性など、実務で有用なOWL制約だけでなく、多くの関心領域のユーザーにとって実務に関連するドメイン固有のルールも、統一的な方法で捉えることができるようにします。このフレームワークの表現力と汎用性は、Linked Dataアプリケーションのモデリングと推論アルゴリズムの開発で発揮される。特に、Linked Dataにおけるデータリンクの問題を、分散化されたデータに対する推論問題としてモデル化する方法を示す。また、セマンティックウェブのオントロジーやデータベースから、形式的に保証された表現力豊かなモジュールを効率的に抽出し、その簡潔性を効果的に制御する方法を説明する。実世界のデータセットを用いた実験により、このアプローチの実現可能性と、データ統合や情報抽出のための実用的な有用性が実証された。

アンサーセットプログラミング(ASP)は、知識表現と推論、特に知識を必要とする組合せ問題(最適化問題)を解くためのパラダイムとして確立してきました。ASPは、シンプルで豊かなモデリング言語と高性能な解法技術というユニークな組み合わせにより、産業界のみならず、学術界でもASPへの関心が高まっています。ASPをさらに発展させ、実世界のアプリケーションに適合させるためには、ソフトウェア環境への容易な統合と、補完的な推論形式の追加が不可欠である。本チュートリアルでは、ASPシステムclingoにおいて、この2つの課題にどのように取り組んでいるかを説明する。まず、clingoのアプリケーションプログラミングインタフェース(API)の特徴として、連続的に変化する論理プログラムを扱う手法であるマルチショットASP解法に不可欠な機能を概説する。これは、分枝限定最適化とインクリメンタルASP解法という2つの典型的な推論モードを実現することで説明されます。次に、推論の補完的な形式を統合するためのAPIの設計に移り、差分制約の統合を扱う広範なケーススタディでこれを詳細に説明する。我々は、これらの制約の構文がどのようにモデリング言語に追加され、接地処理にシームレスにマージされるかを示す。次に、差分制約に対応する理論伝搬器を詳細に開発し、それがどのようにclingoの解法プロセスに統合されるかを提示する。

外部情報へのアクセスは、最近ブームの宣言型問題解決手法であるアンサーセット・ プログラミング (ASP) の重要なニーズである。外部情報へのアクセスには、様々な形式のデータだけでなく、より一般的には計算結果も含まれ、場合によっては双方向の情報交換が行われる。このようなアクセスを提供することは大きな課題であり、特に、セマンティクスと効率的な計算の両方に関して、一般的なレベルでサポートされるべきかどうかということである。本稿では、dlvhexシステムを用いた外部情報アクセス下でのASPによる問題解決について考察する。dlvhexは、プログラムの規則と外部情報源との双方向APIスタイルのインターフェースである特殊な外部アトムによって、このアクセスを容易にする。dlvhexは柔軟なプラグインアーキテクチャを持ち、PythonやC++で実装された複数の定義済み外部アトムやユーザ定義外部アトムを利用することが可能である。我々は、ASPパラダイムを用いた問題解決の方法を検討し、特にこの文脈での外部アトムの使用方法について、例を挙げて説明する。ショーケースとして、セマンティックウェブ技術を用いた具体的な実世界の問題に対するHEXプログラムの開発を実演し、その実装プロセスの具体的な内容を議論する。

セマンティックウェブは、学術的にも産業的にも注目されている。セマンティックウェブの研究において重要な役割を果たすのが、不確実性や曖昧さを扱うための形式論や技術である。本論文では、まず、セマンティックウェブにおける不確実性や曖昧性を扱うための動機付けとなる事例をいくつか紹介する。次に、セマンティックウェブにおける不確実性や曖昧性を扱うための独自の形式的手法の概要を説明する。

プロセスマイニングは、モデルベースとデータ指向の分析技術を相乗的に組み合わせ、ビジネスプロセスが組織内でどのように実行されるかについて有用な洞察を得るための新しい分野です。プロセスマイニングを通じて、意思決定者はデータからプロセスモデルを発見し、期待される動作と実際の動作を比較し、実際の実行に関する重要な情報でモデルを充実させることができます。プロセスマイニングの適用には、入力データがイベントログの形で明示的に構造化されていることが必要です。このイベントログには、異なるケースオブジェクト(すなわちプロセスインスタンス)が、いつ、誰によって、タスクの実行対象となったかが列挙されています。しかし、多くの実世界では、このようなイベントログは明示的に提供されておらず、レガシーな情報システムで暗黙的に表現されているのが実情です。このような広範な環境においてプロセスマイニングを適用するためには、様々なプロセス関係者のデータ準備やレガシー情報システムからのログ抽出を支援する技術が急務である。本論文の目的は、この困難で未解決の問題を取り上げ、知的データ管理、特にオントロジーに基づくデータアクセスの技術が、確かな理論的根拠を持つ実行可能な解決策を提供することを教則的に紹介することである。

次回はReasoning Web2018について述べる。

コメント

  1. […] 次回はReasoning Web2017について述べる。 […]

タイトルとURLをコピーしました