Reasoning Web2021論文集より

機械学習技術 人工知能技術 自然言語処理技術 セマンティックウェブ技術 オントロジー技術 デジタルトランスフォーメーション技術   AI学会論文    知識情報処理技術   AI学会論文を集めて     推論技術

前回はReasoning Web2020について述べた。今回は2021年9月にベルギーのLeuvenで開催された第17回Reasoning Webについて述べる。

具体的な内容としては、グラフ構造データの問い合わせに関する基礎、記述論理に基づくオントロジー言語と非単調ルール言語を用いた推論、記号的推論と深層学習の融合、セマンティックウェブとナレッジグラフと機械学習、ビルディング・インフォメーション・モデリング(BIM)、地理空間リンクされたオープンデータ、オントロジー評価技術、計画エージェント、クラウドベースの電子カルテ(EHR)システム、COVIDのパンデミック管理、Belief Revisionと記述論理への応用とOntology Repair、時間均衡論理(TEL)とその解集合プログラミング(ASP)への応用、RDFデータ検証のためのW3C勧告言語であるShapes Constraint Language (SHACL)の紹介とレビュー、データベースにおけるクエリの回答や機械学習における分類モデルからの結果に対するスコアベースの説明について述べる。

以下詳細について述べる。

本論文では、グラフ構造データの問い合わせに関するいくつかの基礎的な結果について調査する。我々は、通常のパス問い合わせや、接続詞、逆行列、パス比較を用いたその拡張など、汎用的な航法的問い合わせ言語に焦点を当てる。また、複雑性、表現力、静的解析についても研究する。本講義は、グラフ構造データに対する問い合わせ言語や、より広範なデータベース理論の基礎的側面に興味を持つ人にとって有益なものであろう。

記述論理に基づくオントロジー言語と非単調ルール言語は、表現力豊かな知識の表現とそれを用いた推論のための2つの主要な形式であり、基本的に異なる考え方と形式的基盤の上に成り立っている。World Wide Web Consortiumが推進するセマンティックウェブ構想の中で、これらの形式の標準言語が開発され、ウェブ上の増大するデータを統合する知識集約型のアプリケーションで利用できるようになった。多くの場合、このようなアプリケーションでは、これら2つの形式主義の利点が必要とされるが、その固有の違いにより、統合は困難な作業である。このコースでは、2つの形式主義とその特徴をレビューし、それらの統合を達成するためのさまざまな方法を紹介します。また、標準的な推論が使用するオントロジー言語において多項式である場合、クエリ応答におけるデータ複雑度が多項式であるなど、有利な特性を持つ統合に基づく利用可能なツールについて説明する。

記号的推論と深層学習は、AIシステムを構築するための根本的に異なる2つのアプローチであり、長所と短所を補完し合うものである。しかし、その明確な違いにもかかわらず、この2つのアプローチの境界線はますます曖昧になってきている。例えば、自然言語処理で普及しているニューラル・ランゲージ・モデルは、知識ベースの役割を担うようになってきている。一方、ニューラルネットワークの学習戦略は、記号的知識を学習し、その知識を使ってより柔軟に推論する戦略を開発するために利用されるようになってきている。このように記号的手法とニューラル手法の境界が曖昧になることは、ニューラルネットの柔軟性や帰納的能力と、記号的枠組みの透明性や系統的推論能力を両立できるシステムの開発に大きな可能性をもたらす。同時に、このような組み合わせはどのようにすれば実現できるのか、まだ多くの未解決の問題がある。本論文では、記号的知識と神経的表現の関係に関する最近の研究を概観し、知識の符号化のための神経回路網、およびより一般的なベクトル表現の利用に焦点を当てます。

セマンティックウェブ(SW)は、意味的に注釈された膨大な量のデータコレクションが利用可能であることが特徴である。注釈は、共有ボキャブラリーとして機能するオントロジーを利用することによって提供される。さらに、オントロジーには演繹的推論機能が備わっており、暗黙のうちに形式化された知識を明示することができる。Linked Open Data Cloudに代表されるように、長年にわたって多くのデータコレクションが開発され、相互接続されてきた。現在、その代表的な例として、エンタープライズKGやオープンKGとして構築され、自由に利用できる数多くのナレッジグラフ(KG)があります。これらはいずれも、データ量が非常に多いだけでなく、不完全性やノイズが多いという特徴があります。これらの特徴から、演繹的推論サービスの利用は現実的ではなく、機械学習(ML)に基づく、膨大な情報からの知識マイニングのための代替ソリューションが開かれています。実際、MLの手法は、リンクや型の予測、オントロジーの充実と補完(用語レベルとアサーションレベルの両方)、コンセプト・リーンニングなどの問題を解決するために、ソフトウェアで利用されてきた。当初は記号ベースのソリューションが主な対象でしたが、最近では、非常に大きなデータ量に対応する必要性から、数値ベースのアプローチに注目が集まっています。しかしながら、ソフトウェアのデータ収集は、他の分野ではほとんど見られない特殊性を持っています。そのため、対象となる問題の解決に ML の手法を適用することは容易ではない。本論文では[20]を拡張し,最も代表的な記号ベース,数値ベースの解法と関連する問題を調査し,特にSW分野でML手法を採用する際に考慮し解決しなければならない主要な問題に焦点を当て,またそれぞれの解法の主な特徴と欠点を分析することにより,SW分野でのML手法の適用を検討する.

ビルディング・インフォメーション・モデリング(BIM)の導入を運用・保守段階まで延長することの価値は、単に不十分な相互運用性に関連する運用・保守コストを削減することにあるにもかかわらず、設備管理の情報フローは自動化もシームレス化もされていない。施設管理者は、BIMモデルが自分たちの情報要件を含んでいないか、データ交換プロセスを面倒で圧倒する膨大な量の余分なデータを含んでいると主張するので、通常BIMモデルデータを使用しない。COBieは、設備データの受け渡しを改善し、設備管理システムをサポートするために開発されました。しかし、既存のCOBieアドインアプリケーションでは、設備管理に必要なすべてのデータ、特にスペア、リソース、ジョブデータシートを作成するには限界があり、手動でのデータ入力が必要でした。本論文では、業界関係者への一連のインタビューを通じて、現在のデータ交換の慣行を分析するとともに、BIMモデルと設備管理システム間のシームレスなデータ交換のための概念的相互運用性フレームワークを提案するものである。BIMデータモデルをIFC(Industry Foundation Classes)モデルを介して、様々なソースから提供される設備管理情報にリンクさせることにより、リッチなCOBieスプレッドシートを自動的に生成するデータベース情報システムを提案するものである。提案されたフレームワークは、BIMと施設管理システム間のシームレスなデータ転送を容易にするシステムを提供することにより、施設管理領域における既存の知識体系を補完するものである。施設管理組織と所有者は、このアプローチを使用して、手動データ入力の冗長な活動を減らし、生産的な保守活動に彼らの努力を集中させることができます。

地理空間リンクされたオープンデータの採用やウェブ上での公開が増える中、このような豊富な異種マルチモーダルデータをシームレスかつ効率的に探索分析するための直感的なインターフェースやシステムを開発する必要があります。本研究では、地球観測データ(EO Linked Data)の検索を容易にする自然言語インタフェースを開発し、検索プロセスの改善を目指す。地球観測リンクデータに対する質問は、固有の時空間的次元を持っており、GeoSPARQLを使用して表現することができる。この論文では、RNNベースのニューラル機械翻訳を使用して、自然言語の質問をGeoSPARQLクエリに変換することに注目し、研究・分析することを目指す。具体的には、自然言語の空間述語を特定し、GeoSPARQLのトポロジー語彙拡張(EgenhoferおよびRCC8関係を含む)にマッピングするニューラルアプローチの実現可能性を評価することが目的である。そして、このクエリをトリプルストア上で実行することで、自然言語の質問に対する答えを得ることができる。自然言語による質問とCorine Land Cover (CLC) Linked Data上のGeoSPARQLクエリとのマッピングからなるデータセットを作成し、ディープニューラルネットワークの学習と検証を行った。我々の実験から、自然言語の質問における空間述語をGeoSPARQLクエリに翻訳するタスクに対して、アテンションを用いたニューラル機械翻訳が有望なアプローチであることが明らかとなった。

現在、オントロジーは知識表現に広く利用されるようになり、セマンティックウェブの基礎と考えられている。しかし、その普及に伴い、オントロジーの評価に対する疑問がますます高まっている。本論文では、既存のオントロジー評価技術を紹介し、その利点と欠点を議論することにより、効率的なオントロジー評価方法を見つけるという課題に取り組む。本論文で紹介するオントロジー評価手法は、ゴールドスタンダードベース、コーパスベース、タスクベース、クライテリアベースの4つのカテゴリに分類される。

すなわち、計画エージェントは、被説明者の計画問題の(おそらく欠陥のある)モデルを、その計画が可能な限り最善であると両者が合意するまで、基本的真実の理解に近づけることができるプロセスである。説明の内容は、エージェントの信念(状態)、願望(目標)、能力(行動モデル)についての誤解に及ぶことがある。既存の文献では、これらのモデルの違いの種類は等価であると考えられてきたが、社会科学における説明に関する文献では、同様の論理的性質を持つ説明は、しばしば人間によって異なって知覚される可能性があることが示唆されている。本短報では、モデル照合の設定において、従来等価とされてきた異なる種類のモデル差異を人間がどの程度重要視しているのかを探る。その結果、人間は行動の効果に関連する説明を好むことが示唆された。

クラウドベースの電子カルテ(EHR)システムは、患者データを暗号化することで重要なセキュリティ制御を行っています。しかし、これらの記録は、記録全体を復号化しなければ照会することができません。このため、ネットワーク帯域とクライアント側の計算が膨大な負担となります。クラウドベースのEHRの容量がビッグデータ・レベルに達すると、医療介護者がEHRに効率的にアクセスできるようにするために、暗号化された患者記録を復号化せずに検索することが不可欠になります。これは、医療従事者が患者EHRの特定のセクションにのみアクセスでき、記録全体を復号化すべきではない場合に特に重要なことです。本論文では、属性ベース暗号化(ABE)とマルチキーワード検索技術を使用して、大規模EHRシステムの検索可能な暗号化を促進する我々の新しいアプローチを紹介します。我々のフレームワークは、主要な検索機能をクラウド側にアウトソースする。これにより、ネットワーク帯域幅とクライアント側の計算コストを大幅に削減しながら、暗号化されたデータに対してキーワード検索を実行することができる。

COVIDのパンデミック管理は、コンタクトトレーシングとワクチン配布によって、様々な医療従事者、規制当局、政府機関、そして人々の間で、大量かつ高速な健康関連データの収集と交換が行われるようになりました。このような前例のない機密性の高い健康関連ビッグデータの共有は、セキュリティやプライバシーに関する規制を遵守しながら、堅牢なデータ交換を確保するという技術的課題を提起しています。我々は、大規模な速度健康データセットを共有するための、意味的に豊かで信頼できるコンプライアンス実施フレームワークを開発しました。このフレームワークは、セマンティックウェブ技術を使用して構築され、データ交換プロセスの各参加者の信頼スコアを定義し、データアクセスが医療保険の相互運用性と説明責任に関する法律(HIPAA)などの健康規制を遵守することを保証するポリシー推論と組み合わせたオントロジーを含んでいます。私たちは、CDC(Centers for Disease Control and Prevention)のコンタクトトレーシングのユースケースにこのフレームワークを適用し、100万件以上の合成コンタクトトレーシング記録を交換することで検証を行いました。本論文では、Contact Tracingデータ交換に対する検証結果とともに、我々のフレームワークの詳細を紹介します。このフレームワークは、データ規制をリアルタイムで遵守しながら、高速でセンシティブなデータを交換する必要のあるすべてのエンティティが使用することができます。

信念の改訂は、潜在的な矛盾が生じる可能性のある知識ベースに、新しい情報を収容することを扱う。いくつかの解決策が提案され、80年代から活発な研究分野となった。理論的な成果は古典的な命題論理で確立され、合理性の仮定、数学的な構成、表現定理など、この分野の標準となるものであった。最近では、ホーンロジックや記述論理などの異なる知識表現形式にも結果が適応されている。このチュートリアルでは、AGMパラダイムから始まり、過去35年間のこの分野の概観を述べながら、Belief Revisionについて紹介します。第二部では、Belief Revisionの記述論理への応用と、RevisionとOntology Repairの関係に焦点を当てます。

本資料は、第17回推論Webサマースクール(RW2021)において、時間均衡論理(TEL)とその解集合プログラミング(ASP)への応用に関するセミナーを開催するための講義録です。TELはASPの時間的拡張であり、線形時間時間論理のような時間様相演算子を導入している。本発表では、平衡論理の基本的な定義と直観を示し、これらの概念を時間的なケースに拡張する。また、時間的ASPツールtelingoを用いたいくつかの例も紹介する。

RDFデータ検証のためのW3C勧告言語であるShapes Constraint Language (SHACL)の紹介とレビューについて述べる。SHACL文書はRDFノードに対する一連の制約を記述し、グラフはそのノードがこれらの制約を満たしていれば、文書に対して有効であるとするものである。SHACL言語の基本概念、構成要素、コンポーネント、およびそれらの相互作用を再確認します。また、この言語を研究するために使用されるさまざまな形式的フレームワークと、提案されたさまざまなセマンティクスをレビューする。また、SHACLと推論ルールの相互作用に関連する問題を検討し、SHACL言語の異なるモデリングがいかに異なる問題に対して有用であるかを示す。また、SHACLの実用的な側面も取り上げ、その実装や採用状況についても議論し、実務家や理論家にとって有用な全体的なレビューを提示する。

本講座では、データベースにおけるクエリの回答や機械学習における分類モデルからの結果に対するスコアベースの説明について、最近のいくつかのアプローチを説明する。著者と共同研究者による研究が中心となる。特に、スコア指定と計算のための反実仮想推論を利用した、アンサーセットプログラミングに基づく宣言的なアプローチに重点を置く。これらの手法の柔軟性を示す、DLV ASP-systemを用いたいくつかの例も示されている。

コメント

  1. […] 次回はReasoning Web2021について述べる。 […]

タイトルとURLをコピーしました