ISWC2022論文集より

人工知能技術 セマンティックウェブ技術 知識情報処理技術 推論技術 AI学会論文  デジタルトランスフォーメーション技術 オントロジー技術 機械学習技術
ISWC2022論文集より

知識情報をハンドリングする人工知能技術の一つであるセマンティックウェブ技術の国際学会であるISWC2022より。前回はISWC2021について述べた。今回は、ISWC 2022のについて述べる。ISWC2022は、COVID-19の制限、限られた資金による移動の問題、ビザの問題などを考慮し完全なバーチャルイベンとなった。

International Semantic Web Conference (ISWC) は、セマンティックウェブおよびナレッジグラフコミュニティのための主要な国際フォーラムとして、セマンティック、データ、ウェブに関する基礎研究、革新技術、アプリケーションの最新の進歩を議論し発表する場となる。

カンファレンスは5日間開催され、様々なトラック(リサーチ、リソース、インユース、インダストリー)、ワークショップやチュートリアル、ポスター、デモ、ライトニングトーク、博士コンソーシアム、チャレンジ、パネルなど豊富なプログラムを提供し、35カ国から1,363名の著者による335件の投稿があった。

今年のリサーチトラックで、例年通り、以下の4つのカテゴリーに分類される、さまざまな貢献の論文が投稿された。まず、RDF(S)/OWL、SHACL、SPARQL、およびこれらの変形や拡張など、さまざまな形状のオントロジーに対する古典的な推論や問合せ応答、さらに修復、説明、データベースマッピングなどの非標準タスクに関する論文。また、例年の傾向として、オントロジー/知識グラフの埋め込み、特に様々な形式のグラフニューラルネットワークと、そのゼロ/少数ショット学習、画像/物体分類、様々なNLPタスクなどの応用に関する論文。また、リンクや型の予測、エンティティのアライメントなど、特定の知識グラフタスクに焦点を当てた論文のカテゴリーもある。最後に、LODの利用可能性やオントロジーの構造パターンなど、現状に関する調査についての報告があった。

Resources Track は、セマンティックウェブ研究を支援、実現、利用するためのリソース、特にデータセット、オントロジー、ソフトウェア、ベンチマークの共有を促進するものとなる。

In-Useトラックは、セマンティックウェブやナレッジグラフの技術を、産業界から政府・社会に至るまで、具体的かつ実用的なユースケースに適用することのメリットと課題を探るフォーラムを提供している。

またプロシーディングには、ISWC2022が主催した3人の優れた基調講演者、Markus Krötzsch、Francesca Rossi、Ilaria Capuaによる講演の要旨も収録されている。Markus Krötzsch氏は、セマンティックウェブとKnowl-edge Graphコミュニティの著名なメンバーで、「Data, Ontologies, Rules, and the Return of the Blank Node」と題し、データとオントロジの統合がいかにセマンティックウェブに機会を提供し、ルールベースの推論の最近の結果がいかに関連する課題を克服するための基礎を提供するかという見解を示した。フランチェスカ・ロッシ氏は、「セマンティックウェブにおけるAI倫理」と題し、AI倫理をめぐる主要な問題、提案されている解決策、AI倫理問題のセマンティックウェブへの関連性について講演を行った。イリア・カプア氏は、国際的に広く知られたウイルス学者であり、パンデミック対策向上のための遺伝子データ共有のパイオニアとなる。

今年のIndustry Trackは、革新的な商用または産業用のセマンティック技術やナレッジグラフのあらゆる側面を取り上げ、その採用状況を紹介した。

ワークショップとチュートリアルのトラックは、オントロジー工学(オントロジーデザインパターンやオントロジー照合)、データ管理(データの進化と保存、ウェブスケールでのデータの保存、照会、管理)、ユーザーとの対話、他の技術分野(特に深層学習)との相乗効果に関する研究テーマを扱う、合計11ワークショップが開催された。また、Wikidata、ナレッジグラフサマライゼーション、リンクドオープンサイエンス、法的文書管理、ナレッジグラフによる音楽遺産管理など、セマンティックWeb技術の応用に焦点を当てたワークショップも多数開催された。3つのワークショップ(法的文書管理、知識グラフ要約、音楽遺産の知識グラフ)は今回初めて開催され、他の既設のワークショップで調査されたトピックに加え、新しいトピックが提供された。6つのチュートリアルでは、推論、スキーマ発見、知識認識ゼロショット学習などの中核的な技術トピックや、自律走行や地球観測データの管理といった興味深い応用分野に関するトピックについて、カンファレンス参加者が知識を深める機会が提供された。

Semantic Web Challenges Track は、ソリューションを開発することで研究を促進するコミュニティの創設と統合を支援するため、5つのチャレンジを提案した。各課題は、様々な設定やタスクにおいてシステムを比較対照するための共通の環境を提供した。トピックとしては、連合問い合わせ応答、ニューロシンボリック推論、質問応答、言語モデルからの知識グラフ構築、表形式データと知識グラフのマッチングなどになる。3つのチャレンジは、過去に提案されたイベント(Semantic Answer Type, Entity, and Relation Linking Task, Semantic Reasoning Evaluation Challenge, and Semantic Web Challenge on Tabular Data to Knowledge Graph Matching)の再編集で、セマンティックWebにおける研究トレンドを促進し、統合する活動を続けている。また、2つの新しい課題(Bio2RDF and Kibio federated query in Life Science Challenge and Knowledge Base Construction from Pre-trained Language Models)がプログラムの一部として導入され、他の課題の成功に続き、将来のISWC開催において安定した存在となる可能性が高くなった。

ポスター、デモ、ライトニングトーク トラックは、最新の研究成果や進行中のプロジェクト、革新的な仕掛かり品を発表する機会を提供し、会議の論文トラックを補完するものとなる。

ISWCのもう一つの重要な伝統は、博士課程の学生が自分の研究アイデアや初期の成果を発表し、コミュニティの先輩たちから建設的なフィードバックを受ける機会を提供する、博士課程コンソーシアム(DC)となる。

また、カンファレンスプログラムでは、産学から招待されたパネリストによる2つのパネルディスカッションが行われました。最初のパネルは、深層学習はセマンティックウェブにとって良いのか悪いのか」というテーマで、深層学習の手法は現在セマンティックウェブの研究に大きな影響を与えているが、深層学習のアプローチでは容易に取り組むことができないため、重要なトピックが軽視されてしまうことさえある、という見解に従ったものであった。2つ目のパネルは、「物理世界のための知識グラフ-何が欠けているのか」という質問を学術・産業研究者に投げかけました。実際、スマートホーム、自律走行、ロボット工学、デジタルツインなどのアプリケーションは、物理世界に関する明示的な知識から恩恵を受ける可能性があり、この目的のためには豊富なデータソースを統合する必要があります。しかし、学術的進歩は遅く、既存の標準は業界のニーズを十分に満たしていないものとなる。

招待講演

サーキュラー・ヘルス

パンデミックは、これまで知られていなかった病原体にホモ・サピエンスの脆弱性をさらすことで生命を揺るがし、地球上のほとんどの人間が感染することで広まる、ユニークで変革的な出来事である。しかし、コビッド19はこれ以上のことをやってのけた。コビッド19は、もう一つのタイプの脆弱性、つまり、われわれが操作するシステムの脆弱性を露呈したのである。私たちは閉じたシステムの中で生きており、その中で地球上の他の生物と完全に相互につながっており、相互依存しているという厳しい現実に目を向けさせてくれたのである。このような認識から、私たちは社会として、人間、動物、環境の健康のつながりを認識する「ワンヘルス」(注1)アプローチを取り入れるべきであると考えるようになった。

Covid 19はまた、このような大規模な健康危機には、社会的[2]、経済的[3]、デジタル[4]などの複数の推進要因と影響があり、それがパンデミックを崩壊させる原因となったことを示しました。さらに、Covid 19は、歴史上最も計測された出来事であり、この出来事において、大量のビッグデータが生成された。

2000年代に入ってから,私たちは,気候変動や食糧危機など,私たちの閉鎖系に関係し,私たちの健康に影響を与えるいくつかの課題を経験しました。例えば、私たちは、気温の上昇が海の健康、生物多様性の損失、人間と動物の移動に壊滅的な影響を及ぼすことを認識しています。また、2050年までに97億人に達すると予想される世界人口を養うために、地球の人口動態がより多くの食料を必要とすることも十分に認識しています[7]。同時に、私たちは汚染とCO2排出量を削減するために、温室効果ガスの排出を減少させることを約束しているのです。

循環型経済 [8] と循環型農業 [9] の概念設計図に従えば、今こそ、健康へのアプローチを、人間の健康とこの閉じたシステムの健康との間の複雑で新しいつながりを包含する循環型モデルへと拡大する好機と言えるかもしれません。この循環型アプローチは、データ駆動型であり、健康のための収束の促進剤として持続可能な開発目標(SDGs)のロードマップを使用することによって実施される可能性があります。17の目標はすべて、人間、動物、植物、環境の健康に関連しており、特定の活動に優先順位をつけ、既存のガイドラインやコミットメントを活用することは合理的であると思われます。

循環型健康法の新規性は、コヴィッド19後の新たな健康の優先順位を用いて、持続可能な開発目標の枠組みの中で達成可能な健康関連問題の収束を促進することである。このようにして、持続可能性を目指す既存の枠組みの中で、緊急の健康上の優先事項を推進することが可能になり、また、閉じたシステムの中で不可欠な資源としての健康を推進し、その複雑さを再生して対処する必要があります。

Data, Ontologies, Rules, and the Return of the Blank Node

セマンティックウェブは、機械可読データとオントロジーモデルの並行開発によって長い間特徴付けられてきた。ウェブデータ交換と数学的論理学という全く異なる背景から着想を得たこの2つの世界は、時に相補的であり、対立するものであるとさえ認識されることがあった。しかし、ナレッジグラフへの一般的な流れはそのような議論を無用にし、Wiki-dataのような最新の知識モデルは、しばしばインスタンスとスキーマのデータを並列に組み合わせています。本講演では、このようなデータとオントロジーの統合がセマンティックWebにどのような機会をもたらすかを説明し、ルールベース推論の最近の成果が、関連する課題を克服するための基礎を提供する可能性があることを議論する。また、ルールベースの推論における最近の成果が、どのように関連する課題を克服するための基礎となりうるかについて述べる。この追加による理論的な効果に加えて、この表現力の具体的な実用的な使用も示すことができる。

セマンティックウェブにおけるAI倫理

AIは、科学の進歩、人間の幸福、経済的価値、そして大きな社会問題や環境問題の解決策を見出す可能性という点で、大きな利益をもたらすことになるであろう。AIに支えられ、私たちはより地に足の着いた意思決定を行い、日常的で反復的な作業ではなく、意思決定プロセスの主要な価値や目標に焦点を当てることができるようになるでしょう。しかし、このような強力な技術は、例えば、いくつかのAIアプローチのブラックボックス的性質、AIアルゴリズムが推奨する可能性のある差別的な決定、AIシステムが望ましくない結果に関与した場合の説明責任や責任などに関連するいくつかの懸念も提起している。また、成功したAI技術の多くは膨大な量のデータに依存しているため、AIシステムおよびデータを作成する人によってデータがどのように扱われるかを知ることは重要です。これらの懸念は、AIを阻む障害、あるいは現在のAIユーザー、採用者、政策立案者にとっての心配の種となっています。これらの疑問に対する答えがなければ、多くの人がAIを信用せず、したがって、AIを完全に採用することも、そのポジティブな影響を得ることもできないでしょう。この講演では、AI倫理をめぐる主な問題、提案されている技術的および非技術的な解決策のいくつか、さらにAIの開発、展開、使用に関して定義されている実践的な行動や規制について紹介します。また、セマンティックウェブとAI倫理の関連性についても言及します。

Research Track

知識グラフ(KG)補完は、失われた関係を推測するリンク予測タスクで長年研究されてきたが、リテラルは非離散的で意味深長な課題のためあまり注目されていない。身長、年齢、誕生日などの数値属性は、他のリテラルと異なり、計算や推定が可能であるため、予測対象として大きな可能性を秘めており、一連のタスクで重要な役割を担っている。しかし、構造情報の利用や埋め込み技術の開発により、古文書上の数値属性を予測する試みはごく少数にとどまっている。本論文では、KG上の数値属性予測タスクを再検討し、このタスクのために言語モデル(LM)の豊富な意味知識を探索し利用するいくつかの新しい手法を導入する。また、構造的情報と意味的情報の両方を最大限に活用するための効果的な組み合わせ戦略も提案する。広範な実験を行い、意味的手法と組み合わせ戦略の両方が非常に有効であることを示す。

近年、記号的知識ベース(KB)の継続的な表現を学習する取り組みが盛んに行われている。しかし、これらのアプローチは、データレベルの知識(ABox)しか埋め込むことができないか、あるいは、概念レベルの知識(TBox)を扱う際に固有の制限を受ける、すなわち、KBに存在する論理構造を忠実にモデル化することができないという問題を抱えている。本論文では、記述論理EL++における論理構造(ABoxとTBoxの公理)をよりよく捉えることを可能にする幾何学的KB埋め込みアプローチBoxELを紹介する。BoxELは、KB内の概念を、概念の交差をモデル化するのに適した軸平行なボックスとして、実体をボックス内の点として、また、概念/実体間の関係をアフィン変換としてモデル化する。BoxELの論理構造保存に対する理論的保証(健全性)を示す。すなわち、損失0で埋め込むBoxELの学習済みモデルは、KBの(論理)モデルである。もっともらしい)包含推論と、タンパク質-タンパク質予測への実応用に関する実験結果から、BoxELは従来のナレッジグラフ埋め込み手法や、最新のEL++埋め込みアプローチを凌駕することが示される。

文書レベル関係抽出(RE)は、文書全体を通してエンティティ間の関係を特定することを目的としている。そのためには、コアレファレンスや常識などの様々な知識を総合する複雑な推論スキルが必要である。大規模な知識グラフ(KG)は実世界の事実を豊富に含んでおり、文書レベルの関係抽出に貴重な知識を提供することができる。本論文では、現在の文書レベルREモデルを強化するために、実体知識注入フレームワークを提案する。具体的には、共参照知識を注入するために共参照蒸留を導入し、REモデルに共参照推論のより一般的な機能を付与する。また、表現調整を用いて、事実に関する知識を注入し、KG表現と文書表現を統一的な空間に集約する。2つのベンチマークデータセットに対する実験により、我々の実体知識注入フレームワークの一般化と、いくつかの文書レベルREモデルに対する一貫した改良が検証された。

RDF知識グラフを問い合わせるための時間効率の良いソリューションは、SPARQLクエリに迅速に応答するための応答時間の短いインデックス構造に依存しています。私たちが最近開発したテンソルベースのトリプルストアのためのインデックス構造であるHypertriesは、RDF知識グラフのための主流のストレージソリューションと比較して、実行時間の大幅な改善を達成しました。しかし、この新しいデータ構造の空間フットプリントは、多くの主流のソリューションよりもまだ大きいことが多い。本研究では、ハイパートリーベースのRDFストレージソリューションにおいて、ハイパートリーのメモリフットプリントを削減し、クエリ処理をさらに高速化する方法を詳細に説明します。1)ハッシュ化による重複ノードの削除、(2)非分岐パスの圧縮、(3)単一エントリーのリーフノードを親ノードに格納することである。これらの戦略を、ベースラインのHypertriesや、Virtuoso, Fuseki, GraphDB, Blazegraph, gStoreなどの有名なトリプルストアと比較し、評価する。評価には4つのデータセット/ベンチマークジェネレータを使用した。SWDF、DBpedia、WatDiv、WikiDataです。その結果、Hypertriesのメモリ・フットプリントを最大70%削減し、1秒あたりの平均クエリー数で最大39%、1時間あたりのクエリー数で最大740%の相対的な改善を達成しました。

畳み込みニューラルネットワーク(CNN)は、多くの層を通して入力の中間表現を学習することにより、画像を分類する。最近の研究では、CNNの潜在的な表現を意味的な概念に整合させることが行われている。しかし、このようなアライメントを生成するために、既存の手法の大半は、実際には取得が困難な大量のラベル付きデータに主に依存している。本研究では、CNNの隠れユニットを、外部の常識的な知識リポジトリから抽出したクラスの意味属性にマッピングするフレームワークを提示することで、この制限を解決する。我々は、コピーペーストによる敵対的画像分類と一般化されたゼロショット学習タスクにおいて、我々のフレームワークの有効性を経験的に実証している。

再現性の危機は、データ駆動型科学に大きな影響を与える継続的な問題である。高度に接続された分散型ウェブオントロジーは、セマンティックデータとリンクト・オープン・データ・クラウドのバックボーンであり、データの利用や解釈に重要な用語のコンテキスト情報を提供します。クラウドのバックボーンであり、データの利用や解釈に重要な用語のコンテキスト情報を提供します。このことは、データを利用した研究成果の再現性にとって重要である。本論文では、用語コンテキストの取得に関連する再現性の問題を特定、分析、定量化する。この論文では、専門用語の文脈を把握すること(例えば、利用不可能なオントロジーに起因する)に関連する再現性の問題を特定し、分析し、定量化する。オントロジーに起因する)再現性の問題を特定・分析・定量化し、リンクオープンデータクラウドにおける再現性の危機への影響を明らかにする。リンクド・オープン・データ・クラウドにおける再現性の危機への影響を明らかにします。我々の検証は、オンライン上で利用可能な語彙の頻繁かつ継続的なモニタリングに裏打ちされたものである。オンラインで利用可能なボキャブラリーやオントロジーの継続的なモニタリングに裏打ちされています。DBpedia Archivoのデータセットによって裏付けられています。また、再現性の危機がどの程度までまた、DBpedia ArchivoとLinked Open Vocabulariesのオントロジー・アーカイビングによって、再現性の危機にどの程度対処できるかを示します。

グラフ表現学習のための強力な手段として、対比的学習が登場した。しかし、ほとんどの対比学習手法は、グラフの特徴を粗視化固定で学習するため、局所的あるいは大域的な情報を過小評価する可能性がある。そこで我々は、より階層的で豊かな表現を獲得するために、グラフ表現を階層的に学習する新しい階層的対比学習(HCL)の枠組みを提案する。具体的には、HCLは2つの主要な構成要素からなる。すなわち、より包括的な対比学習のために、より合理的なマルチスケールグラフトポロジーを構築する新しい適応的Learning to Pool (L2Pool) 法と、各スケール内の相互情報をより表現的に学習できる新しいマルチチャンネル擬似シャムネットワークである。HCLは、ノード分類、ノードクラスタリング、グラフ分類を含む12のデータセットにおいて、競争力のある性能を達成することが実験的に示された。さらに、学習した表現を可視化することで、HCLがグラフの有意義な特徴をうまく捉えていることが明らかになった。

知識を扱う際に、潜在的に相反する個々の視点を考慮することの重要性は、広く認識されている。既存のオントロジー管理手法の多くは、知識視点を完全に融合しており、一貫性を維持するために弱める必要があるかもしれない。
スタンドポイント・ロジックは、既存のKR言語のためのシンプルで汎用性のあるマルチモーダル論理の「アドオン」で、多様で矛盾する可能性のある視点に関連するドメイン知識を統合的に表現し、階層的に整理、結合、相互に関連付けることができる。
一次立場論理(FOSL)の一般的な枠組みから出発して、我々は文言式の断片に注目し、それに対して立場なしバージョンへの多時間翻訳を提供する。この結果、一階論理の様々な表現力の高い決定可能な断片に対して、決定可能性と有利な複素数をもたらす。次に、いくつかの精巧な符号化のトリックを用いて、オントロジー言語OWL 2 DLの基礎となる非常に表現力の高い記述論理SROIQb_sに対して同様の翻訳を確立する。この結果、既存の高度に最適化されたOWL推論器を用いて、視点モデリングによって拡張されたオントロジー言語に対する実用的な推論サポートを提供することができる。

現在の物体認識のための深層学習手法は純粋にデータ駆動型であり、良好な結果を得るためには多くの学習サンプルを必要とします。画像データにのみ依存するため、これらの手法は、わずかな偏差も発生する新しい環境に直面したときに失敗する傾向があります。しかし、人間の知覚はこのような分布の変化に対して非常に頑健であることが証明されている。これは、未知のシナリオに対応する能力が、文脈の知識を幅広く取り入れることに基づくと推測される。文脈は、シーン内のオブジェクトの共起に基づくものと、経験による記憶に基づくものがある。人間の視覚野が文脈を利用して、見た画像に対して異なるオブジェクト表現を形成するのに従って、我々は、知識グラフに符号化された外部の文脈知識を利用することによって、深層学習手法を強化するアプローチを提案する。そこで、一般的な知識グラフから異なる文脈の見方を抽出し、その見方をベクトル空間に変換してDNNに吹き込む。我々は一連の実験を行い、同じ画像データセットに対して、異なる文脈的視点が学習された物体表現に与える影響を調査する。実験結果は、文脈的視点がDNN内の画像表現に異なる影響を与え、その結果、同じ画像に対して異なる予測を導くという証拠を提供する。また、コンテキストは、通常、”転移学習の概要とアルゴリズムおよび実装例について“でも述べている転移学習タスクや実世界のシナリオで発生する、分布外の画像に対する物体認識モデルの頑健性を強化するのに役立つことを示す。

料理をするとき、アレルゲンを避けるため、足りない食材を補うため、新しい味を探すためなど、食材を代用することが望ましい場合がある。より一般的には、手続き的な指示で使用される実体を置換する問題は、指示中の実体と行動が最終結果を生成するためにどのように相互作用するかを理解する必要があるため、困難な問題である。本論文では、このような問題に対して、(1)自然言語処理ツールとドメイン固有オントロジーを用いて命令を解析し、フローグラフ表現を生成し、(2)命令の各段階における実体の流れと相互作用を捉える新しい埋め込みモデルを学習し、(3)埋め込みモデルを用いてもっともらしい置き換えを特定する手法を提案する。本手法は、フローグラフ内のノードを集約し、中間結果を動的に計算するため、一般的なグラフ埋め込みモデルよりも少ないノード数で埋め込みを学習することができる。また、レシピに含まれる食材のリンク予測タスクでは、埋め込みモデルがベースラインよりも高い性能を示した。

時間的異種情報ネットワーク(Temporal HIN)埋め込みは、異なるタイムスタンプを持つ様々な種類のノードを、構造的・意味的情報を保持したまま低次元空間に表現することを目的としており、様々な実世界のタスクにおいて極めて重要である。ユークリッド空間への時間的HIN埋め込みについては、これまで研究者が多大な努力を払い、いくつかの大きな成果を上げてきた。しかし、実世界のネットワークの多くは階層的な性質やべき乗則の分布を示し、ユークリッド空間と等尺でないという根本的な矛盾が常に存在する。近年、双曲空間における表現学習が、階層構造やべき乗則を持つデータに対して有効であることが証明されている。この性質に触発され、我々は時間的HINのための双曲的異種時間ネットワーク埋め込み(H2TNE)モデルを提案する。具体的には、時間的・不均質な二重拘束ランダムウォーク戦略を活用して構造的・意味的情報を捕捉し、近接測定における双曲線距離を利用した埋め込みを計算する。実験により、本手法はSOTAモデルと比較して、時間的リンク予測やノード分類において優れた性能を持つことが示された。

エンティティアライメントは、知識グラフ(KG)統合の基本的かつ重要な技術である。長年にわたり、エンティティアライメントの研究は、KGが静的であるという前提で行われてきたが、これは実世界のKGの成長の性質を無視している。KGが成長すると、以前のアライメント結果を再検討する必要がある一方で、新しいエンティティのアライメントが発見されるのを待つことになる。本論文では、現実的でありながら未開拓の設定である「継続的なエンティティアライメント」を提案し、その中に飛び込む。新しいエンティティやトリプルが出現するたびに、KG全体に対してモデル全体を再トレーニングすることを避けるために、このタスクのための継続的なアライメント方法を提示する。この方法では、実体の隣接性に基づいて実体の表現を再構築し、既存の隣接性を利用して新しい実体の埋め込みを高速かつ帰納的に生成することが可能である。また、部分的に事前アライメントされたエンティティペアを選択して再生することにより、知識補強のために信頼できるアライメントを抽出しながら、KGの一部のみを学習することができます。また、成長するKGには必然的にマッチング不可能なエンティティが含まれるため、提案手法は従来の手法とは異なり、新しいエンティティアライメントの発見と古いアライメントの更新に双方向の最近傍マッチングを採用する。さらに、多言語DBpediaの成長を模擬した新しいデータセットも構築する。提案手法の有効性は、再学習や帰納的学習によるベースラインよりも高いことが、広範な実験により示された。

今日、構造化データの多くはまだリレーショナルデータベースに格納されており、リレーショナルデータとセマンティックデータ間の変換を提供することが重要である。R2RML[13]などのリレーショナルからRDFへのマッピングは、宣言的なマッピングによって、既存のリレーショナルデータをRDFデータモデルで見る方法を提供するものである。リレーショナルからRDFへのマッピングは、リレーショナルなインスタンスデータをRDFに変換する一方で、主キー制約や外部キー制約といった既存のリレーショナル制約の変換は一切指定しない。R2RMLの登場以来、RDF制約言語への関心が高まり、SHACL[15]が標準化されました。このため、リレーショナルからRDFへのマッピングによって生成されたデータセットに対して、どのSHACL制約が有効であることが保証されるかという問題が発生する。任意のSQL制約と関係→RDFマッピングに対して、これは難しい問題であるが、我々はマッピングに多くの制約を導入することで、SQL整合性制約をSHACL制約に忠実に変換する関係→RDFマッピングの制約書き換えを導入することができる。我々は2つの基本的な性質、すなわち最大意味保存と単調性を定義し、証明する。

衛星を利用した測位システムは主に屋外環境で利用されているが、屋内や地下を含む様々なドメインやユースケースに対応した他の様々な測位技術が存在する。セマンティックリンクデータによる空間データの表現は、既存の空間オントロジーによって十分に対応可能である。しかし、特定の地理的コンテキストを持つ位置データに主に焦点が当てられており、測位システムによって生成されるさまざまな種類のデータと、データを取得するために使用されるサンプリング技術を記述するためのソリューションが不足している。この論文では、セマンティックセンサーネットワーク(SSN)とセンサー、観測、サンプル、アクチュエーター(SOSA)オントロジーの上に構築された、新しい汎用ポジショニングシステムオントロジー(POSO)を紹介します。POSOでは、既知の測位アルゴリズムや技術を考慮した上で、測位システムとその出力を記述するために必要な欠落した概念を提供する。これにより、POSOオントロジーを介して記述される複数のプラットフォームやセンサーを利用したハイブリッド測位システムの改良を可能にする。

時間知識グラフ(TKG)は、時間経過に伴うエンティティ間の動的な関係を整理・管理するものである。時間的知識グラフ補完(TKGC)として知られる、TKGにおける欠落した知識の推測は重要な研究テーマとなっている。従来のモデルは、TKGの意味空間が時間と共に変化するにもかかわらず、異なるタイムスタンプを持つ全ての事実を同一の潜在空間で扱う。そのため、知識の時間性を反映するのに有効ではない。本論文では、潜在的な知識の時間的変化を効果的に学習するために、異なる潜在的空間を異なるタイムスタンプのスナップショットに適応させ、空間適応ネットワーク(SANe)という新たなモデルを構築した。具体的には、畳み込みニューラルネットワーク(CNN)を拡張し、異なるタイムスタンプを持つ事実を異なる潜在空間に対応付けることで、知識の動的な変化を効果的に反映させることができる。一方、潜在空間の重なりを探索するために、時間を考慮したパラメータ生成器を設計し、CNNにタイムスタンプの文脈の観点から特定のパラメータを付与する。そのため、隣接する時間間隔の知識が効率的に共有され、一定期間の知識の妥当性を学習できるTKGCの性能を高めることができる。広範な実験により、SANeは時間的知識グラフ補完のための4つの確立されたベンチマークデータセットにおいて、最先端の性能を達成することが実証された。

存在規則オントロジーの静的解析のために、いくつかのタイプの依存関係が提案されており、例えばオントロジーに基づく問合せ応答における計算特性や、与えられた規則集合の可能な実用的用途についての洞察を期待できる。しかし、残念ながら、これらの依存関係はほとんど実装されていないため、その潜在的な可能性は実際にはほとんど実現されていない。我々は、2種類のルール依存関係(正の依存関係と拘束)に注目し、その効率的な計算のために最適化されたアルゴリズムを設計し、実装する。最大10万ルールを超える実世界のオントロジーを用いた実験により、我々のアプローチのスケーラビリティが示され、これまでに提案されたいくつかのアプリケーションを実用的なケーススタディとして実現することができる。特に、ルールベースのボトムアップ推論が、実用的なオントロジーにおいて、どの程度まで冗長性のない「無駄のない」知識グラフ(いわゆるコア)を生成することが保証されるかを分析することができる。

ヘテロジニアスグラフニューラルネットワーク(HGNN)は近年非常に注目されている研究分野である。知識グラフは何百もの異なる関係を含み、強い異質性という本質的な性質を示す。しかし、大多数のHGNNは、潜在空間におけるノードとエッジのタイプごとに別々のパラメータを学習することで異質性を特徴づけている。HGNNが知識グラフを処理しようとすると、タイプに関連したパラメータが爆発的に増加するため、HGNNはエッジのタイプが少ないグラフにしか適用できない。本研究では、このような限界を克服するために、関係間の一般的なセマンティクスをモデル化することで必要なパラメータを生成するハイパーネットワークを組み込んだ新しい異種グラフニューラルネットワークを提案する。具体的には、ハイパーネットワークを利用して、コンボリューションに基づくメッセージ関数の関係固有のパラメータを生成し、パラメータの効率を維持しながらモデルの性能を向上させる。最も一般的に利用されている知識ベース埋め込みデータセットに対する実証研究により、提案モデルの有効性と効率性が確認された。さらに、モデルパラメータが大幅に削減されることも示された(FB15k-237では415Mから3Mに、WN18RRでは13Mから4Mに削減された)。

キーフレーズ抽出の目的は、テキストの内容を最もよく表すフレーズの小さなセットを特定することである。キーフレーズの自動生成は、テキストの分類、索引付け、要約など、多くの自然言語アプリケーションに不可欠となっている。本論文では、事前に学習した言語モデルと知識グラフを用いて、現在および過去のキーフレーズを抽出するマルチタスクフレームワークであるMultPAXを提案する。本フレームワークは3つの要素から構成される。まず、MultPAXは入力文書から存在するキーフレーズを同定する。次に、MultPAXは外部の知識グラフとリンクし、より関連性の高いフレーズを取得する。最後に、MultPAXは抽出されたフレーズを入力文書との意味的関連性に基づいてランク付けし、最終出力として上位k個のフレーズを返す。我々は4つのベンチマークデータセットを用いて、MultPAXの性能を様々な最先端ベースラインに対して評価する実験を行った。その結果、有意差検定p<0.041で、我々のアプローチが最先端のベースラインを著しく上回ることが示された。我々のソースコードとデータセットは https://github.com/dice-group/MultPAX で公開されています。

対話システムにおいて、外部知識を利用することは、応答品質を向上させるための有望な方法である。多くの既存研究では、文脈の理解と応答生成のために、対話の最後の発話に含まれる実体の寄与に注目し、外部資源として知識グラフ(KGs)を採用している。しかし、多回転の文脈に含まれる知識と、知識グラフの関係間の遷移規則性との相関については、まだ十分に検討されていない。そこで、我々は関係遷移を考慮した知識素養型対話生成モデル(RT-KGD)を提案する。具体的には、人間の会話の潜在的な論理に着想を得て、対話レベルの関係遷移の規則性とターンレベルの実体意味情報を統合したモデルを提案する。このように、知識間の相互作用により、適切な知識を予測し、首尾一貫した応答を生成するための豊富な手掛かりが得られると考えられる。自動評価と手動評価の両方における実験結果から、本モデルは最先端のベースラインを凌駕することが示された。

本論文では、知識グラフ(KG)におけるトリプル中心のタスクのためのLoGNet(Local and Global Triple Embedding Network)と呼ばれるエンドツーエンドの学習フレームワークを紹介する。LoGNetはグラフニューラルネットワーク(GNN)に基づいており、局所的および大域的なトリプル埋め込み情報を結合している。局所的なトリプル埋め込みはトリプルをシーケンスとして扱うことで学習される。グローバルなトリプル埋め込みは、知識グラフの特徴的なトリプル線グラフで操作することにより学習される。のノードはトリプルであり、エッジはトリプルが共有する主語/目的語に従って挿入され、ノードとエッジの特徴は.のトリプルから導出される。LoGNetはトリプル中心の新鮮な視点をもたらし、様々な下流タスクに適応できる柔軟性を持つ。我々は、トリプル分類と異常述語検出における具体的なユースケースを議論する。実験評価により、LoGNetが最先端技術を凌駕する性能を持つことを示す。

知識グラフのコンテンツギャップは、下流のアプリケーションに影響を与える。セマンティックウェブの研究者は、主にデータ品質やオントロジー評価との関連で、完全性、正確性、一貫性など、様々な品質次元やこれらの次元を評価するためのフレームワークを提案することで、これらの研究を進めてきました。しかし、ユーザーニーズの文脈でこれらのギャップを定義することは、あまり行われていません。このため、知識エンジニアがこのようなギャップに効果的に対処するためのプロセスやツールを設計する能力が制限されています。私たちは、次のようなフレームワークを提案します。(i)ピアプロダクションシステムに関する文献レビューに基づき、コンテンツのギャップの核となるタイプを把握し、(ii)そのようなギャップのある領域において、知識グラフ上の作業のアンバランスとユーザーの情報ニーズのアンバランスを定量的に比較して、ギャップの原因を明らかにするフレームワークを提案します。我々は、ジェンダー、再帰性、地理的、社会経済的なギャップでフレームワークを運用し、2018年から2021年の間に編集指標とWikipediaページビューを比較することでWikidataに適用した。我々は、ウィキデータ制作に内在するジェンダーギャップやRecencyギャップを見いだせなかった。例外的にのみ、ウィキデータ編集者は、要求量にしたがって、代表性の低い主体(例えば、人間開発指数の低い国の人々)に対する作業を必要以上に少なくしているのです。この研究が、知識工学者がコンテンツギャップの原因を探り、必要な場合に対処するための基礎となることを期待しています。

SHACL(Shapes Constraint Language)は、データグラフのターゲットノードでチェックされる形状制約に対してRDFグラフを検証するための最近のW3Cの勧告である。この規格では、与えられた制約に違反したデータグラフの検証レポートという概念も記述されており、データグラフが制約を満たすように修正する方法についてフィードバックを提供することを目的としている。本仕様では、SHACL処理系がこのような説明を定義できるようになっているため、最近の研究では、データベース修復のスタイルで説明を使用することが提案されている(修復とは、結果のグラフが制約に対して検証できるようにデータグラフに追加または削除する一連の作業)。本論文では、非再帰的SHACL(SHACLの最大の断片であり、仕様で完全に定義されている)について、このような修復を研究する。我々は、回答集合プログラミング(ASP)を用いて、説明問題を論理プログラムに符号化し、その回答集合が(最小)修復に対応することで、修復を計算するアルゴリズムを提案する。次に、全ての対象を同時に修正することが不可能なシナリオを研究する。これは、全体的な不満足度や矛盾する制約のためにしばしば起こりうることである。我々は、検証の緩和された概念を導入し、ターゲットの(最大)サブセットを検証することを可能にし、この緩和を考慮に入れるためにASP翻訳を適応させる。Clingoでの我々の実装は、我々の知る限り、SHACL用の修復ジェネレータの最初の実装である。

DBpediaやFreebaseなどのナレッジグラフ(KG)におけるエンティティタイプ情報は、自動生成や人によるキュレーションにより不完全な場合が多い。エンティティタイプとは、KG内のエンティティの意味的なタイプを割り当てたり、推論したりするタスクです。本論文では、RDF2vecの異なるグラフウォーク戦略とテキストによるエンティティタイピングのための新しいアプローチである \textit{GRAND} を紹介します。RDF2vecはまずグラフウォークを生成し、次に言語モデルを用いてグラフ内の各ノードの埋め込みを得る。本研究では、ウォーク生成戦略と埋め込みモデルが、エンティティタイピングタスクの性能に大きな影響を与えることを示す。提案手法は、ベンチマークデータセットであるDBpediaとFIGERにおいて、KGにおけるエンティティタイピングにおいて、細粒度クラスと粗粒度クラスの両方において、ベースラインアプローチを上回る性能を示した。その結果、順序を考慮したRDF2vecの変種と、テキストによる実体記述の文脈的埋め込みを組み合わせることで、最良の結果を得ることができることがわかった。

我々は、巨大なRDFデータセットに対するGeoSPARQLクエリを処理する分散型地理空間RDFストアStrabo 2巨大なRDFデータセットに対するGeoSPARQLクエリを処理することができる。Strabo2 は堅牢な技術に基づいており、数百のノードに分散された TBs のデータに対して拡張することができる。数百のノードに分散されたTBsのデータを処理することができます。具体的には、Sparkフレームワークを使用しています。Hadoopクラスタ上での分散インメモリ処理には地理空間ライブラリSEDONAで強化されたSparkフレームワークを、RDFデータのコンパクトな永続的ストレージにはHiveを使用しています。Strabo 2は、テーマ別RDFデータの保存と分割が可能な柔軟な設計を採用しています。テーマ別のRDFデータを異なるリレーショナルスキーマで、空間データを別のHiveテーブルで保存・分割できる柔軟な設計を採用しています。
空間データは、GeoSPARQL の語彙を考慮し、別の Hive テーブルに格納・分割できる柔軟な設計となっています。Strabo 2は、メモリとディスクの両面でクラスタフレンドリーです。
トリプルの圧縮には、Parquetデータファイル形式の圧縮方式に加え、部分エンコーディング方式を採用しているため、メモリ的にもディスク的にもクラスタフレンドリーです。
トリプルの圧縮は、Parquet データファイル形式の圧縮スキームに加えて、部分的なエンコード技術を使用するため、メモリとディスクの両方に優しいです。GeoSPARQL クエリは、Spark SQL 方言に変換され、SED の空間関数と述語で強化されます。関数とSEDONAが提供する述語で強化されます。このプロセスで、システムはSEDONAの空間選択と空間結合の両方の機能を考慮します。最適化を適用することで、効率的なクエリ処理を実現します。Strabo 2を実験的にテストしました。受賞歴のあるHadoopベースのクラスタ環境において実証実験を行い、Strabo
の優れたスケーラビリティを実証した。データセットを扱うことができます。また、Strabo 2は、Hadoopをベースとしたクラスタ環境で、大規模な合成データ、実データを処理し、その優れたスケーラビリティを実証しています。データセットサイズが数GBを超えると、単一サーバで動作する集中型エンジンに比べて数GBを超えるデータセットを扱えることを示す。

最近、セマンティックウェブのオントロジーの文脈で、制御されたクエリ評価(CQE)が研究されている。CQEの目的は、外部ユーザから機密情報を推測されないように、あるクエリの答えを隠すことである。一般に、答えを隠す方法は複数存在し、互いに比較できないため、従来のCQEアプローチは、どの答えを可視化し、どの答えを隠さないかを事前に選択していた。本論文では、動的なCQE手法、すなわち、過去のクエリの評価に基づいて現在のクエリに対する答えを変更することを提案する。我々は、機密データを保護できることに加え、最大限の協調性(直感的には、できるだけ多くの問い合わせに対して肯定的に回答すること)を持つシステムを目指しており、回答の変更をできるだけ遅らせることによってこの目標を達成する。また、問い合わせの履歴に依存しない静的なアプローチでは、このような挙動を直観的にシミュレートできないことも示しています。興味深いことに、OWL 2 QLオントロジーと否定によって表現されるポリシーに対して、我々のセマンティクスの下でのクエリ評価は一次書き換え可能であり、したがってデータ複雑度はAC0である。このことは、実用的なアルゴリズムの開発への道を開くものであり、本論文でも予備的に議論している。

バイオメディカル分野でのセマンティック技術の大規模な導入にもかかわらず、公開されたオントロジーの一般的なモデリング方法についてはほとんど知られていない。OWLオントロジーは、しばしば公理の集合という粗い形でしか公開されず、根本的な設計は不透明なままです。しかし、原理的かつ体系的なオントロジー開発のライフサイクルは、オントロジーの出現した構文構造の規則性に反映されると思われる。この出現構造の理解を深めるために、我々は、公理と公理のセットの規則性を特定し分析するための構文指向のアプローチでオントロジーをリバースエンジニアリングすることを提案する。我々は、OWLの公理とクラスフレームに関する構文モデリングの傾向と一般的な実践の観点から、BioPortalを調査した。その結果、バイオメディカル・オントロジーは、OWL構成子が深くネストされたり、複雑な方法で結合されたりしない、単純な構文構造のみを共有していることが示唆された。このような単純な構造は、与えられたオントロジー内の公理の大きな割合を占めることが多いが、多くのオントロジーには、オントロジー間で共通しない、より複雑な構文構造も自明な量として含まれている。

本論文では,知識グラフにおける主張の真偽を予測することを目的とした事実確認アプローチについて検討する.最近の文献では、知識グラフに対する5つの主要な事実確認アプローチが提案されているが、それぞれが部分的に重複する制限を受けている。特に、テキストベースのアプローチは、手作業による特徴抽出に限界がある。また、埋め込みベースのアプローチは、現在の事実検査タスクにおける精度の低さに悩まされている。我々はHybridFCと名付けたハイブリッドなアプローチを提案する。このアプローチは、アンサンブル学習の設定において、既存の事実検査アプローチの多様性を利用し、著しく優れた予測性能を達成するものである。特に、FactBenchデータセットにおいて、受信者動作特性曲線下面積の点で0.14〜0.27倍と最先端技術を凌駕している。我々のコードはオープンソースであり、https://github.com/dice-group/HybridFC。

実世界の知識グラフは通常不完全であり、有効な情報を表すいくつかの事実が欠落している。そのため、標準的な記号的問合せエンジンでは、このような知識グラフに問合せを行った場合、期待されたものの論理的に含意されていない答を生成することができない。この問題を克服するために、最新のMLベースのアプローチは、まずKGとクエリを低次元のベクトル空間に埋め込み、埋め込み空間における候補実体とクエリの埋め込みの近接性に基づいてクエリの答えを生成する。これにより、埋め込みに基づくアプローチでは、論理的に内包されていない期待解を得ることができる。しかし、埋め込みに基づくアプローチは、実行時に見られるKGエンティティ(すなわち、定数)が学習時に見られるものと異なる可能性がある帰納的設定には適用できない。本論文では、帰納的環境において適用可能な、不完全なKGに対する問合せ応答への新しいニューロ記号的アプローチを提案する。本アプローチでは、まず、クエリの断片にマッチするKGの部分を表す事実で入力KGを記号的に補強し、次に、補強されたKGに関係グラフ畳み込みネットワーク(RGCN)の一般化を適用し、予測されるクエリの答えを生成する。我々は、合理的な仮定の下で、我々のアプローチが、より少ないレイヤー数で(多くの場合、実質的に)バニラRGCNに基づくアプローチ(KG拡張なし)を捉えることができることを公式に証明する。最後に、いくつかの専用ベンチマークにおいて、RGCNベースラインに対する我々のアプローチの実装を評価することにより、我々の理論的知見を経験的に検証する。

関係表は実体とその属性に関する情報を格納するために広く使われており、AIアルゴリズムを学習するためのデファクトスタンダードとなっている。多くの意味論的な表解釈のアプローチが提案されているが、特に、参照する知識グラフ(KG)が与えられた表セルの値をあいまいにする、いわゆるセル-実体のアノテーションタスクに対して提案されている
知識グラフ(KG)を用いて表セルの値を曖昧さなくすることを目的とした、いわゆるセル・エンテティ・アノテーションのためのアプローチが数多く提案されている。これらの手法のうち、ヒューリスティックに基づく手法は、しばしば列の種類や投票戦略によって集約された列間関係に依存し、最高の性能を達成するものであることが実証されている。しかし、これらの手法は他の列の意味的類似性を無視することが多く、エラー伝播に非常に敏感である(例えば、タイプアノテーションが正しくない場合、このシステムはしばしばターゲット列のエンティティアノテーションエラーを伝播させる)。本論文では、Radar Stationを提案する。Radar Stationは、あらかじめ特定された細胞-個体の注釈の後に、意味曖昧性解消のステップを追加することを目的としたハイブリッドシステムである。Radar Stationはカラム全体を文脈として考慮し、グラフ埋め込みを利用してエンティティ間の潜在的な関係を捉え、曖昧性解消を改善する。我々はRadar StationをWebテーブルと合成データセットに対して、異なるファミリーに属するいくつかのグラフ埋め込みモデルを用いて評価した。その結果,我々のアプローチはヒューリスティックに基づくシステムと比較して,3%の精度向上をもたらすことを実証する.さらに,様々なグラフ埋め込みファミリーの中で,微調整された翻訳距離に依存するものが,他のモデルに比べて優れた性能を示すことを経験的に観察することができる.

TKGにおける欠落した事実を推定することを目的とした時間的知識グラフ(TKG)推論は、イベント予測などの多くの重要なアプリケーションに不可欠である。先行研究では、過去のタイムスタンプにおける時間的情報を持つエンティティやリレーションを装備することが試みられ、有望な性能を達成している。将来の発生が同時に起こる可能性を無視しながら、それらは独立に欠損データを予測する。しかし、将来の同時発生事象の間には、互いに相関し、影響を及ぼす可能性のある複雑なつながりが存在する。そこで、我々は、過去と未来のタイムスタンプの両方におけるイベントの同時性をTKG推論に利用するために、Concurrent Reasoning Network (CRNet)を提案する。具体的には、各欠損事象に対して上位k個の候補事象を選択し、将来のタイムスタンプにおける全ての欠落事象の候補事象に基づいて候補グラフを構築する。候補グラフは、同じエンティティを共有することで欠損事実を連結する。さらに、候補イベントの相互作用を表現するために、新しい関係グラフ注目ネットワークを採用する。我々は、3つの有名な公共イベントベースTKGデータセットのエンティティ予測タスクによって、我々の提案を評価する。その結果、我々のCRNetはMRRに対して15-20%の改善で未来の欠落事実を補完することがわかった。 (ソースコードはhttps://github.com/shichao-wang/CRNet-ISWC2022.)

Resources Track

データセットが多すぎるため、関連するデータセットを見つけ、ダウンロードし、その内容を確認するのは難しい(ましてやエンティティマッチを適用するのも難しい)ため、データ所有者が既存のデータセットと接続したLinked Dataとして公開することは簡単なことではない。しかし、他のデータセットとの接続は、一般に発見性、閲覧性、問合せ性にとって重要である。この問題を軽減するために、本論文では、プロバイダが自分のデータセットと他のデータセットとの間の接続を強化するのに役立つサービスであるLODChainを紹介する。LODChainは、手元のデータセットと何百ものLODデータセットの間で、共通のエンティティ、スキーマ要素、トリプルを見つけ、等価推論を通して、様々な推測される接続や、関連するデータセットをユーザに提案します。さらに、誤ったマッピングを検出し、データセットのコンテンツを充実させるために、コンテンツに基づいた様々なデータセット発見サービスを提供します。既存のアプローチとの主な違いは、それらがメタデータベースであるのに対し、我々が提案するものはデータベースである点である。我々はLODChainの実装を紹介し、実データと合成データに対する様々な実験結果を報告する。

自然言語処理の分野では、データの言語化は非常に重要な課題である。なぜなら、我々の膨大な構造化・半構造化データを人間が読める形式に変換することには大きな利点があるからである。知識グラフ(KG)データの言語化は、主語、述語、目的語からなる相互接続されたトリプルベースの主張をテキストに変換することに焦点をあてています。KGの言語化データセットはいくつかのKGについて存在しますが、多くのシナリオで使用するにはまだ適性が不足しています。これは特にWikidataに当てはまり、利用可能なデータセットはクレームセットとテキスト情報を緩く結合するか、伝記、都市、国に関する述語に重点を置いています。これらのギャップに対処するため、我々はWikidataから構築された大規模なKG claim言語化データセットであるWDVを提案する。トリプルとテキストの間の緊密な結合を持ち、様々なエンティティや述語をカバーすることができる。また、人間中心の流暢さと適切さのスコアを測定するための再利用可能なワークフローにより、発話品質を評価する。KG言語化の研究を促進するために、我々のデータとコードは公開されている。

オントロジー・マッチング(OM)は、バイオインフォマティクスやセマンティックWebなど多くの分野で重要な役割を果たしており、その研究は、特に機械学習(ML)技術の適用により、ますます盛んになっている。しかし、Ontology Alignment Evaluation Initiative (OAEI)は、OMシステムの系統的な評価のための素晴らしい取り組みであるが、従属マッピングの評価の制限、最適でない参照マッピング、MLベースのシステムの評価のためのサポートの制限など、いくつかの制限に悩まされている。これらの限界に取り組むため、我々はMondoとUMLSから抽出したオントロジーを含む5つの新しいバイオメディカルOMタスクを導入する。各タスクには、等価性マッチングと包含性マッチングの両方が含まれる。参照マッピングの品質は、人間のキュレーションやオントロジープルーニングなどによって保証される。また、MLベースと非MLベースの両方のOMシステムに関して、様々な観点からOMパフォーマンスを測定する総合評価の枠組みを提案する。これらのリソースは、OAEI 2022の新しいBioMLトラックの一部として一般に公開されています。

知識グラフ埋め込みは、知識グラフの実体と関係を連続ベクトル空間に射影する表現学習技術である。埋め込みは多くの支持を得ており、リンク予測や他の下流予測タスクで多用されている。ほとんどのアプローチは、全体的なパフォーマンスを決定するために、単一のタスクまたはタスクの単一グループに対して評価されます。そして、その評価は、その埋め込みアプローチが手元のタスクでどの程度の性能を発揮するかという観点で評価されます。それでも、埋め込みアプローチが実際にどのような情報を表現するために学習しているのかは、ほとんど評価されていない(しばしば、深く理解されてもいない)。
このギャップを埋めるために、我々はDLCC (Description Logic Class Constructors) ベンチマークを提示する。これは、埋め込みアプローチがどの種類のクラスを表現できるかという観点から分析するためのリソースである。実世界の知識グラフであるDBpediaに基づくものと、合成のゴールドスタンダードの2つが提示される。また、研究者が直接ゴールドスタンダードを利用できるように、実験プロトコルを実装した評価フレームワークを提供する。DLCCの利用を実証するため、ゴールドスタンダードを用いた複数の埋め込み手法を比較した。その結果、DBpedia上の多くのDL構成要素は、実際にはゴールドスタンダードで定義されたものとは異なる相関パターンを認識して学習されること、カーディナリティ制約などの特定のDL構成要素は、ほとんどの埋め込みアプローチで特に学習が困難であることが分かった。

本論文では、知識グラフ上の表現学習のためのオープンソースのPythonライブラリであるµ KGを紹介します。μKGは、マルチソース知識グラフ(および単一知識グラフ)、複数の深層学習ライブラリ(PyTorchとTensorFlow2)、複数の埋め込みタスク(リンク予測、エンティティアライメント、エンティティタイピング、マルチソースリンク予測)、複数の並列計算モード(マルチプロセスおよびマルチGPU計算)をサポートします。現在、26の一般的な知識グラフ埋め込みモデルを実装し、16のベンチマークデータセットに対応しています。μKGは、埋め込み技術の高度な実装を、様々なタスクの簡素化されたパイプラインで提供します。また、使いやすさを考慮し、高品質なドキュメントを提供しています。μ KGは、既存の知識グラフ埋め込みライブラリと比較して、より包括的です。様々な埋め込みモデルやタスクの徹底的な比較・分析に有用である。我々は、共同で学習した埋め込みが、マルチホップ知識グラフ質問応答などの、知識を動力とする下流タスクに大いに役立つことを示す。我々は、関連するfieldsの最新動向を常に把握し、µ KGに取り込んでいく予定である。

ナレッジグラフは、データの可視性と再利用性の向上を約束する、データ連携、変換、統合、共有のための最も一般的な手段の一つとして台頭してきています。免疫遺伝学は、免疫系の遺伝学を研究する生命科学の一分野である。免疫遺伝学のデータは複雑であり、その関連性から、知識グラフは免疫遺伝学の実体と関係を表現・記述するための有力な選択肢であり、それゆえ多くのアプリケーションを可能にするが、これまで知識グラフの構築と利用にはほとんど努力が払われていない。本論文では、免疫遺伝学で初めてのFAIR知識グラフであるIMGT知識グラフ(IMGT-KG)を紹介する。IMGT-KGは、異なる免疫遺伝学データベースからデータを取得し、統合することにより、データベース間のリンクを作成する。その結果、IMGT-KGは10 430 268エンティティ、673コンセプト、173プロパティを持つ79 670 110トリプレットにアクセスすることができるようになりました。IMGT-KGは、ドメインオントロジーやボキャブラリーから多くの既存の用語を再利用し、同じドメインの他のリソースへの外部リンクを提供し、さらにAllen Interval Algebraを適用して塩基配列位置の推測を導くためのルールセットを提供します。このような推論により、例えばゲノムの配列位置に関する推論が可能となる。IMGT-KGは、ゲノムとタンパク質配列の間のギャップを埋め、効果的なクエリーや統合的なイムノオミクス解析への展望を開くものである。IMGT-KGは、詳細なドキュメントと、アクセスや探索のためのWebインターフェースとともに、オープンで自由に利用することができます。

近年,自然言語テキストから知識を抽出するための関係抽出(RE)モデルがいくつか開発されている.それに伴い,これらのモデルを評価するためのベンチマークデータセットがいくつか提案されている.これらのREデータセットは、特定のドメインから一定数の関係を持つ自然言語文から構成されている。汎用的なREベンチマークには有用であるが、特定のユースケースのためにユーザが指定した基準に従ってカスタマイズされたマイクロベンチマークを生成することは不可能である。マイクロベンチマークは、システムの個々の機能をテストし、コンポーネントベースの洞察をピンポイントで得るための鍵です。本論文では、REシステムのマイクロベンチマークのためのフレームワークであるREBenchを提案する。REBenchは、様々なドメインからの既存のREデータセットからカスタマイズされた関係サンプルを選択することができる。このフレームワークは、異なるサイズの関係サンプルを、REベンチマークに考慮されるべき本質的な特徴に関するユーザ定義の基準に従って選択するのに十分な柔軟性を持っている。我々は、マイクロベンチマークを生成するために、様々なクラスタリングアルゴリズムを用いた。我々は、異なるREベンチマークのサンプルを用いて、最先端のREシステムを評価した。評価結果から、様々なREモデルやその構成要素の限界を明らかにするために、特化したマイクロベンチマークが重要であることが示された。

増え続ける科学論文に直面し、研究者は自分の研究に関連する論文を見つけ、意味を理解するのに苦労している。科学的なオープンアーカイブは、このような膨大な情報に対処する上で中心的な役割を果たしますが、キーワードベースの検索サービスでは、論文間の意味的な関連性の豊かさを把握できないことがよくあります。本論文では、このような問題に取り組むためにISSAプロジェクトで実施された方法、ツール、サービスを紹介する。このプロジェクトの目的は、(1)オープンサイエンス・アーカイブの論文を分析・処理するための汎用的、再利用可能、拡張可能なパイプラインを提供すること、(2)その結果をRDF知識グラフとして保存・表現した意味インデックスに変換すること、(3)研究者や意思決定者、科学情報の専門家がテーマ別関連ルール、共同出版物のネットワーク、共起するトピックなどを探索できるよう、インデックスを活用した革新的な検索・視覚化サービスを開発すること、である。また、このソリューションの有効性を実証するために、11万件以上のリソースを持つ機関公開アーカイブのニーズに合わせた展開とユーザ主導のカスタマイズについても報告します。オープンサイエンスとFAIRのダイナミクスに完全に沿って、発表された作品は、その再利用を容易にするために必要なすべての付属文書とオープンライセンスの下で利用可能です。私たちのユースケースで作成された知識グラフは、一般的なリンクされたオープンデータのベストプラクティスに準拠しています。

近年、研究発表の内容を機械的に読みやすく、意味的に豊かで、相互にリンクした記述を作成する手法がいくつか出現している(典型的には知識グラフとして符号化される)。これらのソリューションの共通の限界は、文献からの情報を要約するために人間の専門家に依存しているか、特定の研究分野に焦点を当てているため、扱う論文の数が少ないということである。本論文では、コンピュータサイエンス知識グラフ(CS-KG)を紹介する。これは、10Mのエンティティに関する670万の論文から41Mの記述を記述した350M以上のRDFトリプルを、179の意味関係で連結した大規模知識グラフである。CS-KGは、大規模な研究論文のリポジトリに対して情報抽出パイプラインを適用することで自動的に生成され、定期的に更新される予定です。CS-KGは、類似のソリューションよりもはるかに大規模で、コンピュータサイエンスにおけるタスク、メソッド、材料、メトリクスを非常に包括的に表現している。高度な文献検索、文書分類、論文推薦、トレンド予測、仮説生成など、様々な知的サービスをサポートすることができる。CS-KGは、人手でアノテーションされた文のベンチマークに対して評価され、優れた結果を得た。

CQELSやC-SPARQLなどのストリーム推論型問合せ言語では、RDFストリームに対する問合せ応答が可能である。しかし、RDFストリーム推論を行うための効率的なRDFストリームジェネレータが不足しているのが現状です。最新のRDFストリームジェネレータは、扱えるストリーミングデータの速度と量に制限がある。RDFストリームをスケーラブルに効率よく生成するために、我々はRMLStreamerを拡張し、動的な異種データストリームからRDFストリームも生成できるようにした。本論文では、複数の異種データストリームから低遅延かつ高スループットのRDFストリームを生成する、ダイナミックウィンドウアプローチに依存するスケーラブルなソリューションを紹介する。我々の評価では、ミリ秒単位のレイテンシ(最先端ソリューションが必要とする秒単位と比較)、すべてのワークロードで一定のメモリ使用量、約7万レコード/秒(最先端ソリューションが取る1万レコード/秒と比較)の持続可能なスループットを達成し、最先端ソリューションを凌駕することが示された。これにより、セマンティックウェブと統合するための多数のデータストリームへのアクセスが可能になります。

WDBenchは、Wikidata SPARQLエンドポイントの公開クエリログから抽出した実クエリを用いた、Wikidataベースの知識グラフのためのクエリベンチマークである。近年、グラフデータベース(SPARQLエンジンを含む)のベンチマークが多数提案されていますが、実データに基づくものは少なく、実クエリを用いたものはさらに少なく、SPARQLエンジンと(非SPARQL)グラフデータベースを比較できるものはなお少ないのが現状です。Wikidataの生のクエリログは何百万もの多様なクエリを含んでおり、そのようなクエリを全て実行することは法外なコストがかかり、これらのクエリが使用する機能の組み合わせから結論を出すことは困難です。WDBenchはSPARQLとグラフデータベースに共通する3つの主要なクエリ機能、(i) 基本グラフパターン、(ii) オプショングラフパターン、(iii) パスパターン、(iv) ナビゲーショングラフパターンに着目しています。これらのパターンをテストするために、Wikidataのログからクエリを抽出し、非標準的な特徴を取り除き、重複を排除し、異なる構造のサブセットに分類し、2種類の構文で表示する。このベンチマークを用いて、Blazegraph、Jena/Fuseki、Virtuoso、Neo4jを用いたクエリの評価結果を提示し、比較する。

In-Use Track

研究出版会社は、重要なビジネスや編集上の決定を行うために、科学ジャーナルや学会を常に監視し、比較する必要があります。セマンティックウェブとナレッジグラフの技術は、これらの企業が異種ソースからの大量の情報を統合、表現、分析することを可能にするので、当然のソリューションである。この論文では、Springer Natureと共同で開発され、現在一般にも公開されている、科学的な場を分析・比較するための革新的なシステムであるAIDA Dashboard 2.0を紹介します。このツールは、Microsoft Academic Graph, Dimensions, DBpedia, GRID, CSO, INDUSOの2500万件の研究論文情報を統合し、15億以上のRDFトリプルを含む知識グラフをベースに構築されている。代替システムでは得られない高度な分析やランキングを作成することができます。本稿では、Springer Natureの編集プロセスにおける本ソリューションの利点について述べるとともに、5人の編集者と5人の研究者を対象としたユーザスタディを紹介し、分析の品質とユーザビリティの面で優れた結果を得たことを報告する。

本論文は、ISA2プログラムの資金提供を受けた欧州のパイロットプロジェクトの文脈で得られた経験を紹介する。その目的は、公共調達のための分散型データ空間を確立するセマンティック知識グラフを構築することである。知識グラフの構築から得られた結果、フォローアップ活動、主な教訓を説明する。この後者は、異なるデータガバナンスのシナリオをサポートする必要があります:いくつかのパートナーは、独自のツールを使用して、知識グラフの彼らの部分の構築プロセスを制御します。他のパートナーは、オープンなCSV/XML/JSONデータセットのみを提供し、パイロットに参加しています。これらの変換は、欧州ビッグデータテストインフラストラクチャ(BDTI)が提供するインフラストラクチャで実行されます。本論文では、このようなBDTIインフラストラクチャ内での知識グラフ構築プロセスの設計と実装を紹介します。この目的のために作成されたOWLオントロジーをインスタンス化することで、入力データをRDF出力データに変換するために必要なワークフロー全体の宣言的記述を提供することができ、これが知識グラフを形成しています。この宣言的記述は、知識グラフ構築のために使用しているワークフローエンジン(Apache Airflow)への指示として使用されます。

知識グラフ(KG)の自動構築は、データ統合やアクセスのために産業界で広く利用されており、知識グラフの(半)自動構築を可能にするいくつかのアプローチがある。重要なアプローチの一つは、生データを所定の知識グラフスキーマ(多くの場合ドメインオントロジー)にマッピングし、オントロジーに従って実体とプロパティを構築するものです。しかし、既存の知識グラフ構築手法は必ずしも効率的ではなく、結果として得られる知識グラフは十分にアプリケーション指向でユーザフレンドリなものとはなっていない。ドメインオントロジーは、データの特殊性よりも一般的なドメイン知識を反映するために知識指向であるべきであり、一方、知識グラフスキーマは、すべてのデータ特徴をカバーするためにデータ指向であるべきだというトレードオフから生じる課題である。前者をそのまま知識グラフスキーマとして使用した場合、データにマッピングされていないクラスや深い知識グラフ構造により空白ノードが生成されるなどの問題が発生する可能性がある。そこで、我々は、データを完全にカバーしつつ、ドメイン知識も十分にカバーする知識グラフスキーマを生成する、オントロジーリシェイプのシステムを提案する。キーワードセマンティックデータ統合知識グラフオントロジーリシェーピンググラフアルゴリズム自動知識グラフ構築

MLを含むデータ解析は、現代産業において生産データから洞察を得るために不可欠である。しかし、産業用MLは、ML専門家以外に対するMLの透明性の低さ、レビューや理解のためのML実践の不十分で統一されない記述、特定のアプリケーションに合わせたMLソリューションのアドホックファッション、その再利用性に影響を与える、などの影響を受けています。これらの課題に対処するために、我々は実行可能な知識グラフ(KG)の概念とシステムを提案する。このシステムは、MLに関する知識と解決策をKGに正式に記述し、再利用可能でモジュール化された実行スクリプトに変換するためのセマンティック技術に依存しています。さらに、実行可能なKGは、ML専門家と非ML専門家の間の共通言語としても機能し、彼らのコミュニケーションを促進する。私たちは、Bosch社の産業用ユースケースを用いて、ユーザースタディ、ワークショップ、スケーラビリティ評価など、広範囲に渡って本システムを評価しました。その結果、本システムは、ML専門家でなくても、ML手法を議論し、カスタマイズし、再利用するためのユーザーフレンドリーな方法を提供することが実証されました。

デジタルツインは、モノのインターネット(IoT)におけるシステムのデジタル表現であり、多くの場合、それらのシステムからのデータで学習されたAIモデルに基づいています。IoTシステムのライフサイクルのさまざまな段階からこれらのデータセットを結び付け、AIモデリングパイプラインを自動的に構成するために、セマンティックモデルの利用が増加しています。このようにセマンティックモデルと外部データセット上で動作するAIパイプラインの組み合わせは、大規模に展開する場合に特にユニークな課題を提起します。本論文では、デジタルツインを自動化するためにセマンティックグラフを適用する際のユニークな要件について、様々な実用的なユースケースを想定して議論します。これらの特徴を反映したベンチマークデータセットDTBMを紹介し、様々なナレッジグラフ技術のスケーリング上の課題について考察します。これらの洞察に基づき、IBMの複数の製品で使用されているリファレンスアーキテクチャを提案し、Digital TwinsのためのAIモデルを構成するための知識グラフのスケーリングのための教訓を導き出します。

研究部門は、組織におけるイノベーションの推進という重要な役割を担っています。しかし、情報量の増大に伴い、研究者にとっても経営者にとっても、洞察を得ること、トレンドを追うこと、新しい研究を把握すること、戦略を立てることはますます困難になってきている。本論文では、企業の研究コミュニティであるIBM Researchが、セマンティックウェブ技術を活用し、研究プロジェクト、論文、データセット、業績、認識に関するコミュニティで使用されている様々なアプリケーションを統合して得られる構造化データとテキストデータの両方から、統一的なナレッジグラフを誘導する使用例を紹介します。この知識グラフをアプリケーション開発者がより利用しやすくするために、誘導された知識を利用するための共通パターンを特定し、APIとして公開しました。これらのパターンは、最も価値のあるユースケースや軽減されるべきユーザーのペインポイントを特定するユーザー調査から生まれました。私たちは、推薦とビジネス利用のための分析という、2つの異なるシナリオを概説します。これらのシナリオについて詳しく説明し、特にエンティティの推薦について実証的な評価を行います。この研究で使用された方法論とそこから得られた教訓は、同様の課題に直面している他の組織にも適用することができます。

モノのインターネット(IoT)は、情報技術(IT)と運用技術(OT)の間のギャップを埋めることで、業界を変革しています。機械は接続されたセンサーと統合され、インテリジェントな分析アプリケーションによって管理されるようになり、デジタルトランスフォーメーションとビジネスオペレーションが加速しています。機械学習(ML)を産業用デバイスに導入することは、ITとOTの融合を促進することを目的とした進歩です。しかし、産業用IoT(IIoT)におけるMLアプリケーションの開発には、ハードウェアの異質性、MLモデルの非標準的な表現、デバイスとMLモデルの互換性の問題、アプリケーション開発の遅さなど、さまざまな課題があります。この分野での展開を成功させるには、ハードウェア、アルゴリズム、ソフトウェアツール、アプリケーションを深く理解することが必要です。そこで、本論文では、IIoTにおけるMLアプリケーションの迅速な開発を支援するために、セマンティックWeb技術を活用してローコードプラットフォーム上に構築したSemantic Low-Code Engineering for ML Applications (SeLoC-ML) と呼ぶフレームワークを紹介する。SeLoC-MLは、専門家でなくても簡単にMLモデルやデバイスのモデリング、発見、再利用、マッチメイクを大規模に行うことを可能にします。マッチング結果に基づき、ハードウェアに展開するためのプロジェクトコードを自動生成することができます。開発者は、レシピと呼ばれるセマンティックアプリケーションテンプレートにより、エンドユーザアプリケーションのプロトタイプを迅速に作成することができます。評価では、産業用ML分類のケーススタディにおいて、従来のアプローチと比較して少なくとも3倍のエンジニアリング努力の削減を確認し、SeLoC-MLの効率と有用性を示しています。我々はコードを共有し、いかなる貢献も歓迎する。

コメント

タイトルとURLをコピーしました