ナレッジグラフの概要と国際学会(ISWC)での関連発表のまとめ

機械学習技術 関係データ学習 Clojure デジタルトランスフォーメーション技術 人工知能技術 自然言語処理技術 セマンティックウェブ技術 オントロジー技術 知識情報処理技術 確率的生成モデル  本ブログのナビ

ナレッジグラフの概要と国際学会(ISWC)での関連発表のまとめ

ナレッジグラフ(Knowledge Graph)とは、情報をグラフ構造で表現したものであり、人工知能(AI)の分野において重要な役割を果たすものとなる。ナレッジグラフは、複数のエンティティ(例えば人、場所、事物、概念など)が、その間の関係性(例えば「AがBを所有する」、「XはYの一部である」、「CはDに影響を与える」など)を持っているという知識を表現するために使用される。

具体的には、ナレッジグラフは、検索エンジン質問応答システムや、人工知能の対話システム自然言語処理の分野において重要な役割を果たしている。これらのシステムは、ナレッジグラフを利用して、複雑な情報を効率的に処理し、ユーザーに正確な情報を提供することができる。

ナレッジグラフは、ウェブ上の情報を自動的に収集して構築されることが多く、Googleの「Knowledge Graph」や、Microsoftの「Concept Graph」などが有名なものとなる。また、企業や団体内部での情報管理や、医療分野での知識ベースの構築にも利用されている。さらに近年は”知識グラフとビッグデータ処理“等でも述べているように、自然言語処理技術や機械学習技術を活用して、それらナレッジグラフを自動で生成する活動も活発に行われている。

ナレッジグラフを実現するためには、以下のような技術が必要となる。

  • セマンティックWeb技術: ナレッジグラフを構築するためには、構造化されたデータを表現する方法が必要となる。そのため、セマンティックWeb技術を利用して、データをRDF形式で表現することが一般的である。RDFは、エンティティ(主にノード)とその属性(主にラベル)を関係性(主にエッジ)でつないだグラフ構造で表現される。セマンティックウェブ技術の理論や具体的な実装に関しては”セマンティックウェブ技術“にて述べている。
  • 自然言語処理技術: ナレッジグラフを構築するためには、自然言語処理技術を利用して、自然言語の文章から情報を抽出する必要がある。具体的には、固有名詞や述語、意味的な関係性などを識別し、RDF形式に変換することが必要となる。自然言語処理技術の理論や具体的な実装に関しては”自然言語処理技術“にて述べている。
  • データ統合技術: ナレッジグラフを構築するためには、様々なソースからのデータを統合する必要があります。そのために、データ統合技術を利用して、異なる形式のデータを統合し、一つのナレッジグラフとして表現することが必要となる。これらは主に単語や文の類似性を機械学習技術を用いて統合していくこととなる。意味的なデータ統合のアプローチとしては”オントロジーマッチング技術について“にて、データベースの統合としては”Schema Matching and Mapping“にて述べており、また機械学習的なアプローチとしては”深層学習技術“や”グラフデータ処理アルゴリズムと機械学習/人工知能タスクへの応用“等で述べられている。
  • ナレッジエンジン ナレッジグラフを利用するためには、ナレッジエンジンが必要となる。ナレッジエンジンは、ナレッジグラフから情報を取得し、検索や推論、質問応答などの機能を提供するためのエンジンとなる。ナレッジエンジンには、SPARQLクエリ言語を利用することが多く、ナレッジグラフ内のデータに対する複雑なクエリを実行することができる。知識情報へのアプローチは”知識情報処理技術“で述べており、RDFストアやSPARQLに関しては”RDF ストアとSPARQLについて“にて、検索技術の理論と実装に関しては”検索技術について“にて、推論技術に関しては”推論技術“にて述べてある。さらに質問応答技術に関しても”チャットボットと質疑応答技術“にて述べられている。

以上のような技術を組み合わせることで、ナレッジグラフを実現することができる。ただし、ナレッジグラフの構築には、多くのデータを収集し、正確に変換する必要があるため、高度な技術と多くのリソースが必要となる。

ナレッジグラフに機械学習技術を適用することで、より精度の高いナレッジグラフを構築し、その利用価値を高めることができる。以下に、ナレッジグラフに機械学習技術を適用する方法について述べる。

  • エンティティリンキング: エンティティリンキングとは、異なるデータソースから得られたエンティティ情報を結びつける技術となる。自然言語処理技術と機械学習技術を用いることで、エンティティの特徴を学習し、異なる表記方法、異なるカテゴリーのエンティティなどを同一のエンティティとしてリンクすることができる。エンティティリンキングを実現することで、ナレッジグラフ内のエンティティ同士を自動的に結びつけ、より豊富なナレッジグラフを構築することができる。エンティティリンキング技術には、”OpenNLP“や”自然言語処理の各種ツールの紹介“等で述べている様々なオープソースの自然言語処理ツールの中にあるNER(Named Entity Recognition)モジュールを使って単語へのラベル付けを行ったり、”トピックモデル“で述べている文章へのトピックの割り付けを行い、それらのトピックやラベルを”関係データ学習“や”グラフデータ処理アルゴリズムと機械学習/人工知能タスクへの応用“で述べられている機械学習の手法を用いてリンク付けを行う。
  • リレーションシップ抽出: ナレッジグラフにおいては、エンティティ間のリレーションシップが重要な情報となる。機械学習技術を用いることで、自然言語のテキストからリレーションシップを抽出することができる。例えば、あるエンティティが「AはBを所有している」という文脈で出現した場合、そのエンティティ間に所有のリレーションシップがあることを抽出することができる。これにより、ナレッジグラフに新たなリレーションシップを追加することができる。リレーションシップ抽出に関しては前述の”関係データ学習“や”グラフデータ処理アルゴリズムと機械学習/人工知能タスクへの応用“で述べられている機械学習の手法を用いて行うものや、”論理やルールと確率/機械学習の融合“で述べられている論理データと確率モデルを組み合わせた機械学習技術を用いることで実現される。
  • エンティティ分類: ナレッジグラフにおいて、エンティティには様々なカテゴリーがあります。例えば、人物、組織、場所などがある。機械学習技術を用いることで、自然言語のテキストからエンティティのカテゴリーを自動的に分類することができる。これにより、ナレッジグラフにおいて、エンティティのカテゴリーに基づいた検索や分析が可能となる。エンティティ分類は前述の”OpenNLP“や”自然言語処理の各種ツールの紹介“等で述べている様々なオープソースの自然言語処理ツールの中にあるNER(Named Entity Recognition)モジュールを使ったり、”トピックモデル“で述べている文章へのトピックの割り付けを行ったりすることで実現できる。
  • 推論エンジン: ナレッジグラフを用いることで、エンティティ間を推論することにより新たな関係を見出すことができる。論理データとナレッジグラフを組み合わせることで”ルールベースと知識ベースとエキスパートシステムと関係データ“で述べているようなエキスパートシステムを使った推論が可能となる。また”メタヒューリスティクスの数理 読書メモ“で述べているような様々なメタヒューリスティクスアルゴリズムや”確率的生成モデルについて“を用いたフレキシブルな推論の実現、”様々な強化学習技術の理論とアルゴリズム“や”バンディット問題の理論とアルゴリズム“に述べているような強化学習的なアプローチの適用も可能となる。さらに”統計的因果推論と探索“に述べているような因果推論を行うことも視野に入れることができる。

ナレッジグラフを用いた応用としては、いかに示すような様々な分野での応用事例がある。

  • 検索エンジン: ナレッジグラフは、検索エンジンの精度を向上させるために利用される。ナレッジグラフは、エンティティとその間のリレーションシップをグラフ状に表現することで、検索クエリに対してより正確な回答を提供することができる。例えば、ユーザーが「テニスの試合に出場した選手」というクエリを入力した場合、ナレッジグラフは、テニスの試合に出場した選手のエンティティを特定し、その選手が出場した試合の情報や他の関連するエンティティを提示することができる。
  • 自然言語処理: ナレッジグラフは、自然言語処理においても利用される。自然言語処理においては、機械が自然言語のテキストを解釈することが必要となるが、その際にナレッジグラフを用いることで、エンティティの抽出や関連するリレーションシップの抽出などを行うことができる。
  • ロボティクス/IOT: ナレッジグラフは、ロボットの自律的な行動に利用される。ロボットが周囲の環境を認識するためには、周囲の物体の種類や配置に関する知識が必要となるが、ナレッジグラフを利用することで、ロボットが自己位置を特定し、周囲の環境を理解することができる。
  • データ分析: ナレッジグラフは、データ分析においても利用される。ナレッジグラフを利用することで、データ間の関係性を可視化し、データの相互作用や傾向を分析することができる。例えば、ある商品の販売数と天候の関係性をナレッジグラフ上で分析することで、商品の販売戦略の改善や天候予測の精度向上などが可能となる。

以上のように、ナレッジグラフは様々な分野での応用が期待されており、近年AI系の国際学会でも活発な発表がおこわれている。以下にそれらの一例としてセマンティックウェブ技術の国際学会であるISWC(International Semantic Web Conference)でのナレッジグラフ関連の発表についてまとめたものを示す。

下図に年度ごとの傾向を示す。傾向としては、2018年〜2020年に大きく発表が伸びている。(google knowledge graphの発表は2012年)

<ISWC2021>

<ISWC2020>

  <ISWC2019>

  <ISWC2018>

<ISWC2017>

<ISWC2016>

<ISWC2015>

<ISWC2014>

<ISWC2013>

 

コメント

  1. […] ナレッジグラフの概要と国際学会(ISWC)での関連発表のまとめ […]

  2. […] ナレッジグラフの概要と国際学会(ISWC)での関連発表のまとめ […]

タイトルとURLをコピーしました