機械学習技術 人工知能技術 深層学習技術 自然言語処理技術 セマンティックウェブ技術 オントロジー技術 知識情報処理 AI学会論文集を集めて デジタルトランスフォーメーション技術
Knowledge Graph and Semantic Computing 2018より
今回は、2018年8月14日から17日の間に天津で開催されたCCKS 2018: China Conference on Knowledge Graph and Semantic Computingで発表された論文について述べる。CCKSは、中国情報処理学会(CIPS)の言語と知識コンピューティングに関する技術委員会が主催している。CCKS 2018は、2016年に北京で開催された第1回、2017年に成都で開催された第2回の会議シリーズの第3版であった。第1回のCCKS 2016は、それまで開催されていた2つのプレミア関連フォーラム、中国知識グラフシンポジウム(KGS)と中国セマンティックWebおよびWeb科学会議(CSWS)が統合されたものだった。KGSは2013年に北京で、2014年に南京で、そして2015年に宜昌で開催された。CSWSは2006年に北京で初めて開催され、10年近く中国におけるセマンティック(Web)技術の研究の主要な場となっている。CCKSは、知識グラフ、セマンティックWeb、リンクデータ、NLP、知識表現、グラフデータベースなど、幅広い研究分野をカバーしている。CCKSは、中国の学術界、産業界、政府機関の研究者や実務家にとって、知識グラフやセマンティック技術に関するトップフォーラムとなることを目指している。今年のテーマは “Knowledge Computing and Language Understanding “だった。応募総数は101件。各投稿は、少なくとも2名、平均で3.1名のプログラム委員によって審査された。その結果、フル/ショートペーパー29件(うち英語論文15件、中国語論文14件)を採択することが決まった。また、プログラムには、4つの招待基調講演、6つのチュートリアル、4つのシェアードタスク、2つの産業フォーラム、1つのパネルが含まれた。CCKSには、英語で書かれた12本のフル/ショートペーパーの改訂版が収録されている。今年の招待講演は、清華大学のBo Zhang教授、レンセラー工科大学のJames A. Hendler教授、AlibabaのHui Qiang博士、ローマ・サピエンツァ大学のRoberto Navigli教授が担当された。
大学入試の地理問題(例:中国の高考)の解答は、新しいAIの課題である。本論文では、その問題理解と解決の難しさを分析し、新しい手法の開発の必要性を示唆する。我々は、情報検索技術と知識工学を混合し、解釈可能な問題解決プロセスを示すパイプラインアプローチを提示する。我々の実装では、質問構文解析、意味照合、知識グラフ上での拡散活性化を統合し、回答を生成する。実際の試験で使用された1,863問の代表的なサンプルに対して、その有望な性能を報告する。また、失敗の分析から、今後取り組むべき多くの未解決問題が明らかになった。
時間タグ付けは、イベントの抽出や推論など多くのタスクで重要な役割を担っている。中国語の時間表現の抽出は、中国語の時間フレーズが多様であるため、困難である。通常、研究者はルールベースの手法や学習ベースの手法を使用して時間表現を抽出している。ルールベースの手法は、ニュースなどの特定のタイプのテキストでは良い結果を得られることが多いが、複雑な時間表現を含むマルチタイプのテキストでは、そのようなことはない。また、学習ベースの手法は、大量の注釈付きコーパスを必要とするため、入手が困難であり、学習データを異なるテキストタイプの他のタスクに拡張することが困難である。本論文では、時間表現抽出をシーケンスラベリング問題とみなし、一般的なモデルであるBiLSTM+CRFによって解決を試みる。また、CN-DBPedia(オープンドメイン中国語知識グラフ)とBaiduBaike(中国最大の百科事典)を用いてモデル学習のためのデータセットを生成し、遠隔監視手法を提案する。百科事典テキストとTempEval2データセットに対する実験の結果、本手法が実現可能であることが示された。また、本手法は、ルールベースの手法のように手動でパターンを設計する必要がなく、手動でアノテーションデータを構築する必要がなく、様々な種類のテキストに適応することが可能である。
大規模な構造化知識ベースに対する質問応答のための段階的なフレームワークを提案する。意味解析に基づく既存の手法に続き、本手法は問題の異なるサブタスクを解決するための様々な構成要素に依存する。第一段階では、質問中のトピックエンティティを得るためにエンティティリンクの結果を直接利用し、そのプロセスを意味的なマッチング問題として単純化する。質問と述語列をマッチングするためにニューラルネットワークを学習し、知識ベースから回答候補の大まかな集合を取得する。従来の方法とは異なり、第二段階で粗集合から誤った候補を取り除くために、回答候補に対する制約としてエンティティの種類も考慮する。本手法は、質問と述語のマッチングに畳み込みニューラルネットワークモデルを、回答候補のフィルタリングに型制約を適用することにより、WEBQUESTIONSSPデータセットにおいて平均74.8%のF1測定を達成し、最先端の意味解析アプローチに匹敵する性能を有しています。
SNSのデータ取得では、複雑な人間関係や制約が深刻な問題になっています。SNS上の全ユーザーの情報を網羅し、タイムリーにデータを取得することは大きな意義があります。そのため、効率的なデータ取得戦略の策定が重要です。特に、ソーシャルネットワーク上のモニタリングポイントのスマートな配置は、データ取得効率に大きな影響を与える。本論文では、監視点配置問題をcapacitated set cover problem (CSCP)として定式化し、最大監視貢献率配置アルゴリズム(MMCRD)を提示する。さらに、提案アルゴリズムをランダム近似展開アルゴリズム(RD)、最大外延度近似展開アルゴリズム(MOD)と、合成BAスケールフリーネットワークとFacebook、Twitter、Weiboから得た実世界のソーシャルネットワークデータセットを用いて比較する。その結果、我々の提案するMMCRDアルゴリズムは、他の2つの展開アルゴリズムよりも優れていることがわかった。なぜなら、我々のアプローチは、最大12%のユーザーを監視することでソーシャルネットワークユーザー全体を監視し、一方で、適時性を保証することができるからである。
データストリームを用いた時系列予測は広く研究されている。現在のディープラーニング手法、例えばLSTM(Long Short-Term Memory)は生データから特徴表現を学習する際に優れた性能を発揮する。しかし、これらのモデルの多くは、データの背後にある意味的な情報を狭く学習することができる。本論文では、セマンティックウェブの観点からLSTMを再考し、ストリーミングデータがオントロジー列として表現されることを示す。その結果、(i)データストリームのセマンティクスを外部テキストで強化し、(ii)時系列予測のために背景知識を用いて基礎となるセマンティクスを利用する、新しいセマンティックベースのニューラルネットワーク(STBNet)を提案する。従来のモデルは、主に生データの数値表現に依存していたが、提案するSTBNetモデルは、ハイブリッドニューラルネットワークにセマンティックな埋め込みを創造的に統合している。我々は、オントロジーストリームの意味的埋め込み間の類似性に基づく新しい注目メカニズムを開発し、オントロジーストリームと数値解析を組み合わせた深層学習モデルを構築する。さらに、テキスト中の単語の語彙表現の学習にCNN(Convolutional Neural Networks)を組み込んだSTBNetにおいて、オントロジーストリームを充実させている。実験では、株価予測においてSTBNetが最先端の手法を上回る性能を発揮することを示した。
知識グラフ(KG)補完は、ファクトを(主語、関係、目的語)のトリプルで表現し、KG内の欠落ファクトを補完することを目的とする。現在のKG補完モデルは、提供されたトリプルの2/3(例えば、主語と関係)を用いて残りの1つを予測することを強制している。本論文では、KGに特化した”RNNの概要とアルゴリズム及び実装例について“で述べている多層リカレントニューラルネットワーク(RNN)を用いて、KG内のトリプルをシーケンスとしてモデル化する、新しいモデルを提案する。このモデルは、2つのベンチマークデータセットとより困難なデータセットに基づき、多くの評価指標において、従来の実体予測タスクにおけるいくつかの最新鋭のKG補完モデルを凌駕している。さらに、本モデルはシーケンシャルな特徴を持つため、1つのエンティティが与えられただけでトリプル全体を予測することが可能である。実験により、我々のモデルがこの新しいトリプル予測タスクにおいて有望な性能を達成することが実証された。
ReVerb, OLLIE, Clause IE, OpenIE 4.2, Sanford OIE, PredPattなどのオープンな情報抽出システムは、英語のOIEに注目が集まっている。しかし、英語以外の言語のOIEに関する研究はほとんど報告されていない。本論文では、中国語文書から二項関係トリプルとN-ary関係タプルを抽出する中国語OIEシステムPLCOIEを紹介する。本論文の目的は、大規模なコーパスから、係り受け解析の役割と品詞の両方からなる一般的なパターンを学習し、学習したパターンを使って文書から関係タプルを抽出することにある。また、本論文では、類義語の変換問題や軽い動詞の構文問題を緩和している。PLCOIEは二項関係トリプルとN-ary関係タプルを抽出することができ、4つの実世界データセットに対する実験では、PLCOIEの結果は最新の中国語OIEシステムより正確であることが示され、PLCOIEが実現可能で有効であることが示された。
近年、ディープニューラルネットワークは、関係性の分類やその他多くの自然言語処理タスクにおいて大きな成功を収めています。しかし、既存の関係性分類のためのニューラルネットワークは、ラベル付けされたデータの質に大きく依存し、入力信号のノイズを過信する傾向がある。また、頑健性や汎化性にも限界がある。本論文では、双方向性長短期記憶ニューラルネットワークの入力ベクトルに、元の入力そのものではなく、摂動を加えることによって、関係分類に敵対的学習を適用する。さらに、文の表現を学習する際に、重要な情報を識別するだけでなく、文レベルと語彙レベルの特徴を適応的に連結することができる、注意に基づくゲートモジュールを提案する。SemEval-2010 Task 8ベンチマークデータセットに対する実験では、我々のモデルが他の最先端モデルを大幅に上回る性能を示すことがわかった。
百科事典の記事中のInfoboxは構造化されたファクトロイド知識を含んでおり、オープンドメインの知識ベース構築のための最も重要なソースとなっている。しかし、Infoboxにハイパーリンクがない場合、意味的な関連性を作り出すことができない。本論文では、Infoboxのエンティティリンク問題に対して、効果的なモデルを提案し、最も可能性のある特徴をまとめる。実証研究により、提案モデルの優位性を確認する。
研究者が研究動向を発見し、理解し、予測するためにデータマイニング技術を適用することは、非常に有益であるが、困難な課題である。既存の研究では、主に文献から抽出したトピックを予測モデル構築の対象として使用しています。本研究では、より正確な結果を得るために、トピックの代わりに概念を用い、その修辞的特徴を考慮しながら、その増減傾向を予測するモデルを構築している。ACL1965-2017文献データセットに基づく実験結果から、科学的動向の手がかりは、概念のレトリック分布にあることがわかった。また、関連する概念の情報を追加した後、予測モデルの精度は、先行するトピックベースのアルゴリズムと比較して、大幅に向上することができる。
本論文では、自然言語推論(NLI)タスクにおいて、既存のニューラルネットワークモデルに外部知識を効果的に組み込むことができる知識補強型推論ネットワーク(K- AIN)を提案する。本論文では、TransEモデルを用いて、外部の知識ベース(KB)から抽出された様々な意味関係を分散関係素性として符号化することにより、外部知識を表現する従来の研究とは異なる。この分散関係素性を利用して、知識補強された単語埋め込みを構築し、現行のニューラルネットワークモデルに統合する。実験の結果、我々のモデルはSNLIデータセットにおいて強力なベースラインよりも優れた性能を達成し、SciTailデータセットにおいても現在の最先端モデルを凌駕することがわかった。
知識グラフの急速な発展に伴い、知識グラフからクラスやプロパティの関係や制約を抽出するタスクであるスキーマ誘導は、より重要かつ緊急なものとなっている。スキーマ誘導は、知識グラフの統合、問い合わせ、保守などの多くのアプリケーションを容易にするために重要な役割を担っている。本論文では、スキーマ誘導の包括的なサーベイを提供するために、既存のスキーマ誘導アプローチを概観し、主にその学習方法、学習した公理の種類、学習プロセスで使用される可能性のある外部リソースを検討する。その比較に基づき、スキーマ誘導の課題と方向性を指摘する。
コメント
[…] Knowledge Graph and Semantic Computing […]