知識グラフとビッグデータ処理

機械学習技術　人工知能技術　深層学習技術自然言語処理技術　セマンティックウェブ技術　オントロジー技術　知識情報処理　　 AI学会論文集を集めてデジタルトランスフォーメーション技術

「Knowledge Graphs and Big Data Processing」より。

データ分析では、アルゴリズムプロセスを適用して洞察を導き出す。現在では、組織や企業がより良い意思決定を行うため、また既存の理論やモデルの検証や反証を行うために、多くの産業で利用されている。データアナリティクスという言葉は、インテリジェンス、統計、推論、データマイニング、知識発見などと同じ意味で使われることが多い。ビッグデータ時代において、ビッグデータ解析とは、ソーシャルネットワーク、取引記録、ビデオ、デジタル画像、各種センサーなど、さまざまなソースから収集した大量のデータを分析する戦略を指す。本書は、情報抽出、知識表現から始まり、知識処理、分析、可視化、センスメイキング、実用化まで、ビッグデータ処理の定義、手法、ツール、フレームワーク、ソリューションの一部を紹介することを目的としている。

しかし、本書はビッグデータ解析の手法を全て網羅することを意図しているわけでも、参考文献を網羅することを意図しているわけでもない。本書の各章では、エンタープライズナレッジグラフ、セマンティックビッグデータアーキテクチャ、スマートデータ分析ソリューションの理解に特に重点を置き、データ処理チェーンの適切な側面を取り上げている。

第1章の目的は、ビッグデータエコシステムの関連する側面を特徴付けることであり、ビッグデータの特性、エンドツーエンドのビッグデータ処理の実装に必要なコンポーネント、データ管理、統合、処理、分析タスクを改善するためのセマンティックの使用の必要性に関して、エコシステムを説明することである。

第2章では、ナレッジグラフ（KG）という用語のさまざまな定義について概観する。本章では、まさにその多様な定義の中にこそ、この分野の強みがあるとの立場をとる。本章では、読者を構造的に導くために、レイヤー視点と呼ぶ特定の視点と、ナレッジグラフに関する3つの見解を選択することにする。

第3章では、ビッグデータアプリケーションを構築するためのキーテクノロジーとビジネスドライバを紹介し、ビッグデータを扱うためのいくつかのオープンソースツールとビッグデータフレームワークを詳細に紹介する。

続く第4章では、知識グラフの作成（第4章）、フェデレートクエリー処理（第5章）、知識グラフにおける推論（第6章）の観点から、知識処理チェーンについて論じている。

第7章では、分散分析とセマンティック技術を組み合わせたスケーラブルなセマンティック分析スタックであるSANSAフレームワークに注目する。

第8章では、セマンティックデータ統合の問題をさらに詳しく説明し、異なるソースからの文脈的に等価なRDFエンティティを、エンティティ間の1-1完全一致のセットにマッチングするCOMET (COntextualized MoleculE-based matching Technique and framework) を紹介する。LAMBDAプロジェクトの目標は、実世界のアプリケーションにおけるビッグデータ解析の可能性、展望、および課題を研究することであるため、第1章（交通管理の例）に加えて、第9章では異なる産業におけるビッグデータの役割について論じている。

最後に、第10章では、エネルギー分野を取り上げ、電力生産、配電、消費の制御と監視のためのビッグデータ指向のツールや分析技術の応用の可能性について洞察している。本書は、技術系大学院生、継続教育短期コース受講中の専門家、自習コース受講中の様々な分野の研究者を対象にしています。コンピュータサイエンス、数学、統計学の基本的なスキルが要求される。

基礎編

第1章ビッグデータのエコシステム

デジタル技術の急速な発展、IoT製品や接続プラットフォーム、ソーシャルネットワークアプリケーション、映像、音声、ジオロケーションサービスなどは、大量のデータを収集／蓄積する機会を生み出している。かつて企業は、さまざまなソースから収集した静的なデータを一元的に管理していましたが、ウェブやクラウドサービスの誕生により、クラウドコンピューティングは、信頼性、拡張性、コスト効率の高いITソリューションとして、従来の社内システムを急速に追い越しつつあります。大量の構造化・非構造化データが分散して保存され、データソースも多種多様であることから、データ・知識の表現と統合、データクエリー、ビジネス分析、知識発見に関する問題が発生している。本章では、ビッグデータの特性、エンドツーエンドのビッグデータ処理の実装に必要なコンポーネント、データ管理・統合・処理・分析作業を改善するためのセマンティックスの必要性に関して、ビッグデータエコシステムの関連側面を特徴づける役割を担っている。

第2章ナレッジグラフレイヤーの視点

ナレッジグラフ（KG）は、次世代技術の重要なトレンドの一つである。ナレッジグラフの定義には様々なものがあるが、本章では、その定義の多さこそがこの分野の強みの一つであるとの立場をとる。その中で、レイヤー視点と呼ぶ特定の視点を選び、ナレッジグラフの3つの見方を紹介する。

第3章ビッグデータの展望、ツール、アーキテクチャー

ビッグデータは永続的な現象であり、データは無数のデジタル化されたシナリオで生成され処理されている。本章では、「ビッグデータ」の歴史について説明し、ビッグデータに関連する既存の用語やイネーブラの概要を提供することを目的としている。さらに、この大規模なデータを扱うために開発された著名な技術、ツール、アーキテクチャを取り上げる。最後に、本章では、ビッグデータの課題（異質性、相互運用性、多様性など）を特殊な表現で解決する知識グラフについて検討する。本章を読めば、ビッグデータの重要な用語、課題、取り扱い技術、そして大規模知識グラフとの関連性など、幅広い理解が得られる。

第4章知識グラフの作成

本章では、知識グラフの生成方法について紹介する。その目的は、提案された様々なアプローチの概要を理解し、現在普及しているアプローチの詳細を知ることである。本章を読めば、読者はナレッジグラフを生成するために利用できるさまざまなソリューションを理解し、特定のユースケースに最も適したマッピング言語を選択できるようになる。

第5章統合クエリ処理

ビッグデータは、産業のデジタル化と新たな学際的研究を通じて、製造業と科学の両方の発展を促進する上で重要な役割を担っている。セマンティックウェブ技術も大きな発展を遂げ、科学界や実務家は、オントロジーモデル、統制された語彙、リンクされたデータセット、データモデル、クエリー言語、さらにはビッグデータを意思決定に必要な知識に変換するためのツールによって、ビッグデータ管理問題に貢献してきた。ビッグデータやセマンティックウェブ技術が大きな影響を与えたにもかかわらず、私たちは新しい時代に入りつつあり、ゲノムのようなドメインが今後10年で非常に急速に成長すると予測されています。この次の時代には、ビッグデータの統合には、ビッグデータの取り込みとキュレーションだけでなく、効率的な大規模探索と発見を可能にする斬新でスケーラブルなツールが必要とされます。統合問い合わせ処理技術は、複数のデータソースに分散した大量のデータに対してスケールアップするためのソリューションを提供します。統合型クエリ処理技術は、クエリに関連するデータソースを特定するためのソース記述に頼るだけでなく、クエリの総実行時間を最小化し、回答の完全性を最大化する効率的な実行計画を見つけるために使用する。本章では、連携型クエリエンジンの主な特徴をまとめ、この分野の現状をレビューし、まだ未解決でこの分野の大きな課題である問題を概説する。

第6章知識グラフにおける推論。エンベッディングの注目点

本章では、知識グラフにおける推論を紹介する。第2章と同様、論理的推論、埋め込み推論、ニューラルネットワーク推論など、様々な推論技術に焦点を当てながら概観する。特に、知識グラフにおける推論を3つの次元で論じる。これらの次元を補完するために、我々は、推論タスクと推論タスクのファミリーの実用的なビューに基づいて探索を構成する：知識統合、知識発見、およびアプリケーションサービスのための推論である。

第7章 SANSAによるスケーラブルな知識グラフ処理

近年、知識グラフのサイズと数は驚異的に増加している。それに伴い、ビッグデータや大規模な知識グラフに対応するための分散データ処理技術も進歩している。本章では、大規模RDFデータの取り扱いの課題に取り組み、リンク予測、知識ベース補完、クエリ、推論などのアプリケーションのための統一的なフレームワークを提供するScalable Semantic Analytics Stack (SANSA) を紹介する。本稿では、SANSAの動機、背景、アーキテクチャについて述べる。SANSAは、汎用処理エンジンApache SparkとApache Flinkを用いて構築されています。本章を読み終えた読者は、SANSAを使用してナレッジグラフを大規模に処理するために利用できるさまざまなレイヤーと対応するAPIについて理解することができる。

第8章ビッグデータのためのコンテキストベースエンテティマッチング

多様性が最も支配的な次元であるビッグデータ時代において、RDFデータモデルは異種データソースからの実用的な知識の作成と統合を可能にします。しかし、RDFデータモデルでは、例えば、人物を人口統計学的な文脈からだけでなく、職業的な文脈からも記述することができるなど、様々な文脈で実体を記述することが可能である。コンテキストを考慮した記述は、RDFデータセットのエンティティマッチングにおいて課題を提起する。文脈に応じたエンティティマッチングを行うには、データ統合などのデータ駆動型タスクが実行される特定の文脈を考慮する必要がある。しかし、既存の手法では、異なるデータソースのスキーマ間およびプロパティ間のマッピングしか考慮されておらず、ユーザがデータ統合プロセス中にコンテキストや条件を選択することができない。我々は、RDFボキャブラリに記述された知識と文脈に基づく類似性メトリックの両方に依存して、文脈的に等価なRDFグラフをマッピングするエンティティマッチング技術であるCOMETを考案する。COMETは、RDFグラフにおけるエンティティマッチングの問題を、文脈を考慮した形で解決するために、2つのアプローチに分かれている。第1段階として、COMETはRDFエンティティ間の類似性指標を計算し、形式的概念分析アルゴリズムに依存して文脈的に等価なRDFエンティティをマップする。最後に、COMETは最初のステップの結果を結合し、結合されたスコアに基づいてRDFエンティティをマッチングするための1-1完全マッチングアルゴリズムを実行する。DBpediaのテストベッドを用いてCOMETの性能を実証的に評価した。実験結果は、COMETがコンテキストに依存した形で等価なRDFグラフを正確にマッチングすることを示唆している。

第9章ビッグデータの応用に関する調査

本章では、ヘルスケア、交通、エネルギー、銀行・保険、デジタルメディア・電子商取引、環境、安全・安心、通信、製造業など、さまざまな業界で必要とされるビッグデータアプリケーションについて紹介する。大規模データ解析の問題に対して、さまざまなツール、テクニック、技術が開発され、実験に利用されている。本章では、Elsevier ScienceDirect サービスおよび Springer Link サービスでアクセス可能な、近年、主に過去 20 年間の文献（レビュー論文）に着目して分析を行った。また、選択した産業について、本書で取り上げた意味処理アプローチと知識推論アプローチを用いて対処・克服できる課題を論じる。

第10章エネルギー分野でのケーススタディ

ビッグデータ技術の応用を考える場合、情報システムがメインとなることがほとんどです。しかし、世界的に電化が進んでいることを考えると、エネルギー領域も適していると言える。また、エネルギー分野では、膨大なデータの処理、保存、解釈を含む近代化が必要であると認識されている。エネルギー分野におけるビッグデータ技術の応用事例を紹介する動機は明らかであり、本章の目的もそこにある。本章では、エネルギーデータの後処理とリンクデータの応用を取り上げ、特に分析サービス、具体的な方法論とその活用に焦点を当てた。