Webやドキュメントからの表形式データの抽出と意味注釈学習

人工知能技術知識情報処理技術グラフデータと機械学習オントロジー技術機械学習技術推論技術デジタルトランスフォーメーション技術ウェブ技術ワークフロー&サービス検索技術データベース技術ユーザーインターフェース技術自然言語処理技術本ブログのナビ

webの中の表情報について

Web情報の中の表情報としては以下のようなのがある。

スケジュールやイベント情報: Web上のカレンダーやイベントページでは、日付、時間、場所、イベントのタイトルや説明などが表形式で表示され、このような情報は通常、行と列の形式で表現され、各行が個別のイベントまたはスケジュールエントリを表す。
製品リストや価格表: オンラインショッピングサイトや企業のウェブサイトでは、製品のリストや価格表が表形式で表示され、それぞれの行が製品やサービスを示し、列には製品名、説明、価格、在庫状況などの情報が含まれるような形で表される。
データベースの検索結果: Web上のデータベース検索結果は、表形式で表示されることが一般的であり、検索クエリに基づいて抽出されたデータが、行と列の形式で表示されている。例としては、図書館のオンラインカタログやビジネスリストなどがある。
統計データやレポート: 調査結果や統計データ、レポートなども表形式で表示されている。表は、異なるカテゴリや要素の値を比較するのに便利であり、数値やパーセンテージ、日付などの情報が表に示されることが一般的となる。

これらは一般的な例だが、これら以外にもWeb上の表情報はさまざまな種類や目的で利用されている。これらの情報は”webクローリング技術の概要とPython/Clojureによる実装“で述べているWebスクレイピングやデータ抽出により、目的に応じて表情報を特定して、必要なデータを抽出することができる。

次にそれらのデータを活用する際の課題について述べる。

web情報から表形式のデータを抽出し、活用する際の課題について

Web情報から表形式のデータを抽出して活用する際には、以下のような課題が存在する。

データの整合性と信頼性: Web上の情報は、複数のソースから収集されることがある。したがって、抽出したデータの整合性や信頼性を確保する必要があり、情報が正確で最新のものであるか、データのソースが信頼できるかなどを慎重に検証する必要がある。
データの構造の多様性: Web上の情報は、さまざまな形式や構造で表現されることがある。データの抽出において、さまざまなWebページの構造に適応できる柔軟なアルゴリズムや手法が必要であり、複数のWebサイトやデータソースに対応するため、抽出ルールやデータ処理の柔軟性を確保する必要がある。
ページの変化とアップデート: Webページのデザインや構造は頻繁に変更されることがあり、データ抽出プロセスは、Webページの変更に対応できるように柔軟性を持たせる必要がある。ひのため、定期的な監視やアップデートを行い、データ抽出プログラムを継続的にメンテナンスすることが重要となる。
データの前処理と正規化: 抽出したデータは、しばしば不完全でノイズが含まれることがある。これらを補正するため、データの前処理や正規化を行い、必要な情報を整形し、一貫性を保つ必要がある。さらに、欠損値の処理、データ型の変換、重複データの排除など、データ品質の向上に取り組む必要もある。
著作権と法的な制約: Webスクレイピングやデータ抽出は、ウェブサイトの利用規約や法的な制約に従う必要がある。そのため、ウェブサイトの所有者や運営者からの許可を得るか、合法的なデータソースを使用する必要があり、法的な制約や倫理的な考慮事項に留意しながら、データの抽出と使用を行う必要がある。

このように、webの表データを抽出し、活用するには、データの整合性や信頼性、あるいはデータやwebページの構造の多様性に対応する必要があり、それらを自動で行うことは困難であった。

以下において、それらの課題に対するアプローチが検討された国際学会(ISWC)でのワークショップの情報についてまとめる。

Webやドキュメントからの表形式データの抽出と意味注釈(SemTab)学習

Webやドキュメント上には無数のテーブル情報があり、人手でまとめられている知識情報として非常に有用なものとなる。一般的にそれらの情報を抽出し構造化するタスクは情報抽出タスクとよばれているが、その中でも近年表情報に特化したタスクが注目され、国際的な学会(ISWC等)でワークショップが開かれている。

そこで使われる技術は、従来の文字列マッチング技術だけでなく、ハイブリッドニューラルネットワーク（HNN）によって学習されたテーブルの局所性機能や、ナレッジベース（KB）によって学習された列間セマンティクス機能など、テーブルのコンテキストセマンティクスを十分に活用できる詳細予測モデル等の機械学習を用いたアプローチが取られている。

また表形式のデータは関係データベースとも関連づけられ、それらに適用されるオントロジーマッチング技術や、スキーママッチング技術が適用されるとともに、知識情報と組み合わされたり、あるいは確率的なアプローチ(確率的関係モデル)等と組み合わされたアプローチも行われている。

それらの中で以下にISWCのSemTabにて報告された内容について述べる。

Learning Semantic Annotations for Tabular Data

Web テーブルなどの表形式データの有用性は、それらのセマンティクスを理解することに大きく依存する。この調査では、メタデータのないテーブルの列タイプの予測に焦点を当てている。従来の字句マッチングベースの方法とは異なり、Hybrid Neural Network (HNN) によって学習されたテーブルの局所性機能やナレッジベースによって学習された列間のセマンティクス機能を含む、テーブルのコンテキストセマンティクスを十分に活用できる深い予測モデルを提案する (KB )この http URLに応答するルックアップとクエリは、個々のテーブルセットだけでなく、あるテーブルセットから別のテーブルセットに転送するときにも優れたパフォーマンスを発揮する。

MTab4Wikidata at the SemTab 2020: Tabular Data Annotation with Wikidata

本論文では、Semantic Web Challenge on Tabular Data to Knowledge Graph Matching (SemTab 2020) の3つの意味的注釈タスク、すなわち、セル-エンティティ注釈（CEA）、列タイプ注釈（CTA）、列関係-プロパティ注釈（CPA）のためのMTab4Wikidataというシステム（MTab4Wikidata）を紹介している。特に、(1)テーブルセルのスペルミスに対応するファジーエンティティ検索、(2)曖昧なセルに対応するファジーステートメント検索、(3)Wikidataシフトの問題に対応するステートメントリッチメントモジュール、(4)マッチングタスクに対する効率的で有効な後処理を紹介する。本システムは、3つのアノテーションタスクにおいて経験則に基づく素晴らしい性能を達成し、SemTab 2020で最優秀賞を受賞した。MTab4Wikidata は、CEAとCPAの2つのタスクで1位、CTAタスクで2位を獲得しました。タスクで1位、ラウンド1、2、3データセットで2位、ラウンド4データセットで1位を獲得。とTough Tables (2T)データセットで1位を獲得した。

DAGOBAH: Enhanced Scoring Algorithms for Scalable Annotations of Tabular Data

本論文ではDAGOBAHシステムで使用されている新しいアプローチを紹介する。DAGOBAHは、Wikidataのエンティティやリレーションを用いてテーブルに意味的なアノテーションを行い、3つのタスクを実行する。列-プロパティアノテーション（CPA）、セル-エンティティアノテーション（CEA）、列タイプアノテーション（CTA）となる。本システムでは、曖昧性解消の初期スコアがCPAの出力に影響を与え、それがCEAの出力に影響を与える。最後に、CTAは知識グラフの型階層を利用して計算され、最適な細粒度の型が列に付与される。このようにアノテーション間の相互作用を利用したアプローチにより、DAGOBAHはSemTab2020チャレンジの全タスクにおいて非常に高い競争力を獲得することができた。

MantisTable SE: an enhanced and efficient approach to a complete Semantic Table Interpretation

本論文では、セマンティックテーブル解釈のための新しい教師なし自動化アプローチを紹介する。この手法はDBpediaとWikidataに対して実行され、他の知識グラフ（KG）にも容易に適用できる。さらに、セマンティックテーブル解釈（STI）に必要なデータを効率的に取得するためのツール（LamAPI）を提供する。表解釈(STI)タスクに必要なデータをKGダンプから効率的に取得するツール（LamAPI）を提供する。

A Framework for Quality Assessment of Semantic Annotations of Tabular Data

多くの情報はテーブル内で伝達され、人間または (半) 自動アプローチによって意味的に注釈を付けることができる。それにもかかわらず、多くのアプリケーションは、品質が低いため、セマンティックアノテーションを十分に活用できない。表形式データのセマンティックアノテーションの品質評価にはいくつかの方法論が存在するが、さまざまな品質次元を通じて多次元概念として品質を自動的に評価するわけではない。品質次元は、注釈の品質評価を自動化する Web アプリケーションである STILTool 2 に実装されている。評価は、セマンティックアノテーションの品質をゴールドスタンダードと比較することによって行われる。ここで紹介する作業は、少なくとも 3 つのユースケースに適用されている。結果は、私たちのアプローチが品質問題とその対処方法についてヒントを与えてくれることを示している。

SemTab: Semantic Web Challenge on Tabular Data to Knowledge Graph Matching

この課題は、表形式のデータと KG のマッチング問題を処理するシステムのベンチマークを行い、同じ基準での比較と結果の再現性を容易にすることを目的としています。この課題に関する最新ニュースを共有するディスカッショングループがある。

Deux Ex Machina

AIシステム設計・意思決定構造の設計を専門としています。
Ontology・DSL・Behavior Treeによる判断の外部化、マルチエージェント構築に取り組んでいます。

Specialized in AI system design and decision-making architecture.
Focused on externalizing decision logic using Ontology, DSL, and Behavior Trees, and building multi-agent systems.