Webやドキュメントからの表形式データの抽出と意味注釈(SemTab)学習

人工知能技術 知識情報処理技術 グラフデータと機械学習 オントロジー技術 機械学習技術 推論技術  デジタルトランスフォーメーション技術 ウェブ技術 ワークフロー&サービス 検索技術 データベース技術 ユーザーインターフェース技術 自然言語処理技術 本ブログのナビ

webの中の表情報について

Web情報の中の表情報としては以下のようなのがある。

  • スケジュールやイベント情報: Web上のカレンダーやイベントページでは、日付、時間、場所、イベントのタイトルや説明などが表形式で表示され、このような情報は通常、行と列の形式で表現され、各行が個別のイベントまたはスケジュールエントリを表す。
  • 製品リストや価格表: オンラインショッピングサイトや企業のウェブサイトでは、製品のリストや価格表が表形式で表示され、それぞれの行が製品やサービスを示し、列には製品名、説明、価格、在庫状況などの情報が含まれるような形で表される。
  • データベースの検索結果: Web上のデータベース検索結果は、表形式で表示されることが一般的であり、検索クエリに基づいて抽出されたデータが、行と列の形式で表示されている。例としては、図書館のオンラインカタログやビジネスリストなどがある。
  • 統計データやレポート: 調査結果や統計データ、レポートなども表形式で表示されている。表は、異なるカテゴリや要素の値を比較するのに便利であり、数値やパーセンテージ、日付などの情報が表に示されることが一般的となる。

これらは一般的な例だが、これら以外にもWeb上の表情報はさまざまな種類や目的で利用されている。これらの情報は”webクローリング技術の概要とPython/Clojureによる実装“で述べているWebスクレイピングやデータ抽出により、目的に応じて表情報を特定して、必要なデータを抽出することができる。

次にそれらのデータを活用する際の課題について述べる。

web情報から表形式のデータを抽出し、活用する際の課題について

Web情報から表形式のデータを抽出して活用する際には、以下のような課題が存在する。

  • データの整合性と信頼性: Web上の情報は、複数のソースから収集されることがある。したがって、抽出したデータの整合性や信頼性を確保する必要があり、情報が正確で最新のものであるか、データのソースが信頼できるかなどを慎重に検証する必要がある。
  • データの構造の多様性: Web上の情報は、さまざまな形式や構造で表現されることがある。データの抽出において、さまざまなWebページの構造に適応できる柔軟なアルゴリズムや手法が必要であり、複数のWebサイトやデータソースに対応するため、抽出ルールやデータ処理の柔軟性を確保する必要がある。
  • ページの変化とアップデート: Webページのデザインや構造は頻繁に変更されることがあり、データ抽出プロセスは、Webページの変更に対応できるように柔軟性を持たせる必要がある。ひのため、定期的な監視やアップデートを行い、データ抽出プログラムを継続的にメンテナンスすることが重要となる。
  • データの前処理と正規化: 抽出したデータは、しばしば不完全でノイズが含まれることがある。これらを補正するため、データの前処理や正規化を行い、必要な情報を整形し、一貫性を保つ必要がある。さらに、欠損値の処理、データ型の変換、重複データの排除など、データ品質の向上に取り組む必要もある。
  • 著作権と法的な制約: Webスクレイピングやデータ抽出は、ウェブサイトの利用規約や法的な制約に従う必要がある。そのため、ウェブサイトの所有者や運営者からの許可を得るか、合法的なデータソースを使用する必要があり、法的な制約や倫理的な考慮事項に留意しながら、データの抽出と使用を行う必要がある。

このように、webの表データを抽出し、活用するには、データの整合性や信頼性、あるいはデータやwebページの構造の多様性に対応する必要があり、それらを自動で行うことは困難であった。

以下において、それらの課題に対するアプローチが検討された国際学会(ISWC)でのワークショップの情報についてまとめる。

Webやドキュメントからの表形式データの抽出と意味注釈(SemTab)学習

Webやドキュメント上には無数のテーブル情報があり、人手でまとめられている知識情報として非常に有用なものとなる。一般的にそれらの情報を抽出し構造化するタスクは情報抽出タスクとよばれているが、その中でも近年表情報に特化したタスクが注目され、国際的な学会(ISWC等)でワークショップが開かれている。

そこで使われる技術は、従来の文字列マッチング技術だけでなく、ハイブリッドニューラルネットワーク(HNN)によって学習されたテーブルの局所性機能や、ナレッジベース(KB)によって学習された列間セマンティクス機能など、テーブルのコンテキストセマンティクスを十分に活用できる詳細予測モデル等の機械学習を用いたアプローチが取られている。

また表形式のデータは関係データベースとも関連づけられ、それらに適用されるオントロジーマッチング技術や、スキーママッチング技術が適用されるとともに、知識情報と組み合わされたり、あるいは確率的なアプローチ(確率的関係モデル)等と組み合わされたアプローチも行われている。

それらの中で以下にISWCのSemTabにて報告された内容について述べる。

Web テーブルなどの表形式データの有用性は、それらのセマンティクスを理解することに大きく依存する。この調査では、メタデータのないテーブルの列タイプの予測に焦点を当てている。従来の字句マッチングベースの方法とは異なり、Hybrid Neural Network (HNN) によって学習されたテーブルの局所性機能やナレッジ ベースによって学習された列間のセマンティクス機能を含む、テーブルのコンテキスト セマンティクスを十分に活用できる深い予測モデルを提案する (KB )この http URLに応答するルックアップとクエリは、個々のテーブル セットだけでなく、あるテーブル セットから別のテーブル セットに転送するときにも優れたパフォーマンスを発揮する。

本論文では、Semantic Web Challenge on Tabular Data to Knowledge Graph Matching (SemTab 2020) の3つの意味的注釈タスク、すなわち、セル-エンティティ注釈(CEA)、列タイプ注釈(CTA)、列関係-プロパティ注釈(CPA)のためのMTab4Wikidataというシステム(MTab4Wikidata)を紹介している。特に、(1)テーブルセルのスペルミスに対応するファジーエンティティ検索、(2)曖昧なセルに対応するファジーステートメント検索、(3)Wikidataシフトの問題に対応するステートメントリッチメントモジュール、(4)マッチングタスクに対する効率的で有効な後処理を紹介する。本システムは、3つのアノテーションタスクにおいて経験則に基づく素晴らしい性能を達成し、SemTab 2020で最優秀賞を受賞した。MTab4Wikidata は、CEAとCPAの2つのタスクで1位、CTAタスクで2位を獲得しました。タスクで1位、ラウンド1、2、3データセットで2位、ラウンド4データセットで1位を獲得。とTough Tables (2T)データセットで1位を獲得した。

本論文ではDAGOBAHシステムで使用されている新しいアプローチを紹介する。DAGOBAHは、Wikidataのエンティティやリレーションを用いてテーブルに意味的なアノテーションを行い、3つのタスクを実行する。列-プロパティアノテーション(CPA)、セル-エンティティアノテーション(CEA)、列タイプアノテーション(CTA)となる。本システムでは、曖昧性解消の初期スコアがCPAの出力に影響を与え、それがCEAの出力に影響を与える。最後に、CTAは知識グラフの型階層を利用して計算され、最適な細粒度の型が列に付与される。このようにアノテーション間の相互作用を利用したアプローチにより、DAGOBAHはSemTab2020チャレンジの全タスクにおいて非常に高い競争力を獲得することができた。

本論文では、セマンティックテーブル解釈のための新しい教師なし自動化アプローチを紹介する。この手法はDBpediaとWikidataに対して実行され、他の知識グラフ(KG)にも容易に適用できる。さらに、セマンティックテーブル解釈(STI)に必要なデータを効率的に取得するためのツール(LamAPI)を提供する。表解釈(STI)タスクに必要なデータをKGダンプから効率的に取得するツール(LamAPI)を提供する。

多くの情報はテーブル内で伝達され、人間または (半) 自動アプローチによって意味的に注釈を付けることができる。それにもかかわらず、多くのアプリケーションは、品質が低いため、セマンティック アノテーションを十分に活用できない。表形式データのセマンティック アノテーションの品質評価にはいくつかの方法論が存在するが、さまざまな品質次元を通じて多次元概念として品質を自動的に評価するわけではない。品質次元は、注釈の品質評価を自動化する Web アプリケーションである STILTool 2 に実装されている。評価は、セマンティック アノテーションの品質をゴールド スタンダードと比較することによって行われる。ここで紹介する作業は、少なくとも 3 つのユース ケースに適用されている。結果は、私たちのアプローチが品質問題とその対処方法についてヒントを与えてくれることを示している。

この課題は、表形式のデータと KG のマッチング問題を処理するシステムのベンチマークを行い、同じ基準での比較と結果の再現性を容易にすることを目的としています。この課題に関する最新ニュースを共有するディスカッション グループがある。

 

 

コメント

  1. […] Webやドキュメントからの表形式データの抽出と意味注釈(SemTab)学習 […]

タイトルとURLをコピーしました