Semantic media Wiki

機械学習技術 人工知能技術 自然言語処理技術 セマンティックウェブ技術 オントロジー技術 ウェブ技術 検索技術 データベース技術 アルゴリズム デジタルトランスフォーメーション技術 Visualization & UX ワークフロー&サービス 本ブログのナビ
Semantic media Wiki

近年話題のDX(digital Transformation)のデモとして手軽に利用できるPFとしてMediaWikiがある。Mediawikiは誰もが利用した事があるウィキペディアを作る事ができるオープンソースのソフトウェアでPHPを利用してバックエンドにMySQLを使った構成となっている。DXのデモとしては、電子化されていない情報(例えば紙の状態での書類とか図面のようなもの)をOCR等の手法で電子化し、ウィキペディアの形で整理して検索できたり、共有して編集できたりできるようにするもので、電子化された時の利用シーンが具体的にイメージできるようなデモを容易にに作れるものとなる。

MediaWikiの環境設定と立ち上げに関しては”MAMPとmedia wikiの立ち上げと簡単な使い方“にて述べているのでそちらを参照のこと。

Semantic MediaWikiはこのMediaWIkiの中にRDF(Resource Description Framework)と呼ばれる、ウェブ上にあるリソースのメタデータを記述するための枠組みを埋め込むことで、他のwebシステムとシームレスで接続可能な知識管理システムに変えることができるシステムである。Semantic MediaWikiのサンプルページほ以下に示す。

一般的なMediaWikiと外観は似ているが、コンテンツを外部からクエリして持ってくる「インラインクエリ」、さまざまな形態の「セマンティックフォーム」、コンテンツの整理のための「セマンティックドリルダウン」、動画の埋め込み機能である「mediawikiウィジェット」等の拡張機能が実装されている。

参考図書としては「Working with MediaWiki, 2nd edition」、「MediaWiki: Wikipedia and Beyond」等がある。前者は、立ち上げから一通りの使いこなしまでまとめられており、mediawikiを使ってみたい人には使いやすい参考書になると思う。

Working with MediaWiki 2nd editionの16章がSemantic Mediawikiの章となる。以下に16章の序文の抜粋を掲載する。

Semantic MediaWiki

Semantic MediaWikiはMediaWikiの非常に重要な拡張機能です。wikiにデータを保存して、それをクエリするためのフレームワークを定義します – これはしばしばテキストとイメージのための単なる保存システムと考えられているwikiを、よりデータベースのようなものに変える効果があります。SMWは略称で、それだけでも素晴らしいのですが、スピンオフの拡張機能と一緒に使うことで、(あえて言えば)魔法のような機能を発揮するようになるのです。SMWには50以上のスピンオフ拡張機能があり、データの入力からブラウジングや検索、可視化、拡張ストレージなど、あらゆる側面をカバーしています。拡張機能の中には、より人気のあるものもありますが、本書では、最も必要な拡張機能を取り上げます。

SMWは、その拡張機能を併用することで、通常のWikiを一種の共同データベースへと変貌させることができます。なぜなら、Wikiに保存されたバージョン履歴は、すべてのデータの編集を何人にも開放できることを意味するからです-これは、標準的なデータベースに支えられたアプリケーションではほとんど不可能なことなのです。

なぜ “Semantic MediaWiki “と呼ばれているのですか?「セマンティック」とは、最も一般的な形で、意味を示す言葉です。テキストの表示や正確な言い回し(すなわち「構文」)ではなく、その根底にある意味を示します。現代の文脈では、2000年代前半から半ばにかけて「セマンティックウェブ」という言葉が話題になった。皮肉なことに、「セマンティックウェブ」という言葉の意味自体が曖昧である(こちらを参照)。しかし、その背後にある主な考え方は、読者がオンラインで目にするテキストの根本的な意味、つまり、人間や機械によって再利用・処理できる意味を突き止めることである。そしてそれは、セマンティックMediaWikiの背後にある主なアイデアでもあります。

Semantic MediaWikiは最も重要なMediaWikiの拡張機能ではないかもしれません(ParserFunctionsがそのタイトルを持っているでしょう)が、明らかにそれ自身の最大の生命を持っているものです。50以上の拡張機能に加えて、ユーザーと開発者の活発なコミュニティがあり、少なくともそのうちの何人かは、自分たちを第一にSMWのユーザー、第二にMediaWikiのユーザーと考えています。2012年現在、SMWは500から1,000のWikiで利用されており、その数は常に増え続けています。SMWは独自のウェブサイト(semantic-mediawiki.org)、メーリングリスト、IRCチャンネルを持ち、独自のカンファレンス(年2回のSMWCon)も開催されています。他のMediaWikiの拡張機能で、これに匹敵するものはありません。

Semantic MediaWikiは2005年にMarkus KrötzschとDenny Vrandečićによって作成されました。もともとはウィキペディアのための機能として、ウィキペディア上の何十万もの手作業で生成されたリストとカテゴリーを不要にするためのデータ保存方法として考え出されました。通常のMediaWikiでの使用は、少なくとも当初は、その作成者にとって二次的な重要性に過ぎませんでした。ウィキメディア財団がSMWについて「様子見」の態度をとる一方で、通常のウィキ利用者がその利点を発見し、この技術を受け入れ始めたため、それはすぐに変わりました。しかし、2012年半ばに始まったウィキデータ・プロジェクト(Vrandečićが代表を務める)によって、当初の夢は実現するかもしれません。ウィキデータは非常にエキサイティングなプロジェクトで、異なる言語のウィキペディアすべてに単一のデータリポジトリを作成し、構造化データ(インフォボックス、他言語へのリンクなど)を自動的に入力できるようにすることを目的としています。セマンティックメディアウィキのバックエンドストレージを扱うコードの一部は、おそらく「DataValues」という名前の別のライブラリに分離され、SMWとウィキデータの両方がデータの保存にこの新しいライブラリを使用することが計画されています。

現在計画されているウィキデータの構造は、SMWが当初ウィキペディアで使用するために提案された方法とはかなり異なっています。これは、ウィキデータが何百もの言語を同時にサポートすることを意図しているという事実によるところが大きいです。そして、ウィキデータによるデータの保存や問い合わせのための構文は、ほとんどの場合、標準的なSMWの構文とは全く異なるものになるでしょう。ですから、WikidataのストレージコンポーネントがSMWに由来するコードになるという事実を、あまりに過大評価することは可能です。それでも、もしウィキデータが成功すれば、セマンティックメディアウィキの知名度をかなり上げることになるかもしれません。これはウィキデータの主な目標である、世界の歴史上最大の一般知識情報の構造化データベースを作成するための良い副次的効果になるでしょう。

しかし、ウィキデータについてはもう十分です。この章の残りの部分では、通常のウィキで使われるセマンティックメディアウィキに焦点を当て、それが提供できる多くの利点を説明します。もしあなたがコアMediaWikiについて読むためだけにこの本を手に入れたのであれば、できれば次の章も読んでほしいと思います。

How SMW works:an example

例えば、ワインに関するWikiがあるとします。さて、あなたは南フランスで栽培されているすべてのシャルドネワインのリストを見ることができるようにしたいと思います。典型的なwikiでは、それがWikipediaであろうと何であろうと(大部分はMediaWikiでないwikiでも)、基本的に二つのオプションがあります: いくつかのwikiページで手動でそのリストをコンパイルするか、すべてのそうしたページ(すべてのワインについてのページがあると仮定します)に「南フランスのChardonnay wines」などのカテゴリでタグ付けすることができます。

この2つのタイプのアクションはWikipediaで常に行われていますし、他の多くのWikiでも同様に行われています。最初の選択肢は、手作業でリストを作成するもので、多くの労力を要し、そのリストを必要とする新しいワインページが追加されるたびに、あるいは何らかのエラーが発見されるたびに修正する必要があります。2つ目のケースでは、リスト(カテゴリーページ)は自動的に生成されますが、情報は各ページに丹念に追加される必要があります。また、ユーザーにそれを期待するのであれば、カテゴリーの追加方法やカテゴリーの名称(「the South of」なのか「Southern」なのか)、一般的には理想的なデータ構造のあり方について、的確な指示を与える必要があります。ウィキに掲載されている国には、たとえ1、2種類のワインしかない国でも「シャルドネ」カテゴリがあるべきでしょうか?逆に、多くのワインを生産している国や地域は、さらに年ごとに分けるべきでしょうか?あるいは、年号は別のカテゴリーにタグ付けされるべきでしょうか?

Semantic MediaWikiは、この問題の解決策を提供します。リストをコンパイルしたり、カテゴリの過負荷を持つ代わりに、ワインページに置かれることを意図した単一のインフォボックステンプレートを定義することができます。そのため、大規模でおそらく無秩序なカテゴリーのセットを管理する代わりに、データ構造をシンプルに保ち、複雑な部分はデータを表示するクエリーに移動させることができます。

インフォボックスについては、ユーザーがインフォボックスの追加や入力の方法を学ぶのはまだ難しいのではないでしょうか。その点、次の章で取り上げるSemantic Formsエクステンションは、ユーザーがデータを作成・変更するために基礎となるwikitext構文を見る必要がないようなフォームを提供します。

最後に、SMWと他のSMWベースの拡張機能を組み合わせることで、単にリストやカテゴリで情報を表示する以上のことが可能になります。情報をテーブルで表示したり、ワインをamapで表示したり、国や年などでワインを集約してその内訳を表示したり、ユーザーが興味のあるワインを見つけるためにこれらのフィールドすべてでファセット検索ができるようにしたりできます。」

 

コメント

  1. […] 内容としては、企業内のデータをリンクドデータとしてハンドリングする為の、セマンティックウェブ技術の概要と、実際の応用として、車両オントロジー、自動車オントロジー(ダイムラークライスラーでの主に販売のシーンを想定したもの)、Semantic Media Wiki、図書館情報への適用、マルチメディアへの適用等が述べられている。 […]

  2. […] Semantic Media Wiki WikiのSemantic Web拡張 […]

  3. […] Semantic Media Wiki WikiのSemantic Web拡張 […]

タイトルとURLをコピーしました