検索技術について

機械学習技術 人工知能技術 自然言語処理技術 セマンティックウェブ技術 オントロジー技術 検索技術 データベース技術 アルゴリズム デジタルトランスフォーメーション技術 Visualization & UX ワークフロー&サービス ITインフラ技術 Javascript CSS DXの事例 本ブログのナビ
  1. 検索技術
    1. 概要
    2. 実装
        1. ランキングアルゴリズムの概要と実装例について
        2. ランダムフォレストランキングの概要とアルゴリズム及び実装例
        3. 多様性促進ランキングの概要とアルゴリズム及び実装例
        4. 探索的ランキングの概要とアルゴリズム及び実装例
        5. Maximum Marginal Relevance (MMR)の概要とアルゴリズム及び実装例について
        6. 検索システムの概要とElasticsearchを中心とした実装例について
        7. ElasticSearchのプラグインの活用と実装例
        8. マルチモーダル検索へのElasticSearchと機械学習の適用と実装
        9. Elasticsearch と機械学習
        10. 検索ツールFESS 5分で立ち上げられるOSS検索ツール
        11. エラスティックサーチ(Elastic Search)について 概要
        12. 検索ツールElastic Search 参考図書紹介
        13. 検索ツールElastic Search -ElasticSearchの立ち上げ
        14. 検索ツールElastic Search -UI(reactivesearchとの連携:基本)
        15. 検索ツールElastic Search(4) UI(reactivesearchとの連携:応用)
        16. マイクロサービスを含めたシステム運用監視の為のElasticStashの活用
        17. ページランクアルゴリズム 検索エンジンの結果並べ替え
        18. Unityの概要と外部システムとの連携について
        19. LaravelとPHPの概要と実装手順
        20. RAG(Retrieval-Augmented Generation)の概要とその実装例について
        21. ChatGPTやLanChainを用いたRAGの概要と実装例について
  2. 概要
      1. 検索技術の参考図書 「情報検索の基礎」、「検索の新地平」
      2. 情報検索のためのユーザインタフェース
  • アルゴリズム
      1. 検索エンジンのマッチングアルゴリズム 検索エンジンの文字列マッチング
      2. ページランクアルゴリズム 検索エンジンの結果並べ替え
      3. n-gramについて 文字列マッチングの手法
      4. 画像からの物体検出
      5. 画像検索(1)BoVWを用いた画像検索
      6. インスタンス認織と検索(2)一般的な画像検索
  • 応用
      1. セマンティックウェブで検索エンジンはアンサーエンジンへと進化する(外部リンク)
      2. 意味的なアノテーション、索引付け、および検索(外部リンク)
      3. セマンティックウェブにおけるクエリ結果の順位付けのためのアプローチ
      4. TRIPLEビューを用いたセマンティックWebリソースのクエリ
      5. コンテンツリッチなHTMLドキュメントの自動アノテーション: 構造解析と意味解析
      6. セマンティック・ウェブのためのオン・ザ・フライ・クエリの生成。ICS-FORTH Graphical RQL Interface (GRQL)
      7. その他論文
  • 検索技術

    概要

    コンピューター技術のベースとなる”情報”。情報はただ集めるだけでは意味がなく、集めた情報から創造的な活動を行うには、「集める」「探す」「見つける」「眺める」「気づく」というサイクルを回す必要がある。これらにはそれぞれ対応する技術や思想が存在する。今回は「探す」技術(検索技術)について述べる。

    本ブログでの検索技術に関する記述は以下となる。

    実装

    ランキングアルゴリズムの概要と実装例について

    ランキングアルゴリズムの概要と実装例について。ランキングアルゴリズムは、与えられたアイテムの集合を、ユーザーにとって最も関連性の高い順に並べ替えるための手法であり、検索エンジン、オンラインショッピング、推薦システムなど、さまざまな分野で広く使用されているものとなる。ここでは、一般的なランキングアルゴリズムの概要について述べる。

    ランダムフォレストランキングの概要とアルゴリズム及び実装例

    ランダムフォレストランキングの概要とアルゴリズム及び実装例。ランダムフォレスト(Random Forest)は、機械学習の分野で非常に人気のあるアンサンブル学習法(複数の機械学習モデルを組み合わせることで、個々のモデルよりも優れた性能を得る手法)の一つであり、複数の決定木(Decision Tree)を組み合わせて、より強力なモデルを構築するアプローチとなる。ランダムフォレストを利用して特徴量のランキングを行う際、さまざまなバリエーションが存在している。

    多様性促進ランキングの概要とアルゴリズム及び実装例

    多様性促進ランキングの概要とアルゴリズム及び実装例。多様性促進ランキング(Diversity-Promoting Ranking)は、情報検索や推薦システムなどで重要な役割を果たす手法の一つであり、この手法は、ユーザーが情報検索結果や推薦されるアイテムのリストをより多様でバランスの取れたものにすることを目的としたものとなる。通常、ランキングの目的は、ユーザーの関心に合ったものを上位に表示するが、このときに同じような内容や特徴を持つアイテムが上位に複数表示されることがある。例えば、商品の推薦システムであれば、似たような商品や同じカテゴリの商品が上位に並ぶことがよくある。しかし、これらのアイテムが類似しているため、ユーザーの興味を十分にカバーすることができず、情報の偏りや選択肢の制約をもたらす可能性があり、このような問題に対処するために、多様性促進ランキングが使用されている。

    探索的ランキングの概要とアルゴリズム及び実装例

    探索的ランキングの概要とアルゴリズム及び実装例。探索的ランキング(Exploratory Ranking)は、情報検索や推薦システムなどの順位付けタスクにおいて、ユーザーが関心を持つ可能性の高いアイテムを特定するための手法となる。この手法は、ユーザーが与えたフィードバックに基づいて、順位付けされたアイテムの中からユーザーが最も関心を持つアイテムを見つけることを目的としている。

    Maximum Marginal Relevance (MMR)の概要とアルゴリズム及び実装例について

    Maximum Marginal Relevance (MMR)の概要とアルゴリズム及び実装例について。Maximum Marginal Relevance(MMR)は、情報検索や情報フィルタリングのためのランキング手法の1つで、情報検索システムがユーザーに提供する文書のランキングを最適化することを目的としたものとなる。MMRは、複数の文書の中からユーザーの関心に関連する文書を選択するための方法として開発された。この手法では、各文書の関連性と多様性の両方を考慮してランキングを行い、具体的には、文書の関連性が高いが他の選択肢との類似性が低い文書を選択することを重視したものとなる。

    検索システムの概要とElasticsearchを中心とした実装例について

    検索システムの概要とElasticsearchを中心とした実装例について。検索システムは、与えられたクエリに基づいてデータベースや情報源を検索し、関連する結果を返すシステムとなり、情報検索、画像検索、音声検索など、さまざまな種類のデータを対象とすることができるものとなる。検索システムの実装には、データベース管理、検索アルゴリズム、インデックス作成、ランキングモデル、ユーザーインターフェースなどの要素が関与し、さまざまな技術やアルゴリズムが利用され、特定の要件やデータの種類に応じて適切なアプローチが選択される。

    ここではElasticsearchを中心とした具体的な実装例について述べている。

    ElasticSearchのプラグインの活用と実装例

    ElasticSearchのプラグインの活用と実装例。Elasticsearchは、オープンソースの分散型検索エンジンであり、高速なテキスト検索やデータ分析を可能にするための多くの機能を提供している。また、Elasticsearchの機能を拡張するための様々なプラグインも利用できる。ここではこのプラグインと具体的な実装について述べている。

    マルチモーダル検索へのElasticSearchと機械学習の適用と実装

    マルチモーダル検索へのElasticSearchと機械学習の適用と実装。マルチモーダル検索は、複数の異なる情報源やデータモダリティ(例: テキスト、画像、音声など)を統合し、ユーザーが情報を検索・取得するための手法となる。このアプローチにより、複数の情報源から得られる情報を効果的に組み合わせて、より多角的で豊かな検索結果を提供することが可能となる。ここではこのマルチモーダル検索に対して、Elasticsearchを用いたもの、更に機械学習技術を用いたものについての概要と実装について述べている。

    Elasticsearch と機械学習

    Elasticsearch と機械学習。Elasticsearchは、検索、分析、およびデータ可視化のためのオープンソースの分散型検索エンジンであり、機械学習(Machine Learning, ML)技術も統合されており、データ駆動型のインサイトや予測を実現するために活用することができるプラットフォームとなっている。ここではこのElasticsearchでの機械学習技術の様々な活用と具体的な実装について述べている。

    検索ツールFESS 5分で立ち上げられるOSS検索ツール

    検索ツールFESS 5分で立ち上げられるOSS検索ツール。短時間で立ち上げ可能な、エラスティックサーチベースの検索エンジン(クリーリング、自動インデクシング、単語登録機能等)

    エラスティックサーチ(Elastic Search)について 概要

    エラスティックサーチ(Elastic Search)について 概要。エラスティックサーチ(Elastic search)は、Elasticsearch社により、open-coreビジネスモデルで展開されている全文検索エンジンとなり、全文検索やクラスタリング等の基本機能(Apache Luceneをベースとした超高速分散処理型検索)はApacheライセンスのオープンソースプログラムとなる。

    検索モジュールであるElasticsearchは、データ収集モジュールであるLogstash、データの見える化ツールであるKibana、軽量のデータシッパーであるbeats等のElastic Stackと呼ばれるコアプロダクト群をJSONベースのRestfulな通信モジュールでつなげてシステムを組むことが可能で、検索だけでなく、収集、分析、可視化の処理を行うことができる。

    検索ツールElastic Search 参考図書紹介

    検索ツールElastic Search 参考図書紹介。エラスティックサーチ(Elastic search)技術の参考図書である「高速スケーラブルエンジン・エラスティックサーチ・サーバー」の紹介

    検索ツールElastic Search -ElasticSearchの立ち上げ

    検索ツールElastic Search -ElasticSearchの立ち上げ。エラスティックサーチの立ち上げのための環境設定の手順

    検索ツールElastic Search -UI(reactivesearchとの連携:基本)

    検索ツールElastic Search -UI(reactivesearchとの連携:基本)。nodeとreact上で構築されるエラスティックサーチのUI(reactive searchの立ち上げ)

    検索ツールElastic Search(4) UI(reactivesearchとの連携:応用)

    検索ツールElastic Search(4) UI(reactivesearchとの連携:応用)前回に引き続き、reactivesearchのUIの応用について述べる。

    マイクロサービスを含めたシステム運用監視の為のElasticStashの活用

    マイクロサービスを含めたシステム運用監視の為のElasticStashの活用。「Microservice with Clojure」より。今回はマイクロサービスシステム運用監視の為のElasticStashの活用について述べる。ここで述べた監視システムはマイクロサービスシステム以外にも広く適用可能となる。ElasticStashを用いた検索エンジンへの活用は”検索ツールElasticsearch -立ち上げ手順“等に詳細述べているのでそちらも参照のこと。

    ページランクアルゴリズム 検索エンジンの結果並べ替え

    ページランクアルゴリズム 検索エンジンの結果並べ替え。検索エンジンのアルゴリズムのうち、googleを飛躍的に発展させた検索順位を決定するページランクアルゴリズムについて。

    Unityの概要と外部システムとの連携について

    Unityの概要と外部システムとの連携について。Unityは、Unity Technologiesによって開発され、広く使用されているゲーム開発やアプリケーション開発のための統合開発環境(IDE)となる。Unityはゲーム、VR、AR、シミュレーション等様々な領域で利用されている。ここでは、このUnityとCMS、chatbot、ES、機械学習、自然言語処理等の人工知能システムとの連携について述べている。

    LaravelとPHPの概要と実装手順

    LaravelとPHPの概要と実装手順。PHP(Hypertext Preprocessor)は、Web開発のためのスクリプト言語であり、主にサーバーサイドで動作し、HTMLコードの埋め込みやデータベースへのアクセス、フォームの処理など、動的なWebページの作成やWebアプリケーションの開発に使用されるものとなる。そのフレームワーク野中でLaravelは、PHPの最も人気のあるものとなる。

    ここではLaravelを使った具体的な実装(mediawikiとの連携、cahtbot、Elasticsearchとの連携)について述べている。

    RAG(Retrieval-Augmented Generation)の概要とその実装例について

    RAG(Retrieval-Augmented Generation)の概要とその実装例について。RAG(Retrieval-Augmented Generation)は、自然言語処理(NLP)の分野で注目されている技術の1つであり、情報の検索(Retrieval)と生成(Generation)を組み合わせることで、より豊かなコンテキストを持つモデルを構築する手法となる。RAGの主な目的は、生成タスク(文章生成、質問応答など)において、検索された情報を活用してより質の高い結果を生成することであり、通常の言語モデルは、与えられたコンテキストのみを考慮して生成を行うが、RAGは外部の情報を取り込むことで、より幅広い知識や文脈を利用することができるという特徴がある。

    ChatGPTやLanChainを用いたRAGの概要と実装例について

    ChatGPTやLanChainを用いたRAGの概要と実装例について。RAGの基本構成は、入力QueryをQuery Encoderでベクトル化し、それと類似のベクトルを持つDocumnetを見つけ、それらを使って応答を生成するもので、Query EncoderとDocumentのベクトル化と、回答の生成に生成系AI(ChatGPT)を用い、ベクトル化したDocumentの格納と類似文書の検索にはベクトルDBを用いるものとなる。それらの機能の中で、生成系AIに関しては”ChatGPTとLangChainの概要及びその利用について“に述べているように、ChatGPTのAPIを用いるかLanChainを用い、データベースに関しては”ベクトルデータベースの概要について“を用いることが一般的となる。今回はそれらを用いた具体的な実装について述べる。

    概要

    検索技術の参考図書 「情報検索の基礎」、「検索の新地平」

    検索技術の参考図書 「情報検索の基礎」、「検索の新地平」検索技術の参考図書の紹介。一つは検索技術に関するHOWが網羅的にまとめられており、実際に検索モジュールを構築する際には非常に役に立つ参考図書となっている「情報検索の基礎」。

    もう一つは「検索の地平」で従来のテキスト文字検索の説明から始まり、画像・映像検索の進化、空間・時間の検索の進化とそれらのナビゲーションについて述べられている。テキスト検索の進化の方向性として、現在DX化の観点から注目されている画像・映像等の非構造データの検索や、空間や時間の検索が来ることは順当な推移と考えられるが、時間軸の検索に対して、単なるタイムスタンプのついた情報の検索に留まらず情報の内容(自然言語処理)に基づいた空間的・時間的つながりを経由した検索の必要性について述べられている。

    情報検索のためのユーザインタフェース

    情報検索のためのユーザインタフェース。本書は利用者がGoogle, Yahoo!などのWeb検索エンジンや情報検索システムを使用する際に,必要な情報をストレスなく適切に取得するためのユーザインタフェース技術を体系的に論じた Search User Interfaces(Cambridge University Press, 2009)を翻訳したものである。著者のMarti A. Hearst氏はカリフォルニア大学バークレー校情報スクール(School of Information)の教授であり,ユーザインタフェース分野において顕著な業績を有している。Hearst教授はコンピュータの基礎技術を数多く発明したことで有名な米国シリコンバレーのXerox PARC (Palo Alto Research Center)における研究経験もあり,Webが今日のように一般ユーザに身近になる過程で,遂げてきた発展について,実例を用いて体系的に整理している。これまで,情報検索技術とユーザインタフェース技術を総合的に論じた書籍は存在せず,その意味でも原著はWeb情報検索時代の画期的な名著と言えるだろう。

    アルゴリズム

    検索エンジンのマッチングアルゴリズム 検索エンジンの文字列マッチング

    検索エンジンのマッチングアルゴリズム 検索エンジンの文字列マッチング。検索エンジンの文字列マッチングアルゴリズム(n-gram、メタワードインデクシング等)の紹介

    ページランクアルゴリズム 検索エンジンの結果並べ替え

    ページランクアルゴリズム 検索エンジンの結果並べ替え。検索エンジンのアルゴリズムのうち、googleを飛躍的に発展させた検索順位を決定するページランクアルゴリズムについて。

    n-gramについて 文字列マッチングの手法

    n-gramについて 文字列マッチングの手法。検索エンジンのパターンマッチング等でも使われる自然言語処理手法のn-gramについて

    画像からの物体検出

    画像からの物体検出物体検出では、人や車などの物体を取り囲む四角い領域を画像中かに発見することを目的としている。物体検出の多くの手法では、物体領域候補を複数提案し、物体クラス認識の手法を用いて、それらの領域がどの物体に分類されるのかを判断する。画像から提案される物体領域候補は膨大となる場合が多く、物体クラス認識では計算コストの低い手法がよく利用される。

    画像から物体領域候補を提案する手法としては、スライディングウィンドウ法、選択検索法、分岐限定法がある。またそれらを分類する手法としてはExampler-SVM、ランダムフォレスト、R-CNN(regious with CNN feature)等がある。

    画像検索(1)BoVWを用いた画像検索

    画像検索(1)BoVWを用いた画像検索クラス認識は対象物体の属するクラスを予測することになるが、インスタンス認織は対象物体そのものを特定するタスクとなる。インスタンス認織の中心となる課題として、入力画像からデータベース内の画像をすばやく探す画像検索問題がある。インスタンス認識(instance recognition)は、東京タワーを見て電波塔と認織するのではなく、東京タワーとして認織するような対象物体そのものを特定するものとなる。これらは、入力画像内の物体と同じ物体が写る画像をデータベースから探し出すことで実現できる。

    インスタンス認織の実現方法は以下のようになる。1蓄積された画像群から局所特徴を抽出し、画像データベースを作成する、2クエリ画像の局所特徴を抽出する、3クエリ画像の局所特徴を一つ取り上げ、画像データベースの全局所特徴と比較する。もっとも類似した局所特徴を持つデータベース内の画像に1票投じる。この投票を入力画像がもつ局所特徴全てに行う、データベース内で最も票を獲得した画像の物体を、クエリ画像の物体として認識する。

    インスタンス認織と検索(2)一般的な画像検索

    インスタンス認織と検索(2)一般的な画像検索特徴ベクトルxで表現された画像に近い画像をデータベースの中から探してくる問題は、類似画像検索(similar image search)や画像リトリーバル(image retrieval)と呼ばれ、インスタンス認識における中心課題の一つとなる。

    画像検索を実現する最も単純な方法は、クエリ画像とデータベース内のすべての画像と距離を測り、昇順にソートすることデータベース内の画像をランキングするものとなる。ここで、データベース内の画像数が膨大になると、この手法では計算時間がかかりすぎるため現実的ではなくなる。そこで効率的な検索方法として、木構造を用いた手法、バイナリコード変換を用いた手法と、直積量子化を用いた手法について述べる。

    応用

    セマンティックウェブで検索エンジンはアンサーエンジンへと進化する(外部リンク)

    セマンティックウェブで検索エンジンはアンサーエンジンへと進化する(外部リンク)。Semantic Technology & Business Conferenceでの講演の記事。従来の検索(セマンティックが組み込まれていない、「言及・参照」がベース、簡単に操作される、予測的または統計的)に対して、ユーザーが本当に求めているものは(欲しいもの、欲しいとき、正確さ(信頼できるか、参考になるか)、手に入るか)を提示して、セマンティックのマークアップを使って、変化する検索(意味の理解、事前に予測、パーソナライズ、会話型)を示している

    意味的なアノテーション、索引付け、および検索(外部リンク)

    意味的なアノテーション、索引付け、および検索(外部リンク)セマンティックウェブの実現は、世界に関する形式的な知識にリンクされたウェブコンテンツのメタデータが大量に利用可能であるかどうかにかかっている。この論文では、実世界の実体に関する文書の注釈、索引付け、検索を可能にする全体的なシステムについての我々のビジョンを示す。また、このコンセプトを部分的に実装したシステム(KIMと呼ぶ)を簡単に紹介し、評価とデモに使用する。我々の理解では、意味的注釈のためのシステムは、存在論的コミットメントや一般知識に無関心なのではなく、世界に関する特定の知識に基づいているべきであるということである。メタデータの効率と再利用性を保証するために、我々はいくつかの基本的な哲学的区別から始まり、最も一般的なエンティティタイプ(人、会社、都市など)に至るまで、単純化した上位レベルのオントロジーを導入した。このオントロジーに基づき、エンティティ記述の広範な知識ベースが維持される。オントロジーのクラスと知識ベースのインスタンスへの参照を自動的にアノテーションする、意味的に強化された情報抽出システムが発表された。これらのアノテーションに基づき、IR的な情報抽出を行う。特定のエンティティに関するオントロジーと知識を用いてさらに拡張した索引付けと検索を行います。

    セマンティックウェブにおけるクエリ結果の順位付けのためのアプローチ

    セマンティックウェブにおけるクエリ結果の順位付けのためのアプローチ

    TRIPLEビューを用いたセマンティックWebリソースのクエリ

    TRIPLEビューを用いたセマンティックWebリソースのクエリセマンティックウェブ上のリソースは、何らかの公式または非公式なオントロジーに関連するメタデータによって記述される。しかし、一般ユーザがドメインオントロジーを詳しく知らないことはよくあることである。このため、関連するリソースを見つけるためにこのオントロジーでクエリを作成することは困難である。ユーザは自分の文脈でリソースを考えるので、ユーザ固有の見解に対応するオントロジーでクエリを作成することが最も簡単な解決策である。我々は、単純なオントロジーで表現された複数のビューに基づくアプローチを提示する。これにより、ユーザは複数の比較的単純なビューオントロジーを用いて、異種データリポジトリへの問い合わせを行うことができる。オントロジー開発者がこのようなビューをオントロジー上で定義する方法と、それに対応するマッピングルールを紹介する。これらのオントロジーは、RDFS、DAML+OIL、OWLなどのセマンティックWebオントロジー言語で表現される。我々は、セマンティックウェブクエリおよび変換言語TRIPLEを用いたeラーニング領域の例で、我々のアプローチを紹介する。

    コンテンツリッチなHTMLドキュメントの自動アノテーション: 構造解析と意味解析

    コンテンツリッチなHTMLドキュメントの自動アノテーション: 構造解析と意味解析RDF/XMLはウェブ上で意味情報を表現するための標準的な手段として広く認知されていますが、膨大な量の意味情報が、主に人間が消費するために設計され、機械処理に直接従わないHTML文書で符号化されているのが現状です。本論文では、HTML文書に自動的に意味ラベルを付与するという基本的な問題に取り組むことで、この意味的ギャップを埋めようとするものである。テンプレートベースのコンテンツリッチなHTML文書において、意味的に関連する項目が空間的な局所性とともに表示スタイルの一貫性を示すという重要な観察結果を利用し、このような文書を自動的に意味的構造に分割する新しい枠組みを開発した。このフレームワークは、文書の構造分析と、ドメインオントロジーやWordNetのような語彙データベースを用いた意味分析を緊密に連携させるものである。本論文では、様々なニュースポータルサイトから収集した大量のHTML文書を用いて、我々の技術が有効であることを示す実験的証拠を示す。

    セマンティック・ウェブのためのオン・ザ・フライ・クエリの生成。ICS-FORTH Graphical RQL Interface (GRQL)

    セマンティック・ウェブのためのオン・ザ・フライ・クエリの生成。ICS-FORTH Graphical RQL Interface (GRQL)宣言型クエリ/ビュー言語の表現力を生かしながら、RDF/S記述ベースを閲覧・フィルタリングするための使いやすいGUIを構築することは、様々なセマンティックWebアプリケーション(eラーニング、eサイエンスなど)にとって重要である。この論文では、RDF/Sデータモデルをフルに活用し、RQLで表現されたクエリをオンザフライで構築するGRQLと呼ばれる新しいインターフェースを紹介する。より正確には、ユーザーは個々のRDF/Sクラスおよびプロパティ定義をグラフィカルにナビゲートし、関心のあるリソースにアクセスするために必要なRQLパス表現を透過的に生成することができる。これらの式は、クラス(またはプロパティ)のサブサンプションやアソシエーションを介したナビゲーションのステップの意味を正確に捉えています。さらに、ユーザは生成されたクエリを、現在訪問しているクラスの属性に対するフィルタリング条件によって拡張することができ、クエリ結果に現れるリソースのクラス(複数可)を容易に指定することができます。私たちの知る限り、GRQL はアプリケーションに依存しない最初の GUI であり、ユーザ・ナビゲーション・セッション全体の累積効果を捕捉するユニークな RQL クエリを生成することができます。

    その他論文

    ファセット検索とクエリは、セマンティックWebを検索するための2つのよく知られたパラダイムである。SPARQLのようなクエリ言語はRDFデータセットを検索するための表現力を提供するが、使いこなすのは困難である。クエリ支援ツールは、ユーザーが正しい形式のクエリを書けるように支援するが、空の結果を防ぐことはできない。ファセット検索は、探索的検索、すなわち、ユーザーに豊かなフィードバックを返し、行き止まり(空の結果)に陥るのを防ぐガイド付きナビゲーションをサポートする。しかし、ファセット化された検索システムは、クエリ言語と同じ表現力を提供するものではない。そこで、この2つのパラダイムを調和させるために、表現力豊かな問い合わせ言語とファセット検索を組み合わせたQFS (Query-based Faceted Search) を導入する。本論文では、既存の意味的ファセット検索システムを一般化し、SPARQLのほとんどの機能をカバーする問合せ言語LISQLを紹介する。プロトタイプであるSewelis (別名Camelis 2) を実装し、ユーザビリティ評価を行った結果、QFSはファセット検索の使いやすさを維持し、ユーザが少ないトレーニングで複雑なクエリを構築できることが示された。

    RDFデータベースに対するキーワード検索の効果的な技術は、キーワードクエリのキーワードを構造化されたクエリ構成にマッピングする明示的な解釈段階を組み込んでいる。キーワードクエリは曖昧であるため、キーワードクエリに対して一意な解釈を生成できないことが多い。そのため、ユーザが意図した解釈を上位K位まで生成するためのヒューリスティックが提案されている。しかし、現在提案されているヒューリスティックは、ユーザ依存の特性を捉えることができず、キーワードをつなぐ部分グラフパターンの出現頻度など、データベース依存の特性に依存している。このため、ユーザの意図に沿わないtop-K解釈を生成してしまうという問題がある。本論文では、キーワード問い合わせ解釈のために、ユーザの問い合わせ文脈に基づいて解釈プロセスをパーソナライズするコンテキストウェアのアプローチを提案する。本アプローチは、クエリ履歴のキーワードクエリの解釈に対応する一連の構造化クエリを、新しいクエリの解釈にバイアスをかけるための文脈情報として利用するという新しい問題に取り組むものである。DBPediaデータセットを用いた実験の結果、本アプローチは効率と効果の両面において最先端技術を凌駕することが示された。特に曖昧なクエリに対して有効である。

    トリプルストアは長い間、RDFストレージと、SPARQLのような表現力豊かで正式なクエリ言語を用いたデータアクセスを提供してきた。しかし、セマンティックWebの新しいエンドユーザーはSPARQLをほとんど知らず、データ検索には不正確で非公式なキーワードクエリを圧倒的に好みます。同時に、セマンティックウェブ上のデータ量は、SPARQLの完全な表現力をサポートするアーキテクチャの限界に近づきつつあります。これらの要因が相まって、セマンティック検索、すなわち情報検索手法を用いたRDFデータへのアクセスへの関心が高まっている。本研究では、RDFデータに対して効果的かつ効率的な実体検索を行うための手法を提案する。BM25Fランキング関数のRDFデータへの適応を説明し、RDFリソースのランキングにおいて他の最先端手法を凌駕することを実証する。また、結果の効率的な検索とランキングのための新しいインデックス構造のセットを提案する。これらの成果は、オープンソースのMG4Jフレームワークを用いて実装する。

    ウェブコンテンツにおける知識の相互作用は、困難な問題である。例えば、データの周りに意味のあるコンテキスト境界を描くことによって、知識をフィルタリングすることができる複雑な構造を扱う必要がある。我々は、これらの複雑な構造は、知識パターン(KP)、別名フレームとして形式化できると仮定している。この博士課程では、ウェブからKPを抽出する方法を開発し、KPを探索的な検索タスクに適用することを目的としている。ウィキペディアのような豊富なリソースからウェブリンクの構造を分析することによって、KPを抽出したいと考えています。

    近年、ウェブ検索エンジンは、実体に関する複雑な情報ニーズの高まりに対応するため、知識グラフを用いた検索を強化している。各検索エンジンはオンライン知識グラフサービスを提供し、クエリの実体に関する関連性の高い情報を、知識カードと呼ばれる構造化された要約の形で表示する。異なるエンジンからのカードは補完的である可能性がある。したがって、包括的なビューを得るためには、これらのエンジンからの知識カードを融合させる必要がある。このような問題は、オントロジーアライメントの新しい分野と考えることができ、実際には、ユーザのニーズに基づいたオンザフライのオンラインデータ融合である。本論文では、知識カード融合に取り組む最初の試みを紹介する。我々は、カードが参照すべき最も可能性の高いエンティティを選択するために、カード曖昧性解消のための新しい確率的スコアリングアルゴリズムを提案する。次に、同じ実体を表すカードの特性を整合させるための学習ベースの手法を設計する。最後に、整合されたプロパティの等価値を値クラスタとしてグループ化するために、値の重複排除を行う。実験の結果、我々のアプローチは精度および想起率の点で、最新のオントロジーアライメントアルゴリズムを凌駕することが示された。

    コメント

    1. […] 前回に続いて紹介するのは共立出版より出されている「情報検索の基礎」。この本には検索技術に関するHOWが網羅的にまとめられており、実際に検索モジュールを構築する際には非常に役に立つ参考図書となっている。 […]

    2. […] 次回は、これらの技術の中で重要な役割を示す検索技術について述べる。 […]

    3. […] まず、第二章「検索エンジンのインデクシング-世界最大の葛山から針を探す」について。検索技術に関しては以前も少し述べたが、webの検索には下記のように2段階の技術が用いられている。 […]

    4. […] 検索技術については以前にも概要を述べた。今回はその中でもグーグルを現在の位置に押し上げた検索の革新的なアルゴリズムであるページランク技術について述べる。これは、前回述べた検索エンジンの2つの要素のうちの後半部分の検索結果のランク付け技術になる。 […]

    5. […] 本書では、オントロジーやセマンティックウェブ技術を適用することで情報の相互運用性を可能にし、法的情報の検索性の向上や法的知識の再利用性の向上を図ることを目的とした、意味的に強化された法的知識システムやウェブベースのアプリケーションを作るためのオントロジー開発に用いる手法、ツール、言語に対して記述されている。またケーススタディとしてOntology of Professional Judicial Knowledge (OPJK)の開発が紹介されている。 […]

    6. […] 前述の「検索エンジンのマッチングアルゴリズム」では、対象の文書から単語を切り出し、それぞれにマッチングさせる手段を述べた。検索エンジンに用いられる他の手段としてn-gramがある。今回はそのアルゴリズムについて述べる。 […]

    7. […]    検索技術サマリー    一般的な破壊学習サマリー […]

    8. […]    検索技術サマリー    一般的な破壊学習サマリー […]

    9. […] このような時間軸上でのデータを扱う事で様々なDXや人工知能のアプリケーションを扱うことができる。またそれらの処理を行う機械学習技術としては時系列データ解析技術として各種のものがある。また、システムアーキテクチャとしてもIOT技術やデータベース、検索技術様々なアプローチがある。 […]

    10. […] 人工知能技術サマリー ウェブ技術サマリー 知識情報処理技術サマリー オントロジー技術サマリー 検索技術サマリー データベース技術サマリー ユーザーインターフェース技術サマリー […]

    11. […] 機械学習技術サマリー 人工知能技術サマリー 自然言語処理技術サマリー セマンティックウェブ技術サマリー オントロジー技術サマリー 検索技術サマリー    データベース技術サマリー  アルゴリズムサマリー  デジタルトランスフォーメーション技術サマリー   Visualization & UXサマリー   ワークフロー&サービスサマリー […]

    12. […] 機械学習技術サマリー 人工知能技術サマリー 自然言語処理技術サマリー セマンティックウェブ技術サマリー オントロジー技術サマリー 検索技術サマリー    アルゴリズムサマリー  デジタルトランスフォーメーション技術サマリー   グラフデータ処理サマリー […]

    13. […] 機械学習技術サマリー 人工知能技術サマリー 自然言語処理技術サマリー セマンティックウェブ技術サマリー オントロジー技術サマリー 検索技術サマリー    アルゴリズムサマリー  デジタルトランスフォーメーション技術サマリー    […]

    14. […] 機械学習技術サマリー 人工知能技術サマリー 自然言語処理技術サマリー セマンティックウェブ技術サマリー オントロジー技術サマリー 検索技術サマリー    アルゴリズムサマリー  デジタルトランスフォーメーション技術サマリー   グラフデータ処理サマリー […]

    15. […] 機械学習技術サマリー 人工知能技術サマリー 自然言語処理技術サマリー セマンティックウェブ技術サマリー オントロジー技術サマリー ウェブ技術サマリー 検索技術サマリー     データベース技術サマリー  アルゴリズムサマリー  デジタルトランスフォーメーション技術サマリー   Visualization & UXサマリー   ワークフロー&サービスサマリー […]

    16. […] 機械学習技術 人工知能技術 デジタルトランスフォーメーション技術 自然言語処理技術 画像処理技術 音声認識技術  強化学習技術 確率的生成モデル  ウェブ技術 知識情報処理技術 オントロジー技術 検索技術 データベース技術 ユーザーインターフェース技術 […]

    17. […] Technology Twitter Facebook はてブ Pocket LINE コピー […]

    18. […] 機械学習技術 人工知能技術 自然言語処理技術 セマンティックウェブ技術 オントロジー技術 検索技術サマリー    アルゴリズム  デジタルトランスフォーメーション技術   C/C++言語と各種機械学習アルゴリズム  グラフデータ処理 […]

    19. […] 機械学習技術 人工知能技術 ICT技術 セマンティックウェブ技術 検索技術 データベース技術 サーバー技術 ネットワーク技術 […]

    20. […] 検索技術については以前にも概要を述べた。今回はその中でもグーグルを現在の位置に押し上げた検索の革新的なアルゴリズムであるページランク技術について述べる。これは、前回述 […]

    21. […] 自然言語処理技術 セマンティックウェブ技術 オントロジー技術 検索技術 データベース技術 アルゴリズム […]

    22. […] アルゴリズム ICT技術 コンピューターアーキテクチャ ITインフラストラクチャ技術 機械学習における数学 深層学習 人工知能技術について 物理・数学 […]

    23. […] 自然言語処理技術 セマンティックウェブ技術 オントロジー技術 検索技術 データベース技術 アルゴリズム […]

    24. […] 自然言語処理技術 セマンティックウェブ技術 オントロジー技術 検索技術 データベース技術 アルゴリズム […]

    25. […] 機械学習技術 人工知能技術 ICT技術 セマンティックウェブ技術 検索技術 データベース技術 サーバー技術 ネットワーク技術 […]

    26. […] 機械学習技術 人工知能技術 ICT技術 セマンティックウェブ技術 検索技術 データベース技術 デジタルトランスフォーメーション技術 Visualization […]

    27. […] 自然言語処理技術 セマンティックウェブ技術 オントロジー技術 検索技術 データベース技術 アルゴリズム […]

    28. […] 前述の課題の解決にはAI技術と”検索技術について“で述べている検索技術を組み合わせることで解決することができる。AI技術は具体的には”自然言語処理技術“で述べて […]

    29. […] 自然言語処理技術 セマンティックウェブ技術 オントロジー技術 検索技術 データベース技術 アルゴリズム […]

    30. […] OS、サーバー、ハードウェア、クラウド等のITインフラ技術 | Deus Ex Machina より: 2022年6月20日 4:13 AM […]

    31. […] DX、AI、MLで活用する情報検索技術の概要と将来について | Deus Ex Machina より: 2022年1月8日 7:48 AM […]

    32. […] ストに関連する情報を検索するための機構を持っている。検索する手法としては”検索技術について“に述べているような様々なアプローチが利用可能だが、近年最も利用されてい […]

    33. […] セマンティックウェブ技術 オントロジー技術 ウェブ技術 検索技術 データベース技術 アルゴリズム […]

    34. […] 自然言語処理技術 セマンティックウェブ技術 オントロジー技術 検索技術 アルゴリズム Python […]

    35. […] セマンティックウェブ技術 オントロジー技術 ウェブ技術 検索技術 データベース技術 アルゴリズム […]

    モバイルバージョンを終了
    タイトルとURLをコピーしました