論理やルールと確率/機械学習の融合

人工知能技術 機械学習技術 オントロジー技術 デジタルトランスフォーメーション  知識情報処理 強化学習 確率的生成モデル 説明できる機械学習  数理論理学  自然言語処理

人工知能技術の根本的問題である知識表現の問題、すなわち知識をいかに表現し、獲得し、利用するかという問題に対し、これまでにさまざまなアプローチが行われている。それらは深層学習技術に代表される機械学習技術や、音声認識や画像認識等のセンサー技術あるいは、エキスパートシステムに代表される推論技術等となる。

今日の知識情報は、インターネットを通じた学術誌、辞書、ウィキペディア、SNS、ニュース記事などの種々の、そして大量の記号的知識として非構造な形態で利用されている。

またそれら知識はさまざまなカテゴリに分類することができるが、それらの分類の一つとして論理的知識と確率的知識に分ける分け方がある。

本ブログでは知識の2大カテゴリである論理的知識と確立的知識を結びつけた確立モデルを使い、複雑な現実を計算機上でモデル化する流れと、その背後にある確率、論理、計算、機械学習のつながりについて述べる。

内容としては、確率(ベイジアンネット)から論理へと向かう方向の分野である、知識ベースモデル構築(knowledge based model construction;KBMC)や統計関係学習(stastical relational learning;SRL)、さらに確率から論理へ向かう方向の分野として、確率論理学習(probabilistic logic learning;PPL)等について述べる。

ベイジアンネットは1980年代の後半に人工知能の一分野であるUAI(uncertainry in AI;人工知能における不確実性)のコミュニティで、変数間の確率的依存度をモデル化するために提唱された、グラフから直感的に訂正的な条件付き独立性を把握しやすい点と、新年伝搬など優れた確率計算アルゴリズムが存在して、効率的に周辺分布や条件付き確率を計算できる点に特徴がある。

学習についてもパラメータ学習のみならず大量データからグラフ構造を学習する構造学習もよく研究されている。主に米国で研究が進められ、1990年代前半には基本的な計算や学習の枠組みが整った、機械学習でよく使われるナイーブベイズや隠れマルコフモデルを内包し、いい加減なデータでも与えれば動く頑健性も備えていることから、データマイニングを支える標準的な確率モデリング技法の一つとなっている。

技術トピック

制約のない一般の音声を認識する技術として大語彙連続音声認識(large vocabulary continuous speech recognition;LVCSR)がある。これは現在の主流としてはHMMにて構成されている。

まずサブワード認識単位を用いた学習・認識について述べる。単語を分割して得られるサブワードを認識の対象とする方法で、大語彙連続音声認識ではもっぱらサブワード単位が用いられている。実際の大語彙連続認識では、認識辞書のサイズは通常3万語程度となる。単語を認識単位とする3万語のそれぞれについてHMMを用意する必要があるが、3万語の大部分はあまり出現しない単語であり、それらに対して十分な量の学習データを集めることが困難となる。

以前述べたベイズ推定の応用としてベイジアンネットがある。ベイジアンネットは様々な事象間の因果関係(厳密には確率的な依存関係)をグラフ構造で表現するモデリング手法の一つで、故障診断や気象予測、医療的意思決定支援、マーケティング、レコメンドシステムなど様々な分野で利用や研究が行われている。

ベイジアンネットには、似たようなものがあってもまとめて記述ができず、変数が異なると別々のベイジアンネットを作らなければならない等作成の為の課題があり、複雑で巨大なモデルの記述は困難となる。この問題を解決するために、知識ベースモデル構築(KBMC)と呼ばれるベイジアンネットの自動生成の研究がおこなわれた

前回は北米で発達したSRL(stastical relational learning 統計的関係学習)について述べた。今回はヨーロッパの対抗馬であるPLL(probabilistic logic learning;確率論理学習)について述べる。

前述したPRM(probabilistic relational model 確率的関係モデル)やMLN(Markov logic network;マルコフ論理ネットワーク)等のSRLは関係式や論理式を使い確率モデルを豊かにしようという発想に基づいており、関係式や論理式を使うものの、術後論理を確率によって豊かにすることは直接の目的ではない。一方、人工知能の分野では術後論理による知識表現が古くから研究されており、そこに確率を取り入れて、常に成り立つ論理的知識だけでなく確率的な知識も表現しようとする試みが統計的機械学習がブームになる以前からあった。

隠れマルコフモデルとは、確率モデルの一つであり、観測されない(隠れた)状態を持つマルコフ過程となる。状態が直接観測可能なマルコフ過程と異なり、観測されたデータの情報を使って、その裏側にある「隠れた」状態を推測するものとなる。今回はこれに対するビタビアルゴリズムと確率的生成モデルによるClojureでの実装について述べる。

情報抽出の進歩により、DBpedia、Freebase、YAGO、Wikidataなどの大規模な知識グラフ(KG)を自動的に構築することが可能になった。これらの知識グラフはどうしても不完全にならざるを得ない。このギャップを埋めるために、KG内のデータ相関を解析し、ホーンルールを推論し、新しい事実を予測することができる。しかし、ホーンルールは例外の可能性を考慮しないため、このようなルールによる事実の予測には誤差が生じる。この問題を解決するために、学習したホーンルールの本体に例外(否定された原子)を追加し、効率的に修正する方法を提案する。この方法によって、誤りを大幅に減らすことができる。我々は、この方法を実世界のKGから例外を含むルールを発見するために適用した。実験結果は、開発した方法の有効性と、ルールに基づく事実予測によるKG補完の精度の向上を示している。

学会論文

    2008年9月10日から12日にかけて、プラハで第18回帰納論理プログラミング国際会議が開催された。ILPコミュニティは明らかに、愛着のある一階論理表現のフレームワークを大切にし続けているが、ILP2008で発表された研究は、逆包含関係などの確立されたILPアプローチの拡張と、ブレイブ誘導などの新しい論理誘導フレームワークの探求の両方にまだ余地があることを示し、さらに統計的関係学習、グラフマイニング、セマンティックウェブ、バイオインフォマティクス、認知科学の領域にまで広がっている。

    ILPカンファレンスシリーズは、ほぼ20年にわたり、論理ベースの機械学習へのアプローチに関する研究の第一級のフォーラムとして開催されてきました。2009年7月2日から4日にかけてルーヴェンで開催された第19回帰納論理プログラミング国際会議もこの伝統を受け継ぎ、 SRL-2009 – International Workshop on Statistical Relational Learning、 MLG-2009 – 7th International Workshop on Mining and Learning with Graphsと併催され、他のコミュニティにも開かれた会議となりました。これら3つのイベントは、それぞれ独自の焦点、強調点、伝統を持っていますが、基本的には、グラフ、関係記述、論理の形で構造化されたデータについての学習という問題を研究対象として共有しています。このように、3つのコミュニティ間の交流を深めるために、イベントの同時開催が行われました。

    今回は、2010年6月27日から30日にかけてイタリアのフィレンツェで開催された第20回帰納論理プログラミング国際会議(ILP2010)の改訂論文について述べている。

    ILPカンファレンスシリーズは1991年に始まり、論理ベースの機械学習へのアプローチに関する国際的な一大イベントとなる。近年では、統計的学習や他の確率的アプローチとの融合が模索され、研究の幅が大きく広がっている。

    2011年7月31日から8月3日まで、英国のCumberland Lodgeにて、Imperial College LondonのDepartment of Computingの後援のもと開催された。ILP2011について述べる。

    31件のプロシーディングスの論文は、ILPの理論、実装、確率的ILP、生物学的応用、部分群発見、文法推論、関係カーネル、ペトリネット学習、空間学習、グラフベース学習、行動モデルの学習など、現在のILP研究の多様性と活力を象徴しているものとなっている。

    2012年9月17日から19日にドブロヴニクで開催された第22回帰納論理プログラミング国際会議ILP 2012について述べてる。ILPカンファレンスシリーズは1991年に始まり、構造化されたデータからの学習に関する主要な国際フォーラムである。当初は論理プログラムの帰納に焦点を当てたものだったが、近年はその範囲を広げ、多くの注目と関心を集めている。現在では、論理学習、多枝関係学習、データマイニング、統計的関係学習、グラフ・木構造マイニング、関係強化学習など、構造化データからの学習に関するあらゆる側面に焦点を当てている。

    ILP2012の論文では、命題化、論理的基礎、実装、確率的ILP、ロボット工学・生物学への応用、文法推論、空間学習、グラフベース学習など、現在のILP研究の幅広さをよく表している。

    ILP 2016は、2016年9月4日から6日の間、ロンドンのWarren House Conference Centreで開催された。1991年の第1回以来、毎年開催されるILPカンファレンスは、構造化された関係データからの学習に関する第一級の国際フォーラムとして機能してきた。当初は論理プログラムの帰納に焦点を当てていたが、長年にわたり研究の視野を大きく広げ、論理における学習、多関係データマイニング、統計的関係学習、グラフと木のマイニング、他の(非命題)論理ベースの知識表現の枠組みにおける学習、統計学習との交差の探求、他の確率的アプローチなどのあらゆる側面に関する貢献している。これらの分野での理論的な進歩は、バイオインフォマティクス、医学、テキストマイニングなどの分野における重要な問題へのこれらの技術の挑戦的な応用も伴っている。

    2017年9月にフランスのオルレアンで開催された第27回帰納論理プログラミング国際会議ILP2017について述べる。内容としては、ロボット制御、知識ベースと医療、画像認識における統計的機械学習、関係学習、ロジックベースのイベント認識システム、リレーショナルデータからボルツマンマシン分類器を学習する問題、並列帰納論理プログラミング、解釈遷移(LFIT)からの学習、Lifted Relational Neural Networks (LRNN) 、WOrd2Vecの改善について述べる。

    帰納論理プログラミング(ILP)は機械学習のサブフィールドであり、例、背景知識、仮説を表現するための統一された表現言語として論理プログラミングに依存している。一階述語論理に基づくその強力な表現形式により、ILPは多関係学習とデータマイニングのための優れた手段を提供する。

    1991年に開始されたILP会議シリーズは、構造化または半構造化されたリレーショナルデータから学習するための最高の国際フォーラムとなる。もともとは論理プログラムの導入に焦点を当てていたが、長年にわたって研究範囲を大幅に拡大し、論理、多関係データマイニング、統計的関係学習、グラフおよびツリーマイニング、その他の学習(非-提案)論理ベースの知識表現フレームワーク、統計的学習およびその他の確率論的アプローチに対する研究が報告されている。

    今回は2019年9月3-5日にブルガリアのプロブディフで開催た第29回帰納論理プログラミング国際会議について述べる。

    帰納論理プログラミング(ILP)は機械学習のサブフィールドであり、例、背景知識、仮説を表現するための統一された表現言語として論理プログラミングに依存する。一階述語論理に基づくその強力な表現形式により、ILPは多関係学習とデータマイニングのための優れた手段を提供する。

    1991年に開始されたILP会議シリーズは、構造化または半構造化されたリレーショナルデータから学習するための最高の国際フォーラムとなる。もともとは論理プログラムの導入に焦点を当てていたが、長年にわたって研究範囲を大幅に拡大し、論理、多関係データマイニング、統計的関係学習、グラフおよびツリーマイニング、その他の学習(非-提案)論理ベースの知識表現フレームワーク、統計的学習およびその他の確率論的アプローチとの交差点を調査している。

    今回はコロナパンデミックの影響で一年スキップされたILP2021について述べる。帰納論理プログラミング(ILP)は、機械学習の一分野であり、関係データから論理表現を学習することに重点を置いている。ILPカンファレンスシリーズは1991年に開始され、構造化または半構造化された関係データからの学習、多関係学習、データマイニングに関する主要な国際フォーラムである。当初は論理プログラムの帰納に焦点をあてていたが、長年にわたり研究の視野を大きく広げ、論理学習、統計的関係学習、グラフと木のマイニング、他の(非命題)論理ベースの知識表現フレームワークの学習、統計学習や他の確率的アプローチとの交差の探求など、あらゆる側面からの研究となる。

     

    コメント

    1. […] 本ブログでは 以下のページにて、知識の2大カテゴリである論理的知識と確立的知識を結びつけた確立モデルを使い、複雑な現実を計算機上でモデル化する流れと、その背後にある確率 […]

    タイトルとURLをコピーしました