Inductive logic Programming 2009論文集より

機械学習技術 人工知能技術 自然言語処理技術 セマンティックウェブ技術 オントロジー技術 デジタルトランスフォーメーション技術   AI学会論文   知識情報処理技術   AI学会論文を集めて     推論技術

前回のILP2008に続き、今回はILP2009について述べる。

ILPカンファレンスシリーズは、ほぼ20年にわたり、論理ベースの機械学習へのアプローチに関する研究の第一級のフォーラムとして開催されてきました。2009年7月2日から4日にかけてルーヴェンで開催された第19回帰納論理プログラミング国際会議もこの伝統を受け継ぎ、 SRL-2009 – International Workshop on Statistical Relational Learning、 MLG-2009 – 7th International Workshop on Mining and Learning with Graphsと併催され、他のコミュニティにも開かれた会議となりました。これら3つのイベントは、それぞれ独自の焦点、強調点、伝統を持っていますが、基本的には、グラフ、関係記述、論理の形で構造化されたデータについての学習という問題を研究対象として共有しています。このように、3つのコミュニティ間の交流を深めるために、イベントの同時開催が行われました。

プログラムは1つで、招待講演とチュートリアル講演、パネル、一般講演、ポスターセッションが行われました。招待講演とチュートリアル講演は、James Cussens, Jason Eisner, Jure Leskovec, Raymond Mooney, Scott Sanner, Philip Yuの各氏が担当しました。パネルはKarsten Borgwardt, Luc De Raedt, Pedro Domingos, Paolo Frasconi, Thomas Ga ̈rtner, Kristian Kersting, Stephen Muggleton, and C. David Pageが参加しました。これらの講演のビデオ録画は、www.videolectures.net で見ることができます。プログラム全体では、2つのパラレルトラックで30の講演が行われ、53のポスターが発表されました。講演とポスターは,拡張アブストラクトに基づいて選択された。これらのアブストラクトは http:// dtai.cs.kuleuven.be/ilp-mlg-srl/ で見ることができます。また、例年通り、ILP2009の論文の一部は、Lectures Notes in Artificial IntelligenceシリーズとMachine Learn- ing Journalの特集号に掲載されました。ILP-2009に投稿された54の拡張アブストラクト(LNCS形式で6ページ)から、5つの論文が特別号に招待され、10論文がロングペーパーとして、さらに14論文がショートペーパーとして、プロシーディングスに掲載されました。これらの論文は会議終了後に作成されたものです。その他のアブストラクトの多くは、ポスター発表のために受理されました。

このイベントは、多くの人々の協力なしには実現しなかったであろう。特に、この場所を提案してくださったBernhard Pfahringer氏、招待講演者、チュートリアル講演者、パネリスト、MLG(Hendrik Blockeel, Karsten Borgwardt, Xifeng Yan)およびSRL(Pedro Domingos, Kristian Kersting)の議長、ルーヴェンの論文を扱ってくださったFilip Zˇelezny ́、プログラム委員、追加査読者の方々に感謝したいと思う。また、スポンサー(BNVKI – the Benelux Association for Artificial Intelligence, Pascal 2 – the Network of Excellence, FWO – the Research Foundation Flanders)からは、財政的な支援をいただきました。準備にあたって

この巻では、Jan Struyf (Easychairの管理) と Laura Antanas (プロシーディングスの管理) のサポートが欠かせませんでした。 無料版のDeepL翻訳(www.DeepL.com/Translator)で翻訳しました。

領域知識を用いて学習を高速化することは広く受け入れられているが、その理論修正には一般的な構文演算子が用いられているのが現状である。特に、トップレベルゴールの証明にゲームを伴うようなテ ロアクティブ論理プログラムの理論修正に、このような演算子を用いることは高価である。このような状況では、分野固有の知識で一般的な理論修正を補完するオプションが必要である。アメリカンフットボールを例にとり、Icarusのマルチエージェント・テレオレアクティブ論理プログラミング機能を用いて、プレーの実行時に認識される欠陥に対応する概念と選手エージェントの目標の修復に対応する技能を持つコーチエージェントをコード化する。その結果、わずか20例程度で効果的な学習が可能であることが示された。また、このような修正による構造変化が、数値最適化だけでは対応できない性能向上をもたらすことを示す。

データストリームの普及に伴い、論理的および関係的な学習技術をストリームに適用する時期が来ている。このノートでは、逐語的発見のパラダイムをストリームのマイニングに向けてアップグレードした我々の予備的な結果を示す。この設定では、解釈のストリームが存在し、目標はこれらの解釈によって満たされる批評家理論を学習することである。さらに、データストリームでは、解釈は一度だけ読む(そして処理する)ことができる。

現在、(帰納的)論理プログラミングの研究の大部分は、確率的な論理モデルを扱っている。この10年間で、このようなモデルを表現するための多くの論理や言語が導入された。現在、これらの言語間の関係に対する洞察が非常に必要とされている。その一つは、論理ベイジアンネットワーク(LBN)のように、確率モデルを論理の要素で拡張する言語である。また、論理プログラムを確率的意味論で拡張する言語もあり、佐藤の分布意味論に類似した形で拡張されることもある。

本論文では、LBNの言語と分布意味論に基づく言語の間の関係を研究する。具体的には、LBNから独立選択論理(ICL)の理論への写像を定義する。また、このマッピングを用いて、データからICLの理論を学習する方法を示す。

本研究では、数量化を表現する関係データベースのクエリを誘導する問題を研究する。このようなクエリは、データベース内の興味深い多関係パターンを簡潔に表現する。関係データベースに対する問い合わせは、データログ・プログラムとして表現することができる。数量化を表現するDatalogプログラムの生成には、否定と述語の発明が必要である。述語の発明はILPの文献で研究されている。しかし、我々は数量化を引き起こすための根本的な新しいアプローチを提案する。関係代数で問合せを表現し、ヒューリスティックに問合せの表現を探索する。補数演算子を考慮したヒューリスティックを提案する。我々のアイデアを実装したソフトウェアプロトタイプの予備的な実験結果を報告する。その結果は,同じ例題に対するFOILやTildeの結果と比較される.

近年、テキストマイニングはテキストの分類という古典的な問題から、複雑なクエリの評価など、大規模なテキストコーパスをより高度に処理することに関心が集まっている。このようなタスクは、関係性の抽出という重要なステップをベースにしている。この問題は、文の係り受け木を関係構造として、対象となる関係の例を対象述語の基底原子として考えることにより、論理プログラムの学習の典型的な適用となる。この方法では、各例は明確な一階ホーン節で表現される。我々は、Plotkinの最小一般化(LGG)演算子の適応がこのような節に効果的に適用できることを示し、あるLGGの集合をリストアップするための簡単で効果的な分割統治アルゴリズムを提案する。これらのLGGを用いて二値化特徴を生成し、得られた特徴ベクトルに対してSVMを適用することで仮説を計算する。ACE-2003ベンチマークデータセットに対する実証実験の結果、本手法の性能は最新のカーネル法に匹敵することが示された。

本論文では、アブダクションによって不完全なネットワークデータから未知の関係を発見することを取り上げる。因果関係や代謝経路などのネットワーク情報が与えられたとき、観測結果を説明するために、ネットワークに欠けているリンクやノードを推論したい。この目的のために、我々はメタレベルでアブダクションを行うフレームワークを導入する。これは、因果関係の代数的特性に対する一階表現と、ネットワーク情報と制約の完全因果形式を用いて、結果発見のための自動演繹システムSOLARに実装されている。SOLARによるメタレベルのアブダクションは、欠落したルール、欠落した事実、未知の原因を推論するのに十分な能力を持ち、存在量化仮説の形で述語発明を必要とするものである。また、ルールアブダクションの応用として、スキルサイエンスの主題である特定の物理的技術や関連する整合性制約を発見することを示す。

我々は、リレーショナルな行動記録を入力として、遠隔対話型論理プログラムとして表現された手続き的知識を学習する新しいアプローチについて説明する。この表現では、タスク分解スキルが階層的に整理され、明示的に定義された目標が関連付けられている。本アプローチでは、これらのスキルを学習するために、分析的学習と帰納的般化を統合する。分析的学習部では、スキルの階層構造とスキルの適用条件(前提条件)を決定することで、成功した解答のゴール依存性を予測し、類似の問題を解くことができる遠隔対話型論理プログラムを生成する(過剰汎化される可能性がある)。帰納的構成要素は、これらのスキルを用いて新たな問題で実験を行い、その過程で収集されたデータを用いて前提条件を改良する。本システムでは、問題解決実験中に収集したデータを、標準的な帰納論理プログラミングシステムで学習可能な前提条件の正例と負例に変換することにより、これを実現する。この変換は、遠隔能動型論理プログラムの主要な約束事の一つである、すべてのスキルを明示的に定義された目標に関連付けることを利用していることを示す。本アプローチは、純粋に帰納的なアプローチと比較して、より少ない専門家の労力で、純粋に分析的なアプローチと比較して、より良いパフォーマンスを発揮することを主張する。

セマンティックWebの普及に伴い、W3C標準のオントロジー言語OWLの論理基盤をなす記述論理への関心が急速に高まっている。OWL知識ベースの数が増加する一方で、知識エンジニアが知識ベースの構造を構築・維持するための支援ツールの需要が高まっている。このため、再細分化演算子に基づく概念学習アルゴリズムが研究されている。本論文では、記述論理ELのための理想的な精密化演算子を提供し、それが大規模な知識ベースにおいて計算可能であることを示す。

この論文では、仮説の言語または背景理論の言語のいずれかに脱断層否定を持つ接続型データログを持つことの影響を調査することにより、オントロリショナル・ラーニングに関する研究を継続するものである。非単調性機能を含めることで、ILPフレームワークが不完全な知識を扱う能力を強化することができます。このような能力は、セマンティックウェブのような応用領域で有用であることが判明している。例えば、ある関係データベースのインスタンスが与えられ、そのスキーマがオントロジーとデータベースをオントロジーにリンクするルールのセットを含んでいる場合、その整合性理論を誘導する問題に直面します。

不確実性を含む複雑な領域を表現するために、確率モデルと論理を組み合わせた言語への関心が高まっている。因果過程をモデル化するために設計された因果確率論理(CP-logic)は、そのような確率論的論理言語である。本論文では、学習アルゴリズムの開発において重要なCP-logicの推論アルゴリズムについて検討する。本稿では、学習アルゴリズムの開発において重要なCP-logicの推論アルゴリズムを検討し、文脈変数消去に基づく新しい推論方法を提案し、変数消去や二項決定図に基づく方法と比較した。

マルコフ論理回路網(Markov Logic Network: MLN)は、手書きで数式を作成し、データから重みを学習するという「プログラミング言語」的アプローチにより、いくつかの難問への適用に成功している。推論が重要な役割を果たすため、推論を高速化することで、MLNを用いた「プログラミング」は著しく容易になる。本論文では、関係領域でよく見られる繰り返し構造を利用し、既存の推論を高速化 する新しいメタ推論アルゴリズムを紹介する。本手法では、まず問合せリテラルをクラスタリングし、各クラスタから1つの代表的なものに対して完全な推論を実行する。クラスタリングのステップは、重みが固定構造に対して学習される場合、一回限りの先行コストしか発生しない。

チェスゲームは、知的推論に焦点を当てる必要があるため、人工知能の研究の主要なテストベッドとなっています。特に、チェスの合法的な手を記述するモデルを生成する際、機械学習システムには、例の収集、ゲームの公式ルールを正しく表現するモデルの学習、正しい手の分岐と制限をすべて網羅すること、そのようなモデルの理解可能性など、いくつかの課題が生じる。さらに、チェスというゲームは、より速いものからより困難なもの、あるいは地域的なものまで、数多くの変種を生み出すきっかけとなった。ここで、チェスの初期分類器を出発点として、異なる変種に対する分類器を得ることが可能かどうかという問題が生じる。我々はこの問題を、例題から理論を修正する例としてアプローチする。チェスの初期分類器は、チェスの専門家によって承認されたFOL理論に触発され、例はゲーム内の手のシーケンスとして定義される。標準的な改訂システムから出発し、この問題に最適に対処するために、アブダクションと否定も必要であることを主張する。実験結果により、我々のアプローチの有効性を示す

この10年間、帰納論理プログラミングシステムは、トップダウンの洗練された検索技術を使用することが主流であった。本論文では、論理プログラムの構築におけるボトムアップアプローチの利用を再検討する。特に、Plotkinの相対的最小一般化(RLGG)の変種を探求し、最下層節に対する副次的な推定に基づく。PlotkinのRLGGでは、節の長さは例数に対して指数関数的に増加する。一方、Golemシステムでは、ij-determinate RLGG節の長さは、iとjの値が与えられた場合に多項式に限定されることが示された。しかし、決定性の制約により、Golemは原子と結合の記述から化学的性質を学習するなどの多くの主要応用分野で適用不可能であった。本論文では、最下位節に対する非対称相対最小汎化(ARMG)を用いて、節の長さが最初の最下位節の長さに束縛されることを示す。したがって、ARMGはGolemで用いられている決定性制約を必要としない。このシステムはProgolによる底質節構築と、決定性RLGGの代わりにARMGを使用するGolem制御戦略を組み合わせたものである。ProGolemはいくつかのよく知られたILPデータセットで評価された。その結果、Golemが元々テストされていた2つの確定実世界アプリケーションにおいて、ProGolemはGolemと同等以上の予測精度と学習時間を持つことが示された。さらに、ProGolemはGolemが適用できない非決定的な実世界のアプリケーションでもテストされた。これらのアプリケーションでは、ProGolemとAlephは同等の時間、精度を示した。また、実験結果から、対象理論の節が長く複雑な場合、ProGolemはAlephを大きく上回ることが示唆された。

ヘキソースは、多くの細胞内経路、発生や疾病メカニズムの制御において重要な役割を果たす単糖である。現在のタンパク質-糖質計算モデルは、少なくとも部分的には、事前の生化学的知見や知識に基づいている。これらの知見の異なる部分を予測的なブラックボックスモデルとして組み込んでいる。我々は、帰納論理プログラミング(ILP)により誘導されたルールと実際の生化学的結果を比較することにより、生化学的知見の経験的裏付けを調査している。我々は、タンパク質データバンクから、ヘキソース結合部位、非ヘキソース結合部位、表面溝の代表的なデータセットを収集する。我々はヘキソース結合部位のILPモデルを構築し、その結果をいくつかのベースライン・マシン学習分類器と比較して評価した。本手法は、他のブラックボックス型分類法と同程度の精度を達成し、識別プロセスに関する知見を提供する。さらに、ウェットラボで得られた知見を確認し、これまで報告されていなかったTrpとGluのアミノ酸依存性を明らかにした。

大規模で偏りのあるデータセットに対して効果的な節のアンサンブルを作成するには、多様で高得点の節を見つけ、それらを予測性能が最大になるように組み合わせる必要があります。我々は、ROC曲線よりはるかに優れた指標である再現精度曲線下面積を最大化するために、RankBoostアルゴリズムを適応させた。また、我々の修正したRankBoostアルゴリズムが用いる弱仮説は、個々の文節を用いる以外にも様々な可能性が検討されている。我々は、4つの大規模な歪んだデータセットに関する結果を提供し、我々の修正したRankBoostアルゴリズムが、再現精度曲線下の面積においてオリジナルを上回ることを示す。

言語学的に健全で、データに準拠した名前付きエンティティのアノテーションルールを開発することは、通常、開発者や言語学者にとって集中的で時間のかかるプロセスである。本論文では、帰納論理プログラミング(ILP)を用いて、様々な名前付きエンティティクラスのインスタンスを抽出するルールを構築し、言語学者や開発者の労力を軽減することを提案する。ILPを使ったルールの構築は、作業量を減らすだけでなく、言語学者が名前付き実体を洗練するためのモード宣言(言語学者が使いやすいように適切な形で公開)や背景知識(言語リソースの形)を取り入れることができる対話型のフレームワークを提供します。タグ付けされたデータは少なく、Marathi語では約3884文、Hindi語では約22748文である。しかし、ILPの手法で背景知識や専門知識を組み込むことができるため、言語学的に健全で、言語学者が手作業で作成したルールに匹敵する結果を得られるルールを開発することができました。ILPのアプローチは、すべてのルールを手作業で作成するアプローチと比較して、2つの利点があります。(i) ルール開発全体に言語学者が関与する代わりにILPを使用すると、開発時間が240分の1に短縮される。(ii) ILP技術は、モード宣言で指定された抽象度において、データ内のすべての重要なパターンを完全かつ一貫して把握できるという計算上の優位性を持っている。(ii)により、言語学者が見逃していたルールを発見することができ、また、より大きな学習データセットに対してルール開発の規模を拡大することが可能になります。このようにして開発された規則は、オプションとして言語専門家によって編集され、(a)(TILDE[1]のように)デフォルトの順序付け、(b) [2] を用いて誘導した順序、または (c) 規則をCRF (conditional random field) [3] などの統計的グラフモデルの特徴として用いて統合することが可能である。本稿では、WARMR[4]とTILDEを用いて、インドの言語であるヒンディー語とマラーティー語の名前付き実体の規則を学習した結果を報告する。 無料版のDeepL翻訳(www.DeepL.com/Translator)で翻訳しました。

トランスファー・ラーニングとは、ある分野の知識を学習し、それを別の分野に応用することである。本論文では、”転移学習の概要とアルゴリズムおよび実装例について“でも述べている転移学習を、複数のサブドメインを同一のスーパードメインの一部として含む、よりリッチな表現言語における知識の汎化としてとらえる。本論文では、異なる特異性を持つ関係性テンプレートを用いて、加法的価値関数の断片を学習する。関係テンプレートを用いて価値関数を汎化することにより、リアルタイムストラテジーゲームの異なるサブドメイン間で学習した知識が大きく伝達されることを示す。

本論文では、実験データの論理的解析を通じて代謝ネットワークを自動的に修正するための非単調性ILPアプローチを紹介する。本手法は、インフォーメーションの追加と削除の両方を含む修正を提案すること、および、遺伝子機能、酵素阻害、代謝反応の組み合わせを含む修正を提案することの2点において、従来の研究を拡張するものである。本提案は、非単調論理型プログラミングで表現された新しい代謝の宣言的モデルに基づいている。このモデルでは、帰納的推論と帰納的推論の混合により、与えられたネットワークがある観測データと一致するために必要な最小限の修正セットを計算する。このようにして、XHAILと呼ばれる推論システムが、ロボットサイエンティストと呼ばれる自律実験プラットフォームによって得られた実世界の実験データに照らして、最先端の代謝経路を正しく修正することができたことを説明する。

HIV治療の最適化は、薬剤耐性をもたらす変異が急速に進化しているため、困難な課題となっています。過去5年間、意思決定支援のためにいくつかの機械学習アプローチが開発され、その多くはウイルスタンパク質の遺伝子型配列と付加的な要因から治療失敗を予測するものであった。本論文では、ウイルスタンパク質(逆転写酵素)の塩基配列とその変異、およびそれらの変異に関連する薬剤耐性というデータの重要な部分について、関係式を定義する。データはLos Alamos National Laboratories(LANL)のHIVデータベースから取得された。この分野の既存の研究とは対照的に、我々は予測モデリングを直接目的とせず、一歩下がって、突然変異と耐性間の相関と関連性をより良く理解するために記述的マイニング手法を適用しています。このアプリケーションでは、Warmrアルゴリズムを使用して、突然変異と抵抗性の間の非自明なパターンを検出する。我々の発見は、よく知られた事実が再発見されることを示唆すると同時に、まだ知られていない関連性を発見する可能性を示唆している。

リレーショナルデータは複雑である。この複雑さが、ILPの基本ステップの1つである「データと結果の理解」を難しくしています。もしユーザーが簡単に理解できなければ、不完全な結論を出してしまう。この状況は、多くの文化圏で登場する「盲人と象」のたとえ話とよく似ている。この物語では、盲人たちは全く異なる情報を使って継続的に作業し、その結果、象の性質について全く異なる結論を導き出す。これに対して、Vi-sual表現は、データを探索し分析する際に、ある視点から別の視点への移行を容易にする。本論文では、解釈と問い合わせを、その共証明された統計量に基づいて、単一の共通のユークリッド空間に埋め込む方法について述べる。我々は実世界のデータセットで我々の方法を実証し、ILPの結果が実際に一目で把握できることを示す。

帰納論理プログラミングシステムを用いた実験の報告では、モデルを構築する際に、システムのパラメータをどのようにして具体的な値にしたのかがほとんど記述されていない。通常、感度の高いパラメータを特定するための誘惑はなく、使用されるパラメータはしばしば「工場が提供する」デフォルト値か、非系統的な探索的分析から得られた値であることが多いのです。この結果、当然ながら、何らかの形でパラメータの選択と最適化が行われていれば、より良いモデルが得られていた可能性があるのかどうかが明らかにならない。具体的には、すべてのアルゴリズムが公平に扱われているか、実験を再現できるように探索段階が十分に定義されているか、といった疑問が必然的に生じる。この論文では、実験計画法の研究に含まれるパラメータ選択と最適化技術の使用について調査しています。スクリーニングと「応答曲面」法によって、感度の高いパラメータとそのパラメータの良い値を順次決定していく。このパラメータ選択と応答曲面駆動型最適化の組み合わせは、産業工学において長い間適用されてきた歴史があり、ILPにおけるその役割を2つの有名なベンチマークを用いて調査しています。その結果、この予備段階での計算オーバーヘッドはそれほど大きくなく、ここで提案したような確立された手順を採用することにより、システム性能の向上と制御された実験が可能になり、多くの利益が得られることが示唆された。

人工知能の現在の課題の一つは、人やエージェントが行う行動や行為によって変化する動的な環境のモデル化である。観測結果に基づいて、隠れた状態、例えば、人々の活動や意図を推測する作業はフィルタリングと呼ばれる。動的ベイジアンネットワークのような標準的な確率モデルは、粒子フィルタのような近似的な方法を用いて、このタスクを効率的に解くことができる。しかし、これらのモデルは論理的、関係的な表現をサポートしていない。本論文では、提案分布の定義を通じて、粒子フィルタアルゴリズムを確率的論理表現で使用できるように改良したことに寄与する。アルゴリズムの性能は、この分布がターゲット分布にどれだけ適合しているかに大きく依存する。我々は、サンプリングのために、バイナリデシジョンダイアグラムへの論理的なコンパイルのアイデアを採用する。これにより、通常は法外に遅い最適提案分布を利用することができる。

我々は、強化学習における知識伝達のために、統計的関係モデルであるマルコフ論理回路網を用いることを提案する。我々の目標は、ソースタスクから関係知識を抽出し、それを用いて関連するターゲットタスクの学習を高速化することである。我々は、マルコフ・ロジック・ネットワークが、ソースタスクのQ関数とソースタスクのポリシーの両方を表現するのに有効なモデルであることを示す。また、マルコフ・ロジック・ネットワークは、元タスクのQ関数と元タスクのポリシーの両方を表現するのに有効なモデルであることを示す。ロボカップのシミュレーションサッカー領域での実験を通して、マルコフ論理ネットワークによる伝達が複雑なタスクの初期性能を大幅に改善すること、また、Q-functionの伝達よりもポリシーの伝達の方が効果的であることを明らかにした。

科学やビジネスの世界には大規模なデータが存在します。既存のILPシステムは10000点のデータセットに対して効果的に適用することができない。本論文では、データを単純化することで10000個以上のデータに対して適用できる技術を考える。本手法は近似汎化と呼ばれ、複数のデータ点を1つの例題に圧縮することができる。また、元データがポジティブな例とネガティブな例が混在している場合、結果として得られる例はポジティブな割合を表す確率値で帰属される。我々の長期的な目標は、大規模なチェスのエンドゲームデータベースに適用し、本技術を十分に制御して評価できるようにすることである。この論文では、Noughts and Crossesという簡単なゲームを選び、ミニマックスバックアップアルゴリズムを適用して、例題のデータベースを得ることから始める。これらの結果は我々のアプローチによってコンパクト化され、その結果、正確さと速度の両面で有利であることが実証された。今後は、自然界と人工界の両方の大規模なデータベースに本アプローチを適用していきたい。

次回はILP2010について述べる。

コメント

  1. […] Inductive logic Programming 2009 […]

  2. […] 前回はILP2019について述べた。今回は、2010年6月27日から30日にかけてイタリアのフィレンツェで開催された第20回帰納論理プログラミング国際会議(ILP2010)の論文について述べる。 […]

  3. […] Inductive logic Programming 2009論文集より […]

タイトルとURLをコピーしました