Inductive logic Programming 2012論文集より

機械学習技術 人工知能技術 自然言語処理技術 セマンティックウェブ技術 オントロジー技術 デジタルトランスフォーメーション技術   AI学会論文   知識情報処理技術   AI学会論文を集めて     推論技術

ILP 2012 22nd International Conference Inductive Logic Programming

前回はILP2011について述べた。今回は、2012年9月17日から19日にドブロヴニクで開催された第22回帰納論理プログラミング国際会議ILP 2012のプロシーディングスについて述べている。ILPカンファレンスシリーズは1991年に始まり、構造化されたデータからの学習に関する主要な国際フォーラムである。当初は論理プログラムの帰納に焦点を当てたものだったが、近年はその範囲を広げ、多くの注目と関心を集めている。現在では、論理学習、多枝関係学習、データマイニング、統計的関係学習、グラフ・木構造マイニング、関係強化学習など、構造化データからの学習に関するあらゆる側面に焦点を当てている。

今回の会議では、3種類の投稿を募集した。

ロングペーパー(12ページ):適切な実験的評価と自己完結した理論的貢献が含まれる成熟したオリジナル研究
ショートペーパー(6ページ):進行中のオリジナル作品、決定的な実験的評価を伴わないオリジナルアイデアの簡潔な説明、および科学的関心が高いが上記のカテゴリーに分類されないその他の関連作品を記述したもの。
会議のテーマに関連し、ECML/PKDD、ICML、KDD、ICDM等の一流会議、またはMLJ、DMKD、JMLR等のジャーナルから最近出版または受理された論文。

長文20件、短文21件、既発表の論文1件の投稿となる。各投稿は、少なくとも3名のプログラム委員によって審査された。短報は投稿原稿と会議での発表の両方で評価され、一部の論文の著者は拡張版の投稿を求められた。最終的に、18件の論文が本誌に、9件の論文がCEURワークショップのプロシーディングシリーズに掲載されるLate-Breaking Papersに、8件の論文がILP2012の特集号に招待され、さらなる審査が行われました。Reza FaridとClaude Sammutによる「Plane-Based Object Categorization Using Relational Learning」と題された論文は、Machine Learning誌の学生論文賞を受賞し、同誌に掲載される。この賞は、Machine Learning誌(Springer社)の好意により提供されたものとなる。

本論文は、命題化、論理的基礎、実装、確率的ILP、ロボット工学・生物学への応用、文法推論、空間学習、グラフベース学習など、現在のILP研究の幅広さをよく表している。

会議プログラムでは、3件の招待講演が行われた。Luc De Raedtは、「Declarative Modeling for Machine Learning」と題した講演で、制約プログラミングの手法を機械学習やデータマイニングに適用し、機械学習やデータマイニングの問題を制約充足問題や最適化問題として規定することを提案した。これにより、機械学習やデータマイニングの問題が何であるかを宣言的に指定することで、解をどのように計算する必要があるかを概説するのではなく、機械学習やデータマイニングの技術を取り入れたアプリケーションやソフトウェアを開発することが可能になる。

Ben Taskar氏の講演「多様性の幾何学と決定論的点過程」。このDPPは、マージナル計算、特定の条件付き確率の計算、サンプリングなど、厳密な推論を行うための扱いやすいアルゴリズムを提供するものである。また、指数関数的な大きさの構造化集合に対する効率的な推論を可能にするDPPの新しい因子分解と双対表現に関する最近の研究成果を発表した。

Geraint A. Wiggins氏は「Learning and Creativity in the Global Workspace」と題し、Baars Global Workspace account of consciousnessに基づく、情報調節のための一般的で均一なメカニズムを提供しようとするモデルについて講演した。情報量とエントロピー、期待、多次元・多階層表現とデータの学習、データ駆動型セグメンテーションが重要なアイデアである。このモデルはもともと音楽に基づいているが、言語に一般化することができる。最も重要なことは、知覚や行動だけでなく、創造性についても説明できることであり、おそらく独創的な言語的思考のモデルとして機能することができる。

以下詳細を述べる。

我々は、環境中の物体を道具として利用することを学習し、他の方法では実現不可能な問題を解決することができるロボットエージェントを発表する。このエージェントは、教師による道具の使い方の実演を一回見ることで学習し、その後、利用可能な様々な道具を使って世界で実験を行う。説明ベースの学習(EBL)のバリエーションでは、まず教師が道具を使って達成した最も重要なサブゴールを特定する。この説明から構築された行動モデルは、次に、探索空間を実用的な実験回数に抑えながら、有益な実験を生成する新しい帰納論理プログラミング(ILP)アルゴリズムを用いた試行錯誤学習によって改良される。関係学習は、オブジェクトやタスクを横断して一般化し、有用な道具を説明する空間的・構造的制約と、それらをどのように採用すべきかを学習する。本システムはシミュレーションされたロボット環境において評価される。

論理型プログラミングでは、論理プログラムを構成する節のボディリテラルを通じて状態情報を伝達するために、入出力変数のスレッドがよく使われる。帰納論理プログラミング(ILP)を用いて論理プログラムを合成する場合、探索空間を定義する標準的な洗練オペレータではこのパターンを強制できず、適合しない節は構築後に破棄されなければならない。我々は、この入出力変数のスレッドのパターンに適合するホーン節のみを含む探索空間を定義する新しい洗練化演算子を発表し、探索空間とILP実行時間を劇的に狭める。さらに、この新しい演算子の理論的正当性を、様々なデータセットに対する実験結果でサポートする。

既存の命題化のアプローチは、主にカテゴリー属性を扱っている。連続的な属性を扱うアプローチはほとんどない。最初の解決策は、数値属性を離散化し、カテゴリ属性に変換することである。数値属性を扱う代替アプローチは、平均、最小、最大などの単純な関数でそれらを集計することからなる。我々は、オブジェクトと閾値の処理を逆転させ、その離散化が分位数に相当する離散化の二重アプローチを提案する。我々のアプローチは、2つの属性値学習器に関する動作を特徴付けるために人工データで、また、実データセットで徹底的に評価される。

これまで、ドラッグデザインにおけるILPモデルは、潜在的な薬物(リガンド)の2次元または3次元分子構造と活性(例えば、あるタンパク質の阻害)を関連付ける一階論理のモデルが中心だった。モデル化の観点からは (a)モデルは主に論理ベースである(ただし、確率モデルの試みもある)。(c)学習する概念のデータは通常明示的に提供され、「隠れた」または潜在的な概念の学習はまれである。これらの点から、このようなモデルをドラッグデザインに利用することには一定の限界がある。本論文では、トピックモデル(正しくは階層ベイズモデル)を、ドラッグデザインのための一般的かつ強力なモデリング手法として用いることを提案する。具体的には、汎用のILPシステムの特徴構築能力を用いて、複雑な関係情報を薬剤様分子のトピックモデルに取り込む。本論文の主な目的は、マラリア治療薬の発見を支援するための計算機ツールを記述することである。この目的のために、グラクソ・スミスクライン社のTres Cantos Antimalarial TCAMSデータセットを用いたトピックモデルの構築について説明する。これは、約200万化合物のスクリーニングにより得られた、ヒト赤血球中のP. falciparumの3D7株に対する約13,000の阻害剤から構成されている。我々は、分子をグループ(例えば、「より活性の高いもの」と「より活性の低いもの」)に識別することを研究している。この課題では、高い活性を持つ分子(「ヒット」)を最大限に検出することが重要な場合、分子の特徴空間表現に直接作用する分類器よりも、トピックベースの分類器の方が優れている可能性を示唆する証拠を提示する。抗マラリア薬のモデリングへの応用のほか、ILPで構築された特徴空間の次元性を低減する手法として、トピックモデリングが有用であることも明らかである。

コンピュータビジョン、計算生物学、情報抽出などの分野の多くのタスクにおいて、一般的な確率推論手法は、主に単項およびペアワイズクリークポテンシャルのみを含む命題モデルに対して考案されてきた。これに対し、統計的関係推論では、モデルの表現力を制限せず、関係領域の豊かな構造を捉えるために高次ポテンシャルを用いるのが一般的である。本論文では、両者の関係をより近づけることを目的とする。

本論文では、マルコフ論理のサブセットであるペアワイズ・マルコフ論理を紹介する。我々は、すべての非ペアワイズ型マルコフ論理回路網(MLN)がペアワイズ型MLNに変換または「縮小」できることを示す。これにより、既存の高効率な確率推論手法をペアワイズMLNに適用することができ、高次の変種の開発や実装のオーバーヘッドが不要となる。2つの関連するデータセットでの実験により、この縮小アプローチの有用性が確認された。

近年、大規模な領域を記述するために、一階論理と確率的グラフィカルモデルを組み合わせたモデルや、これらの領域で推論を行う効率的な方法に関心が集まっている。Prolog Factor Language (PFL)はProlog言語の拡張で、これらの一階確率モデル(有向あるいは無向)を自然に表現することができます。PFLはまた、4つの推論アルゴリズム(変数消去、信念伝播、持ち上げられた変数消去、持ち上げられた信念伝播)の実装により、これらのモデルに対する確率的問合せを解決することが可能である。我々は、これらのモデルがPFLを用いてどのように簡単に表現できるかを示し、次に、4つの人工的な問題において、異なる推論アルゴリズム間の比較研究を行う。

各頂点に入射する辺の順序が一意である順序付きグラフは、Webページ、TEXソース、CAD、MAPなどのグラフ構造データを表現することができる。本論文では、このようなデータに対する計算機学習を設計するために、順序付きグラフ構造と構造化変数を持つ順序付きグラフパターンを提案する。我々は、ある順序付きグラフパターンgに対する順序付きグラフ言語を、g中の構造化変数を任意の順序付きグラフに置き換えることによってgから得られる全ての順序付きグラフの集合と定義する。与えられた順序付きグラフが、与えられた順序付きグラフパターンに対する順序付きグラフ言語に含まれるかどうかを決定するための多項式時間パターンマッチングアルゴリズムを提示する。また、提案アルゴリズムを計算機上に実装し、実験結果を報告・議論することにより、アルゴリズムの評価を行う。

マルコフ論理回路網(Markov Logic Networks: MLN)は、統計的関係性学習の統一的な枠組みとして提案された有力な統計的関係性モデルである。この統一化の一環として、著者らは他の統計的関係学習器をMLNに変換する方法を提案した。一次ベイズネットをMLNに変換するために、ベイズネットをモルタル化してMLNの構造を得、条件付き確率表のエントリの対数を用いて節の重みを計算することが提案された。この変換は命題型マルコフ網を命題型ベイズネットに変換する際には正確であるが、関係型の場合にはうまくいかない。我々はこの変換を理論的に解析し、ベイズネットをMLNに変換する新しい方法を紹介する。また、5つのデータセットを用いた拡張評価により、我々の変換方法が従来の方法より優れていることを示す。

Plotkinの最小一般化の一般化について研究している。節の集合に対して、境界付き最小一般化という新しい概念を導入し、多項式時間の削減手順が存在するそのインスタンスを提示する。また、本アプローチが実用的であることを、いくつかの関係学習データセットに対する実験により実証する。

多関係データマイニングでは、データは関係形式で表現され、対象テーブルの個体は、二次テーブルの複数のレコードと一対多の関係で潜在的に関連している。本論文では、教師あり分類タスクのために、二次テーブルの変数を構成し、その条件情報を評価するアイテムセットベースの枠組みを紹介する。二次テーブルにおける項目セットベースのモデル空間と、関連する構築された変数の条件付き密度推定を導入する。このモデル空間に対して事前分布が定義され、その結果、構築された変数の関連性を評価するためのパラメータフリーな基準が得られる。そして、考慮されたアイテムセットの空間を探索するために、貪欲なアルゴリズムが提案される。多関係データセットでの実験により、本アプローチの優位性を確認する。

記述論理(DL)における学習は、この10年間でますます注目されるようになってきた。しかし、概念学習におけるこれまでの研究をDLという新しい表現枠組みに拡張し、適応させるという共通の特徴を持つ、いくつかの多様なアプローチが提案されている。本論文では、知識表現と機械学習の分野における最近の成果に基づき、DLにおける概念学習のための宣言型モデリング言語を提案する。この言語では、2次DLに基づき、概念学習問題を構成的DL推論タスクとしてモデル化し、問題に対する解の構築は最適化基準の対象となりうることを明らかにする。

本論文では、帰納論理プログラミング(ILP)を用いて、実際の運転状況におけるドライバーの認知状態を把握し、次世代カーナビゲーションシステムにおいてドライバーが適切な操作や推奨サービスを選択できる状態にあるかどうかを判断することを目的とする。ドライバーの眼球運動を計測し、ブレーキ、加速度、ステアリング角度などの様々なデータを収集し、それらを定性的に解釈し、背景知識として表現する。また、リソースが限られた認知過程分析により、ドライバーの精神的負荷から、ドライバーの緊張・緩和度に関するデータ群を訓練セットとして取得する。これらの情報を用いて、本システムは、ルール検証のために定性的に理解可能な論理ルールを生成することに成功し、ユーザ指向のインタフェース設計に積極的に利用されている。本アプローチの学習性能を実証するために、現実的な実験が行われた。その結果、安全運転を提供する適切なサービスに対して、妥当な精度を達成することができた。

ドアを開けることは、ロボットが行うべき重要なタスクである。本論文では、ドアを開けるという動作を、その動作を行うべき動作点とともに予測する論理的なアプローチを提案する。本システムの入力は、ドアとドアハンドルのバウンディングボックスのペアと、論理ルールの形式による背景知識である。学習と推論は確率的プログラミング言語ProbLogによって行われる。我々は、ドアデータセットを用いて我々のアプローチを評価し、有望な結果を得た。さらに、命題型決定木との比較により、ProbLogのような確率的プログラミング言語を使用することの利点を示す。

シーケンスラベリングモデルにおいて、入力特徴量間の関係構造を発見することは、いくつかの問題設定においてその精度を向上させることが示されている。シーケンスラベリングのための関係構造学習問題は、シーケンスラベリングのためのマルコフ論理回路網(MLN)の学習として提起することができ、我々はこれをマルコフ論理回路網(MLC)と略記する。この命題空間での目的は、我々が最近提案したStructRELHKLと呼ばれる階層カーネルに基づくアプローチによって効率的かつ最適に解くことができます。しかし、複雑な一次関数におけるStructRELHKLの適用性は自明ではなく、挑戦的である。本発表では、MLCの構造とパラメータを最適に同時学習するための課題と可能性を提示します(別々に、あるいは貪欲に学習するのとは異なります)。ここでは、MLCの学習ステップを可能な限り最適化するために、StructRELHKLアプローチの活用を検討します。この目的のために、我々は一次MLC特徴をその複雑性に基づいて分類し、複雑な特徴がより単純な特徴から構築できることを示す。また、絶対特徴量(AF)と呼ばれる自己完結型の特徴量を定義し、これらを組み合わせることで、複雑なMLC特徴量を得ることができることを示す。本手法では、まず関連するAFの集合を生成し、次にStructRELHKLのアルゴリズムを利用して、それらの最適な結合を学習する。我々は、一般に公開されている活動認識データセットで評価することで、本アプローチの効率性を実証する。

統計的学習と関係性学習の巧妙な、しかし非常に効果的な組み合わせは、統計的学習者が関係性学習者により(多くの場合、別々に)識別された特徴を持つモデルを構築するために使用される。このようなモデル構築は帰納論理プログラミング(ILP)において長い歴史があり、1990年代初頭にLINUSシステムでルーツがある。また、この分野では、命題化と関係部分群発見のカテゴリーで、素性と非素性を区別し、どちらか一方の素性を用いて統計モデルを構築する研究が行われてきた。最近では、統計的関係学習(SRL)という新しい分野において、関係素性の構築は多くのモデル構築プログラムにおいて重要なステップとなっている。しかし、どのような関係素性が優れた統計モデルを構築するのに十分であるかについては、理論的・実証的にあまり研究がなされていないのが現状である。一見すると、多様で複雑な関係構造を捉える特徴が必要とされているように見える。このことは、特徴量の構成者は、関係記述の観点から、できるだけ豊かな空間を検討する必要があることを示唆している。一例として、問題の制約がある場合、一階論理のすべての可能な素性 の空間が挙げられる。現実的には、関係学習者がこのような空間を効率的に探索し、統計学習者にとって有用と思われる特徴を探し出すことは困難であろう。また、統計的学習者は、より単純な素性を組み合わせることで、ある種の複雑な構造を捉えることができるかもしれない。これらの観察に基づき、我々は関係学習者が統計的モデルに必要な特徴量よりも制限された特徴量空間を探索することが許容されるかどうかを経験的に調査する。具体的には、部分集合関係によって部分的に並べられた5つの素性集合を検討し、領域特有の制約を受ける定型文に対応する素性集合Fdを頂点とし、実質的な追加制約を受ける「素性」集合Feを底辺とする素性集合で境界を設定した。その結果、以下のことが示唆された。(a) ILPの文献で用いられている関係データセットでは、Fdの素性は必要ない可能性がある。 (b) 素性の部分集合を素性とする標準的な統計学習器によるモデルは、これまでに得られた最高のものと同程度のものである。 無料版のDeepL翻訳(www.DeepL.com/Translator)で翻訳しました。

子どもは日常生活の中で問題を解決するために、不正な行動をとることがある。そこで、本論文では、子供がどのように不正を学習するのか、また、機械学習の手法を用いて人間の不正の習得をどのようにモデル化できるのかに最大の関心を寄せている。まず、不正直な推論と帰納法の構造的な類似性を観察し、次に、論理プログラミングを用いて不正直な推論の心的過程を特徴付ける。そして、不正行為に対する行動ルールをどのように構築し、より高度なルールへと洗練していくかを論じる。

逆伴意(IE)は説明帰納法における仮説探索の基本的なアプローチである。IEシステムの中には、完全因果理論において任意の仮説を見つけることができるが、含意の逆関係を扱ういくつかの非決定論的な演算子が必要であるものがある。これに対して、逆包摂(IS)は包摂の逆関係で仮説を見つけるための代替的なアプローチである。近年、IEは、完全論理型理論における仮説発見の完全性を保証することを条件として、新しい形のISに論理的に還元できることが示されている。一方、完全なISが実用上どのように機能するかを明らかにすることは、まだ未解決の課題である。その解析のために、我々は、最先端のILPシステムで用いられているヒューリスティックな格子探索技術で実装を行った。本論文では、まず、我々のISシステムの概要を説明し、次に、完全なISが高い予測精度でより良い仮説を実用的に見つけることができることを示唆する実験結果を示す。

本論文では、木構造データの表現に適したグラフパターンとして、エッジ収縮に基づく木構造パターンという概念を提示する。木構造パターン(TC-pattern)とは、与えられた木構造データに共通する無秩序な木構造パターンであり、エッジ収縮によってすべての非類似連結部分構造を一つの頂点に統合することによって得られるものである。本論文では、木構造データから知識を発見するためのアルゴリズム基盤を確立するために、TC-パターンが多項式時間で学習可能であることを示す。

次回はILP2016について述べる。

コメント

  1. […] Inductive logic Programming 2012論文集より […]

タイトルとURLをコピーしました