遺伝的プログラミングの理論と実践 X論文集より

人工知能技術 セマンティックウェブ技術 知識情報処理技術  推論技術    AI学会論文   デジタルトランスフォーメーション技術

今回述べるのは、2012年5月12日から14日にかけてアナーバーのミシガン大学複雑系研究センターで開催された第10回ワークショップ「Genetic Programming, Theory and Practice」となる。

このワークショップシリーズの目的は、遺伝的プログラミング(GP)の理論を重視する人と、現実の様々な問題へのGPの応用を重視する人の間で、研究成果やアイデアの交換を促進することとなる。ワークショップに関する追加情報,各章の補遺,参加者やその他の人々による継続的な議論のためのサイトは,http://cscs.umich.edu/gptp-workshops/ にある。

遺伝的プログラミングは1990年にジョン・コザ(John Koza)によって提案された。他の進化的アルゴリズムの主要な方法論が同時期に提案され独立して研究が進められていたのに対し、遺伝的プログラミングは最初から遺伝的アルゴリズムの拡張として提案されており、他の三つの方法とは大きく立場を異にする。具体的な内容としては、遺伝的アルゴリズムにおける遺伝子型の表現が主に配列であるのに対し、遺伝的プログラミングでは木構造を用いる。このため、遺伝的アルゴリズムでは表現できなかった数式プログラムのコードなど、構造を持ったデータを表現することができる。大きな違いとしてはこれだけであるが、遺伝的アルゴリズムとはの探索の傾向が異なり、また独自の現象や問題点が発生する。現在、それに対する改善案などが非常に活発に研究されており、遺伝的アルゴリズムからはほとんど独立して研究が進められている。遺伝的プログラミングのみを扱った書籍も増えている。なお、コザが発表したシステムは Lisp で書かれていたため、現在はあらゆるプログラミング言語実装されているにもかかわらず解を Lisp のS式で表現することが一種の慣例になっている。

以下に詳細について述べる。

大規模なデータベースは、その中に有用な知識を発見する機会とともに、ますますユビキタスになってきている。遺伝的プログラミングのような進化的計算方法は、データベース内の知識を発見する問題のいくつかの側面に適用されてきた。人間が理解できるSQLクエリを生成するという、より具体的なタスクは、いくつかの応用の可能性があるが、これまで限定的にしか研究されていない。本章では、発達段階における遺伝的プログラミングによって、正例と負例の集合からSQLクエリを自動的に生成する方法を示す。本章では、発達段階における遺伝的プログラミングにより、C5.0決定木生成システムと比較して、人間の理解度に優れ、かつ妥当な精度のクエリを生成することができることを示す。

現在、自律型ロボットのオンライン進化に注目が集まっている。オンライン学習は、実世界で遭遇するダイナミックな環境、タスク、その他の可変要素に直面して、高いレベルの自律性を達成するために重要である。オンライン進化では多くの成功例があるが、これらの成功例は、比較的少数の重みを持つ小さなニューラルネットワークをシミュレーション環境下で学習させるなど、かなり単純な学習パラダイムに限られている。より複雑な学習パラダイムの不足は、このようなアプリケーションには圧倒的にパワー不足になりがちな、手頃なロボットプラットフォームの限界に大きく起因している。

本論文では、COTS(Commodity Off The Shelf)設計原則に基づくシンプルなロボットプラットフォームを紹介し、ロボット工学のためのオンライン遺伝的プログラミングを実用的かつ手頃な価格で実現するものである。また、様々な構築オプションの相対的な長所と短所を比較する。すなわち、現在の研究でよく見られるタイプの単純なニューラルネットワーク学習フレームワーク、従来の低コスト研究ロボットではサポートされない、より広範な学習モデル、単純な進化的アルゴリズム(ただし、従来の低コスト研究ロボットの範囲を超えている、標準的なツリーベースの遺伝的プログラミング表現を使用)の3種類である。その結果、より強力なロボットによって実現されるより強力な進化モデルによって、オンライン進化性能が大幅に向上し、したがって、COTSベースの実用的な利点があることが示された。

画像処理と機械学習技術の両方に関するドメイン知識を組み合わせることで、画像処理に使用する際のGenetic Programmingの能力を拡張することができる。我々は、いくつかの異なる問題領域において、我々の新しいアプローチの実証に成功した。このアプローチは、高速でスケーラブルかつロバストであることを示す。さらに、市販の画像処理ライブラリを利用することにより、高度な領域知識を組み込んだ人間が読めるプログラムを生成することができる。

レビー飛行とは、動物の採餌行動から直接ヒントを得たランダムウォークの一種で、歩幅がべき乗分布になることがよくあります。これは、歩幅の大部分は短いが、まれに歩幅が巨大になることを意味する。我々は、この民族学的行動から着想を得た線形遺伝的プログラミングによる突然変異のメカニズムを提案し、自己適応的な突然変異率を得る。我々は、この独自のアプローチを3つの異なるクラスの問題で実験的に検証する。ブール回帰、2次多項式回帰、表面再構成である。その結果、すべてのケースにおいて、我々の方法は、一般的によく使われる、遺伝子型の大きさに対して1という一定の突然変異率より優れていることがわかった。さらに、シミュレーテッドアニーリングから直接着想を得た別の自己適応型突然変異のメカニズムと、一般的なべき乗則指数の異なる値を比較した。特に、遺伝的プログラミングのパラメータ数を減少させる傾向があるため、我々の新しい方法は、定数変異率や自己適応的変異率に代わる有効な方法であると結論付ける。

厳密な評価には計算量の多い適応度関数を推定する方法を提案する.提案する推定法は、不完全な情報や不確実性に基づいて、多くの部分評価を適用する。本手法は、データセット全体に対して適性を測定する類似の手法に近い結果を、速度やメモリ使用量の何分の一かで、かつ並列化可能な方法で得ることができることを示す。この方法を、進化する株式取引戦略という形で、実世界のアプリケーションに適用した経験について説明する。

我々は、EC-Starと呼ばれる新しい遺伝的プログラミングシステムについて述べる。EC-Starは、オープンなインフラストラクチャである、商業ボランティアクライアント並列化フレームワークによってサポートされている。このフレームワークは、堅牢で大規模な進化を可能にし、EC-Starの分散GPモデルのハブとスポークのネットワークトポロジーの動機となるものである。このモデルでは、進化コーディネーターがハブを、進化エンジンが各スポークを占有しています。進化コーディネータは、レイヤー構造のフレームワークを使用して、高性能で部分的に評価された候補解を進化エンジンに派遣し、フィットネスケースの追加露出、遺伝的混合、および進化を行います。各進化エンジンと非同期で動作し、進化エンジンからの結果を待つためにブロックすることはありません。

無限の時間があれば、人間は複雑なデータのモデリングを、事前の専門知識に依存した方法で進めていくだろう。本研究の目的は、人間のようにデータをいじくり回すことを究極の目的とした計算進化システム(CES)の拡張と機能強化を行うことである。これは、モデル構築プロセスに柔軟性を持たせ、より良いモデルを生成する方法を学習するメタ層を設けることで達成される。CESシステムの鍵は、生物学的データベースや過去の解析結果から専門家の知識を特定し、活用する能力にある。これまでの研究により、CESは、生物学的に意味のある疾患遺伝モデルの発見に向けて、大規模で険しいフィットネスランドスケープを効率的にナビゲートできることが実証されています。さらに、統計学的あるいは生物学的な専門知識をシステムに与えることで、CESの有効性が劇的に向上することも示してきた。本研究の目的は、ヨーロッパ系アメリカ人の大規模サンプルにおける前立腺癌の攻撃性の遺伝子解析にCESを適用することであった。ここでは、学習システムにおけるオーバーフィッティングに対処するために、パレート最適化の利用を紹介する。さらに、階層的クラスター分析を用いて、患者全体の最適モデルとその予測値のランドスケープから専門知識を生成する後処理ステップを導入する。パレート最適化と結果の後処理を組み合わせることで、前立腺癌の遺伝子解析が大きく改善されることがわかった。

複雑な形質の根底にある遺伝性を探るため、ヒトゲノミクス分野では爆発的にデータを生成し、解析している。このような技術の進歩により、一般的で複雑なヒトの病気と関連する遺伝子やタンパク質の同定に一定の進展がみられました。しかし、複雑な形質の遺伝的構造についての理解はまだ不十分であり、病気のプロセスに重要な遺伝的・環境的要因を明らかにするためにさらなる研究が必要である。その多くは、DNA、RNA、タンパク質などの変異をメタ次元解析の枠組みで見ることになる。我々は、複雑な形質の遺伝的構造を説明または予測するモデルを特定するために、複数の「-オミックス」技術からのデータを統合するというこの問題に取り組むために、機械学習技術、ATHENA:遺伝・環境ネットワーク関連分析ツール、を開発した。本章では、ATHENAのモデリングコンポーネントの一つであるグラム進化ニューラルネットワーク(GENN)を用いてメタ次元データを扱う際の課題と、GENNが複雑なメタ次元モデルを構築する能力を探るためのシミュレーション研究で特定したモデルの特徴づけについて議論する。GENNの進化過程と、モデルの単純さの説明をさらに理解することが課題として残されています。この研究は、ATHENAにおけるGENNアプローチの拡張と改善のための潜在的な領域を明らかにするものである。

近年の記号回帰(SR)の進歩により、この分野は実用化の初期段階に入っています。これは、急速に発展している学術的な分野では予想される成熟の歴史です。(Koza 1994)で発表されたオリジナルの記号回帰アルゴリズムは、パレート・フロント、年齢層別母集団構造、さらには年齢パレート・フロント最適化などの技術に置き換えられてから久しいです。元のアルゴリズムには、埋め込まれた実数を最適化するための特別な技術がなかったため、埋め込まれた定数を最適化するための洗練された技術に置き換えられています。シンボリック回帰は、技術として成熟しつつあるのです。

シンボリック回帰(SR)の分野が成熟するにつれ,最初の商用SRパッケージが現れました.数年前から少なくとも一つの商用パッケージが市場に出ています。http://www.rmltech.com/。現在では、少なくとも1つのよく文書化された商用のシンボリック回帰パッケージがMathmaticaで利用できます www.evolved-analytics.com. よくできたオープンソースのシンボリック回帰パッケージが少なくとも1つあり、無料でダウンロードできます http://ccsl.mae.cornell.edu/eureqa. しかし、市販のSRパッケージが洗練されてきているにもかかわらず、簡単な問題でさえSRの精度に顕著な問題があります (Korns 2011)。産業界と学界におけるSRの採用の深さと広さは、利用可能なSRアルゴリズムとツールの実証された精度に大きく影響されるだろう。

本章では、現在の商用SRパッケージと十分に競合する最新の記号回帰の完全なパブリックドメインアルゴリズムを開発し、以前に公開されたサンプル問題のセットでその精度を較正します。このアルゴリズムは、SRアルゴリズムの簡略化と精度に関するパブリックドメインのさらなる研究のためのベースラインとして設計されている。このベースラインアルゴリズムは、商用パッケージと同等であることを主張するものではありません。しかし、このベースラインは、オリジナルの公表されたアルゴリズムより大きく改善され、最新の公表された研究を、同様のスピードと精度の簡略化されたベースラインアルゴリズムに統合する試みである。

ここで紹介するベースラインアルゴリズムは、年齢重み付きパレート最適化と呼ばれるものです。これは、パレートフロント最適化(Kotanchek et al., 2007)、年齢層状母集団構造(Hornby 2006)、年齢適合性パレート最適化(Schmidt and Hipson 2010)、および特殊埋め込み抽象定数最適化(Korns 2010)における最近の公開技術を融合させたものである。本論文では、ベースラインアルゴリズムの完全な擬似コードを提示する。このアルゴリズムは、オリジナルのSRアルゴリズム(Koza 1992)の拡張として、各拡張の正当性を示しながら、段階的に開発されたものである。各強化点について、以前に発表された一連のサンプル問題を用いて、強化前のスピードと精度を比較した。 無料版のDeepL翻訳(www.DeepL.com/Translator)で翻訳しました。

遺伝的プログラミング(GP)は、象徴的な回帰モデルを発見するための今日最も優れたアプローチの1つである。精度と複雑さがトレードオフのモデルを見つけるために、非ドミナントソーティング遺伝的アルゴリズムII(NSGA-II)が広く使われている。残念ながら、NSGA-IIは非効率的であることが示されている。初期の世代では、低複雑度モデルが過剰に複製され、母集団の大部分を占有してしまうのである。そのため、多様性を促進するための様々なアプローチが提案されている。本論文では、この問題の根本的な原因を解明し、より優れたアプローチを設計することを目的とする。我々は、複雑度の低いモデルの過剰複製は、進化性の欠如、すなわち、精度を向上させた子孫を生み出すことができないことが原因であることを見出した。そこで我々はNSGA-IIを拡張し、異なるレベルの複雑性を持つモデルの進化可能性を経時的に追跡する。この情報をもとに、各複雑度レベルのモデルが何個まで世代を存続させることができるかを制限する。このNSGA-IIの新バージョンであるevoNSGA-IIを、既存の7つの多目的GPアプローチと、広く使われている10個のデータセットで比較したところ、evoNSGA-IIはほとんど全ての比較において、これらのアプローチを使った場合と同等か、より優れていることを見出した。さらに、より進化可能なモデルが母集団の大部分を形成するという、evoNSGA-IIの意図通りの振る舞いを確認することができた。

本章では、遺伝的プログラミング(GP)における統計的に健全で再現可能な実証研究のためのフレームワークを紹介する。このフレームワークは、GPのアルゴリズムとヒューリスティック、そして様々な難易度の問題との相互作用を理解するためのツールを提供します。科学的な主張を検証可能な統計的仮説に分解し、GPの実行を実験として扱うアプローチに従って、このフレームワークは、高い再現性で統計的に検証された結果を達成するのに役立ちます。

我々は、ゲーム戦略の進化に対する二つの相反するアプローチを提示する。一つは、最小限の領域の専門知識をプロセスに注入するものであり、もう一つは、領域のヒューリスティックという形で専門知識を進化的設定に注入するものである。最初のアプローチはいくつかの有名なボードゲームでうまく機能し、2番目のアプローチは難しいゲームであるフリーセルで一流のソルバーを生成することを示す。

実世界の観点からは、最先端のアルゴリズムと実装が使用されていると仮定すれば、遺伝的プログラミングの中核的表現と進化的戦略において十分に達成されている。産業用の記号回帰に必要なのは、(a)データの探索と改良、(b)開発されたモデル空間の探索と、モデル形態の無限の可能性の中から利用できるサンプルから洞察と指針を抽出、(c)予測器、エミュレータ等として展開するための適切なモデルを識別するツールである。この章では,モデリングライフサイクルに対処するためにDataModelerで使用されているアプローチに焦点を当てます.本章で特に注目するのは,駆動変数とメタ変数の同定です.独立した進化の過程でたどられた検索パスの多様性を利用し、変数とメタ変数の使用量の分布を見ることも、重要な洞察を得る機会となります。しかし、このフレームワークの目標は、モデラーを置き換えることではなく、機械的な要件を取り除き、考える能力を促進することによって、文脈の取り込みと洞察の収集を強化することである。その結果、より質の高い、よりロバストなモデルが生まれると信じています。

クラウド上で遺伝的プログラミングを実行することは、研究者に大きなチャンスと課題をもたらす。我々は、標準的なアイランドアルゴリズムは、クラウド上でうまく実行するために必要な弾力性と堅牢性の特性を持っていないことを主張する。我々は、分散型、異種混合、ロバスト、セルフスケーリング、セルフファクタリング、セルフアグリゲーション遺伝的プログラミングアルゴリズムのプロトタイプ設計を提示する。我々は、ソフトウェアの「サンドボックス」を用いてその特性を調査する。

フェムトセルの進化型アルゴリズムの全体的な目標は、フェムトセルのパイロット電力制御アルゴリズムの継続的なオンライン進化を実現し、そのカバレージを最適化することです。入力と動作の複雑さを増すために、コミュニケーションと学習という知能の2つの側面が使用される。この最初の研究では、通信と学習の表現を変えることによって、分散型制御アルゴリズムにおいてより複雑な挙動を進化させる方法を調査しています。通信は、フェムトセルがその近隣を識別し、パイロット電力の増減に関する決定を行う際にその近隣の値を考慮できるようにすることで対処されます。学習は、入力パラメータを使用する方法と、内蔵の強化手順 を実装する方法の 2 つの方法で検討されます。強化は,固定されたコマンドの実行に加えて,シミュレーション中に学習することを可能にする.実験では、文法における異なる終端記号の形で新しい表現を比較した。その結果、通信と学習の組み合わせに違いがあり、最適解は通信と学習の両方を用いることがわかった。

コメント

タイトルとURLをコピーしました