エミュレータの活用と分子シミュレーションの逆問題
岩波データサイエンスシリーズ「時系列解析−状態空間モデル・因果解析・ビジネス応用」より。前回はリアルなSimCityの夢について述べた。今回はエミュレータの活用と分子シミュレーションの逆問題について述べる。
まず「エミュレータの活用」についてのべる。
エミュレータの考え方には様々な応用がある。以下の1や3は回帰分析一般に縦しても運用可能だが、エミュレーションと組み合わせる事で、さらに用途が広がる。
- 欲しい性質を持つものを設計する: シミュレーションの結果として得られる量を最適化することで、いろいろな対象をデザインすることができるが、計算量が多くなるのが難点となる。そこで、いったんエミュレータを構成してから、その出力を最適化する方法が考えられる。具体例としては、量子化学計算の結果を学習データとして、化学構造式を入れると欲しい物理量の予測値が出力されるエミュレータを構成し、その出力を最適化する構造式を探索することで分子を設計する。
- 異なる階層・タイムスケールのシミュレーションをつなぐ: たとえば、人体全体のシミュレーションを行う場合に、個々の臓器のシミュレータの結果をエミュレータとして表現しておけば、全体のシミュレーションではエミュレータを呼び出すだけで済むので、計算負荷を下げる事ができる。
- 各時点での結果を利用して効果的にデータを集める: できるだけ少ない実験回数で全体像をつかむために行う逐次的な実験計画(能動学習)のためにも、エミュレータの考え方が役に立つ。その時点までに実施したシミュレーションの結果に対してエミュレータをあてはめ、それを利用して「この情報が足りない」ことを割り出して「次の一手」すなわち、追加するシミュレーションの初期値やパラメータ、実世界でのデータ収集計画を進める。
次に分子シミュレーションの「逆問題」について述べる。
「モデルを与えて、そこから生まれる結果を調べる」ことを「順問題」とすると、データサイエンスで行う「データを与えて、モデルのパラメータを推定する」のは「逆問題」ということになる。ここで、「タンパク質のシミュレーションの逆問題」に相当するものについて述べる。
まず思いつくのは、シミュレーションで使う「力」ないし「ポテンシャルエネルギー」の関数形(この業界の用語では「力場」)の選び方である。折りたたみ問題の難しさは、計算時間だけでなく、力場の選び方にもあると考えられている。
いわゆる第一原理計算、量子力学の方程式を近似的に解いて力場を求めることができるが、データサイエンスの立場から言うと、実験とシミュレーションを比較して経験的に求める「逆問題」的な方法と組み合わせる事が重要となる。
その場合、個々のタンパク質についての結果を知って、それに合わせたのでは信用がなくなるので、機械学習でいう「汎化性能」が必要となる。シミュレーションのパラメータを実験に合うように合理的に調整することは、統計科学ではキャリブレーションと呼ばれている。
これとは別の「逆問題」として「ミクロの物体の形状をターゲットとして与えて、その形状をもたらすような要素の配列を求める」ということも考えられる。タンパク質の場合、これは折りたたみの逆で、inverse folding問題と呼ばれる。
折りたたみの予測が手に余るのに、その逆問題とは夢のまた夢と思われるかもしれないが、工学的なセンスからすれば「ミクロの物体を自在に設定できる」というのが本来のゴールとなるべきである。同様の問題をタンパク質以外の高分子(例えばRNA)や凝集体について考えることもできる。
次回は状態空間モデルのマーケティングへの応用について述べる。
コメント
[…] エミュレータの活用と分子シミュレーションの逆問題 […]