サマリー
アルファ碁を開発したディープマインドによるアルファフォールド2の記事によると、これまで何年もかかっていたタンパク質の立体構造の解析が「アルファフォールド」と名づけられたタンパク質構造予測AIにより数時間ができるようになり、医薬品開発や産業応用に革命を起こしているとのこと。今回はそれらのタンパク質構造予測AIについて岩波データサイエンスシリーズ「時系列解析−状態空間モデル・因果解析・ビジネス応用」より述べる。(前回は天気予報とデータサイエンスについて述べた)タンパク質の3次元形状(ミスフォールディング)のシミュレーションと機械学習による解析について述べる。
タンパク質の3次元形状と機能
動物では筋肉に多くのタンパク質が含まれている。実際には、動植物を問わず、生物内での化学反応の触媒(酵素)や生体膜上の受容体(リセプター)などの成分として、生命のあらゆる部分で主要な部品の役割を担うのがタンパク質となる。また「DNAからRNAに情報が転写され、そこからタンパク質のアミノ酸の並び方(1次元構造)が決まる」ということ、そして「タンパク質のとる3次元的な形状(高次構造)がその部品としての働きに本質的だ」ということも、生物学のスタートとなる。
そうすると、次の疑問は、一次構造から高次構造がどのように決まるのか、ということになる。分子のお大きさがあまり大きくないタンパク質について言えば、「自然に折り畳まれて高次構造ができる」というのが正解となる。これをタンパク質のフォールディング(folding,折りたたみ)という。これは端から順に分子が合成される場合に限定されない。正しい形状になったものを加熱してほどけた状態に戻してからまた冷やすと、形状記憶合金のようにくるくる巻いてもとの形に戻る、ということが実験的に観察される。
このように大変複雑な形状が、いわば全自動で作られる、生物物理の視点で、進化のプロセスでどのような「設計」がされたら、このような事ができるのか、その原理を知るために、計算機科学・情報科学の立場から見たものが、エネルギー(正確には自由エネルギー)の最小化という最適化問題となる。
タンパク質のゆらぎ
「折りたたみ」という言葉からは「決まった形に落ち着いて機能する」という印象をうける。しかし、実際の整体では、温度が有限なので、タンパク質分子は分子運動により、絶えず形態を変えているはずである。その形態の変化が、決まった形の周辺で少しふらふらする程度であれば「折りたたみ=最適化」という描像で大体正しいことになるが、実は必ずしもそうでない事がここ数十年の展開でわかってきている。
全体としてはきちんと折り畳まれていても、ある部分が機能や特徴に応じて大きく揺らぐようなケースがしばしば見られる。また、一部または全部がまったく折り畳まれておらず、解けた状態で存在するタンパク質もある。そうしたタンパク質はIDP(Intrinsically Disordered Proteins)と呼ばれる。
IDPは決して珍しいものではなく、今では生体内のかなりの短髪質がそうした性質を持っていると考えられている。たとえば、パーキンソン病との関連で注目されているα-シヌクレインというタンパク質も(諸説あるが)IDPの性質を持っている。また、解けているからといって機能がなくなるわけではなくて、たとえば酵素の場合、相手の分子(基質)に接近すると、くるくると折り畳まれて機能を果たす場合もある。
タンパク質は単なる「ミクロの機械」ではなく「揺らぎながら仕事をする機械」でもある。
タンパク質のミスフォールディング
もう一つ、我々のタンパク質像を大きく変えたのは、タンパク質の「折りたたみ方」は必ずしも一通りではないという認識である。同じアミノ酸配列の分子が、2つ以上の大きく違った高次構造をとりうる。
この種のことは正常な生体内でも起きていると思われるが、その重要性が明らかになったのは、ヤコブ病や牛海綿状脳症のような病気(プリオン病)の原因が「プリオンと呼ばれるタンパク質が正常と異なった形状に折り畳まれること」であるという発見からである。こうした現象をミスフォールディングという。
一般にミスフォールディングしたタンパク質は通常とは異なる会合体(オリゴマー)を作ったり、くっつきあって水に溶けない塊(凝集体)になったりして、細胞に対する毒説を持ちうる。しかし、プリオンの場合は、それだけでなく溶液に種を入れると結晶が成長するように「自己触媒的」にまわりのタンパク質を自分と同じ形状に変えてしまう能力も持っている(下図)
カート・ヴォネガットの「猫のゆりかご」という小説では、常温で水より安定な新種の氷の「タネ」が作り出されたために、世界中の水が固体になってしまうが、プリオンの事故触媒的な形状変化はしばしばそれに例えられる。
これはプリオン病特有の珍しい現象であると思うかもしれないが、パーキンソン病、アルツハイマー病、ALS、多系統萎縮症(MSA)、さらにはある種の豆乳病までが、タンパク質のミスフォールディングに関係している可能性が、最近の研究で高まっている。たとえば、パーキンソン病ではα-シヌクレインのミスフォールディングが病気の本態であるという考え方が出されている。
それでは、これらの疾患でも、タンパク質の形状の変化は元祖プリオンのように自己触媒的に伝わるのか。それらはまだわからないが、試験官内での実験や動物実験でそれらを示唆する結果もいくつか得られているゅこれはもちろん、上に挙げた病気が通常の触媒で電線する可能性があるという意味ではない。ヤコブ病でも夫婦間や家族間での伝染は報告されていない)
タンパク質のシミュレーション
こうした現象を計算機の中で再現する研究として、タンパク質のリアルなシミュレーションがニュートンの運動方程式をベースにして構築されている。これは分子動力学(MD)と呼ばれるテクニックで、データサイエンスでのハミルトニアンMCMCと近い手法となる。
シミュレーションの目的は折りたたみの研究だけではないが、もし本気で折りたたみの全過程をリアルなモデルの分子動力学で追おうとすると、ものすごい計算量が必要となる。現実の世界で小型のタンパク質が折り畳まれる時間は典型的にはミリ秒(1000分の1秒)のオーダーとなる。
日常生活のセンスではほんの一瞬だが、それを計算機の中で実現するのは容易ではない。1970年代後半に最初に報告されたタンパク質のMDシミュレーションはタンパク質(BPTI)のみの水分子を含まないもので、わずか10ピコ秒弱(1000億分の1秒弱)相当であった。21世紀に入るまでには、水分子を含めて1ナノ秒(10億分の1秒)の計算が普通にできるようになり、1998年には水中での1マイクロ秒(100万分の1秒)に達するシミュレーションが報告されている。しかし、それでもまだ全然足りない。
これに対する一つのアプローチとしては「レプリカ交換モンテカルロ法」や「マルチカノニカル法」のような手法でサンプリングの効率を上げる方法が考えられる。またモデル自体を磁性体のイジング模型や魔法陣のような離散的なものにしてしまう方法もある(格子タンパク質模型)
さらに部の方向性としては、力ずくで「とにかく早い計算機」を使う方法がある。京コンピューターのような汎用機ももちろん使えるが、MDGRAPEに代表されるような専用機を作る方法やGPUを利用する方法もある。この流れで衝撃的だったのは、専用計算機Antonが小さなタンパク質(PRTI)について遂にミリ秒領域の計算を実現したことである(最初の発表は2009年頃)。その後、BPTIが複数の状態を何回も行き来する様子やさまざまな小型タンパク質が解けた状態から折り畳まれる様子が報告された。だが、より大きなサイズのタンパク質の折りたたみや熱平衡状態の生成はまだ人類の手の届かない所にある。
シミュレーションの多変量解析
これに対してデータサイエンスの立場からの寄与としては、さまざまな手法があるがその中で「シミュレーションの多変量解析」という切り口について述べる。
長時間の分子動力学シミュレーションからは「すべての原子の位置の時系列」として、多量のデータが得られる。その中に「揺らぐタンパク質・形を帰るタンパク質」の秘密が隠されており、そこから必要な情報を抽出して可視化するのがデータサイエンスの仕事となる。
まず考えられる手法は、主成分分析(PCA)となる。PCAでは、シミュレーションで求めた原子の座標の全部または一部を並べたベクトルxから求めた共分散行列をC0として、C0z=λzという行列の固有値問題を解く。そして大きな固有値に対する固有ベクトルへのデータの射影を求めることで、情報縮約や可視化を行う。
下図の例ではLAO-binding protein(3649原子、周囲の水分子を含めると40978原子)の5マイクロ秒のシミュレーション解析結果を示したものとなる。
構造上のまとまり(ドメイン)が2つあって、その開閉運動が基質の認織に重要であると考えられているが、アミノ酸の作る主鎖上の炭素原子(Cα原子)238個の座標をPCAで解析した結果、事前の知識なしに開閉運動を表現する座標を抽出することに成功している。
時系列から動的な情報を取り出す
PCAは有用だが、状態の分布から軸を抽出する方法であって、軸を求めるのに動的な情報を使うわけではない。PCAを超えて動的な振る舞いを扱う方法の一つとして、ここでは緩和モード解析(RMA)について述べる。
RMAは高野らによって導入された手法であるが、Dynamic Mode Decomposition(DMD)や時間領域のICA(tICA)など異なる分野で開発された手法との関連も指摘されている。具体的にいうと、時間遅れτを含む 以下の相関を時系列x(t)のデータから推定して、PCAでの共分散行列C0=C(0)の固有値問題の代わりに、一般化固有値問題C(t0+τ)z=λC(t0)zを考える。
\begin{eqnarray}& &C(\tau)=\mathbf{E}[x(t)-\bar{x})(x(t+\tau)-\bar{x}]\\& &(\mathbf{E}は定常性を仮定した時間平均、\bar{x}はxのエックス期待値)\end{eqnarray}
そして、大きな固有値に対する一般化固有値ベクトルを用いて射影する軸を定める。
RMAでは、上記で得られた雇用地λと対応する方向に分子の形状が揺らぐ特徴的な時間(緩和時間)τRの間にλ=exp(-τ/τR)という関係があることを示せる。そこで、大きな固有値ほど、τRの大きいゆっくりとした運動を表現する座標を取り出す事が可能となる。
一見すると分子の形状が大きくゆらぐ方向の運動に時間がかかりそうだが、中にはそうでない場合もあり、その場合にはPCAとRMAで結果が異なる。たとえば、確率密度が下図左のようになる場合を考える。
この場合、PCAではデータの散らばりの分散が最大の方向が最初の軸になるが、RMAでは散らばりが小さくても動きが遅い方向が最初の軸として選ばれる(上図の中と右)
光武と高野がシニョリンというタンパク質にRMAを適用した結果を下図に引用する。
シニョリンは2004年に産業技術総合研究所のホンダらによって合成されたタンパク質で、10個のアミノ酸からできている。小さな柄ある天然構造に折り畳まれ、分子シミュレーションでは天然構造とミスフォールディング構造が得られる事が知られている。論文では138個の原子のうち主鎖の炭素原子10個の位置を並べた30次元のベクトルをxとして用いて、750ナノ秒ぶんのシミュレーションの結果が解析されている。
上図では、RMAで得られた軸方向の成分(動きが遅い順にY1,Y2,Y3)が示されている。(a)図では、折り畳み方の違う2つの状態(NativeとMsfolded)がY1成分が変化する方向(八番遅い運動に対応)にほぼ沿って横に並んでいる様子がわかる。また、PCAでは明らかでない中間状態(Intermidiate)がRMAでは見えている。
このほかにも、正準相関分析、独立成分分析、ベイズ推定、隠れマルコフモデルなど統計科学や機械学習のさまざまな手法が投入されている。
次回はリアルなSimCityの夢について述べる。
コメント
[…] 揺らぐタンパク質と老いる私-ミスフォールディング時代のデータサイエンス […]
[…] 岩波データサイエンスシリーズ「時系列解析−状態空間モデル・因果解析・ビジネス応用」より。前回はタンパク質の3次元形状(ミスフォールディング)のシミュレーションと機械学習による解析について述べた。今回はリアルなSimCityの夢について述べる。 […]