ベイズモデリングの世界

機械学習技術人工知能技術デジタルトランスフォーメーション技術自然言語処理技術深層学習技術確率的生成モデル本ブログのナビ

概要

個体差や不均一性のモデル化」という視点から現代のベイズモデリングの世界を俯瞰する。生態学、医学、地球科学、自然言語処理などを例に、平滑化、階層モデル、データ同化、各種の言語モデルなどについてベイズモデリングの観点から述べている。

個別技術トピック

岩波データサイエンス-ベイズモデリングの世界読書メモ
平均値から個性へ統計的モデリングの開く世界像(1)統計モデルの概要

統計学は、集団の代表値を求めるものになる。それに対して個性を求めるとはどのようなものなるのか?まずは、なぜ「平均」する必要があるのか?について述べてみる。

ここで、例として、病院に行ったら、手術を受けることを勧められ、調べると90%は成功すると出ているので、少し安心したが、更に調べると、成功率は年齢により変わり、40歳以上では(自分は今47歳とする)成功率は70%だったとし、また男女や、日本人と外国人でも異なり、どの数字を見て考えれば良いのかわからなくなったとする。

単に平均値を自分に当てはめるだけでは心許ない、と考えるのは当然ではあるが、どこまでも「自分」に近いを追求していくと、最後には「あなたにそっくりな人がたった一人います。それはあなたです。」ということになる。そして、あなたはたった一人のあなたである上、データから学べることは何もないことになる。

データのそれぞれは、それ自体で夜空にぽつんぽつんと輝いている星の様なもので、その間には無限に深い闇がある。そこから何かを引き出すには、何らかの意味で似たものをまとめて間を補う操作が必要になる。それをここではモデリングと呼ぶ。モデリングなしに、法則を引き出したり予測を行うことはできない。という認織から統計科学が始まる。

平均値から個性へ統計的モデリングの開く世界像(2)階層ベイズモデル

今回は階層ベイズモデルについて述べる。定数を確率変数と読み換える事で、多段式のデータ生成過程を考えるとき、そうしてできた階層的なモデルを使った推論をどの様にすれば良いのか。

RでのKFASとfieldでの実装-平均値から個性へ統計的モデリングの開く世界像の実践

まず時間間隔(もしくは空間での測定点)が不等な人工データを生成する。時刻を1からtmaxの間でs.size個ランダムに選び(非復元抽出)、各時刻での観測値を生成する。具体的にはtest.tとして観測時刻(観測位置)を生成し、test.c.0で「真の値」を計算し、残りのtest.cをガウス雑音(正規乱数)を加えて生成する。

ここでKFASパッケージをCRANよりインストールして利用できる様にする。KFASパッケージはもともとカルマンフィルタで時系列を扱うためのものであるが、1次元の空間データにも使える。

階層モデルで「個性」をとらえる-階層ベイズモデルと経験ベイズ法(GLMM)による解法

科学では観測・実験で得られたデータ(構造を持った数値・記号のあつまり)を扱う。このとき統計的な手法を用いて、観測データに見られるパターンを説明できる様なうまい統計モデルを構築する。これによってデータとモデルを組み合わせて、モデルを特徴づけるパラメータなどを推定する。

このような統計モデリングがデータ解析の本質となるが、多くの場合はデータの処理を創造的なモデリングだとは考えずに、定められた手続きの様な感覚で扱われてしまう。これに対して、本稿では、生物学で扱う様なデータ例をもとに、モデリングについて考えていく。

生物学は生物が生きている現場で得た観測データに基づいて、生物個体・集団の挙動を解明する学問となる。現実の生態学研究の事例は複雑すぎるので、ある植物のある1個体を選んだときに、それが何個ぐらいの種子を作るのかを知りたいとする。この植物は胚芽という種子のもとになる器官をどの個体も必ず10個持っている。つまり観測される種子数は最小0個で最大10個となる。(上図の例では4個結実している)。胚芽が種子になることを結実、ある胚芽が種子になる確率のことを結実確率と呼ぶ。この結実確率の大小を決める生物学的な要因には様々なものがある。しかしながらここではそれらが分かっていないと仮定する。

個性とパラメータの推定(階層ベイズモデルの解釈)

個体差や個人差、グループ間の差など「個性」を無視してデータをまとめてしまうとパラメータの推定がうまくいかなくなる簡単な例をあげる。ここでグループごとに眺めれば、各グループの中でxとyに相関がありそうなことがわかるが、各グループごとの観測の数は多くないので、グループごとにばらばらに直線をあてはめると傾きのばらつきが大きくなる問題を考える。

個人差・地域差をとりこむ統計科学医学分野での事例ベイズモデルでの解析

インフルエンザ罹患時における異常行動とタミフル服用との関係について大きく報道され社会的な関心を呼んだことは記憶に新しい。そもそも「薬が効く」ということは必ずしも「病気が治る」という意味ではないし、すべての患者に一様に効くというわけでもない。同じ薬剤を同じ用法・用量で投与されたすべての患者が同じように反応することは極めて稀で、早期に改善傾向を示す患者もいれば、残念ながら悪化してしまう患者もいる。しかも、どの患者がどちらの方向に反応するかは事前には予測が難しく、投与後の観察でしかわからないという「予測不可能な個人差」が存在する。このように、医学分野で遭遇する問題は、推定したい薬の効果を一定と考えるのは不自然で、個人によって変化する変量あるいは確率変数(random variable)と考えるのが自然な場合がある。

このような問題に適切に対応するためには、性、年齢などのように個人によらず効果が一定と考えることが自然な母数効果(fixed-effects)と薬の効果のように個人によって変わる変量効果(random-effects)の二つに分類した混合モデル(mixed-effect model)あるいは、すべての要因効果に確率変数(事前分布)を仮定するベイズモデル(Bayes model)などでモデリングを行う必要がある。ここでは3種類の具体的な医学分野の事例を通して個人差をとりこむ必要性とその方法について述べる。

全体モデルから局所モデルへ一般状態空間モデルとパーティクルフィルター

今回は局所モデルに基づいて全体を記述するモデルを構成する方法について述べる。具体的には、まず例として東京の気温データを取り上げながら、少数の固定したパラメータを持つ統計モデルでデータから意味を汲み取る。いわば全体モデルを用いたデータ解析から話をスタートする。次に、時間的に局在化した情報を取り出すために局所線形モデルを導入し、さらにそれを非線形に拡張することでモデルの表現力が豊かになることを見ていく。この局所非線形モデルは、確率差分方程式で通常与えられ、等式で表現される制約条件からの確率的なずれを許容する「柔らかな」モデルとなる。さらに、確率的なゆらぎを生み出すノイズ項が従う分布を、ガウス分布でない、つまり非ガウス分布にまで一般化することで、ジャンプや異常値といった、まれに生起する確率事象を上手に取り扱うことができるようになる。このようなガウス分布に従うノイズ項によっては表現ができない特性を非ガウス性と呼ぶ。

生きた言葉をモデル化する自然言語の確率的モデリング(トピックモデルとWord2Vec)

客観的に見ると、言語とは記号列だと考えることができる。細かく見るとそれは文字からなっているが、ここでは英語の様に、言葉は単語からなっているとして話を進める。

言語の単語列を見てすぐにきづくことは、単語の頻度には大きな偏りがあるというものになる。ここで、単語の順位と頻度が反比例関係にあることはZipfの法則といわれ、1930年台に発見された基本的事実の一つとなる。これは近年では言語を超えて、自然界の多くの離散的現象に共通する冪乗法則として知られる様になっている。

この様な不確定性を表現するには、p自体の場所についての確率分布が必要になる。その最も簡単なものとして以下の式の様なディリクレ分布がある。

ポスト近代科学としての統計科学確率統計の視点からの推論とモデル検証

「統計学はよくわからない」という初学者の声をしばしば聞くことがある。また、統計学を深く知った上で同様の発言をする数理科学者もいる。統計学に対するこの意見は一概に不勉強であるとか不当なものであるとは言えない。統計学は「推論の方法」に関わるものであり、「確率の概念」に基礎を置いている。しかし「合理的な推論とは何か?」という問いに応えることは容易なことではない。

さらに「確率」という概念は一筋縄では捉えることが難しく、これも論争が絶えない。この事実から観るならば、統計あるいは確率をわからないと感じる人の方が、健全な常識の持ち主かもしれない。容易にこれらを理解できたと考える人がいるならば、その人は己の理解の度合いを再点検してみる必要があるかもしれない。統計学がわかりにくいのは故なきことではないのである。

本記事では、現代の統計学としての統計科学がどのような方法論に基づいているか、それが提供する推論法はどのような意味を持ち、どの程度確かなものであるのか、またそれはどのような歴史的背景があるのか、科学研究において統計科学はどのような位置を占め、どのような方向に発展しつつあるかについて述べる。

非適切問題の解法の発展を顧みると、解法に対するモデルが「方程式モデル」から「最適化(変分)モデル」へ、さらに「確率・統計モデル」へ進展していることがわかる。これは科学研究におけるモデリングにおいても、普遍的に適用する方法論的な発展方向であると考えられる。

今日では、パラメータの数がデータの数より大きいモデルを想定し、パラメータに対して適切な「事前分布」を想定する「ベイズ統計学」の有用性が広く認められている。情報処理、パターン認織、データマイニングの分野においてもその実用性が認められつつある。また近年、サポートベクターマシン、ニューラルネットなどの「機械学習」が産業界において注目されている。

ベイス・階層ベイズ・経験ベイズ
階層ベイズの2つの顔
相関を表現する事前分布
外れ値・クラスター分け・欠測
ベイズ統計と機械学習について

近年、AIが囲碁の名人に打ち勝つことで広く世間に知られるようになったがその頭脳部をなす機械学習がどのような方法論に基づいているのかを知る人は多くない。今日Deep Learningと呼ばれる学習機械が良好しているが、便利な道具としてのこの機械のソフトウェアを操る技術者も、それが対象をどのようにとらえるものであるかについて方法論的な意味を自覚しているとはいえない。ここでは機械学習がもたらす科学的方法論及びエンジニアリングへのインパクトについて述べ、機械学習の設計において確率統計的接近法とりわけベイズモデルが適しているところについて概観する。

Deux Ex Machina

AIシステム設計・意思決定構造の設計を専門としています。
Ontology・DSL・Behavior Treeによる判断の外部化、マルチエージェント構築に取り組んでいます。

Specialized in AI system design and decision-making architecture.
Focused on externalizing decision logic using Ontology, DSL, and Behavior Trees, and building multi-agent systems.