Thompson Samplingアルゴリズムの概要と実装例

機械学習技術人工知能技術デジタルトランスフォーメーションセンサーデータ/IOT技術オンライン学習深層学習技術確率生成モデル強化学習技術 python 経済とビジネス本ブログのナビ

Thompson Samplingアルゴリズムについて

“UCB（Upper Confidence Bound）アルゴリズムの概要と実装例“で述べたUCBアルゴリズムは頻度論の考え方に基づき、各アームから得られた報酬標本平均の真の期待値からのズレをHoeffdingの不等式により評価することで信頼区間を構成し、その上側信頼区間が最大のアームを各試行で選んでいる。このアルゴリズムはアームに対する既知情報が同じだった場合は全て同じアームを選択するという意味で決定的なアルゴリズムと言える。

これに対し、Thompson Sampling（トンプソン・サンプリング）は、複数の選択肢（アクションまたはアームと呼ばれることが多い）の中から最適なものを選択する際に、不確実性を考慮するために設計されたもので、各時点においてそれぞれのアームを「そのアームが期待値最大である確率」で選択する”マルチアームドバンディット問題の概要と適用アルゴリズム及び実装例について“でも述べているマルチアームドバンディット問題を解くものとなる。これらは”確率的生成モデルについて“で述べているベイズ推定を用いた確率的一致法(probability matching method)とよばれるヒューリスティックな手法で実現される。

UCBアルゴリズムでは、B=100回ごとといった形のバッチデータとして報酬データが与えられた場合、各バッチ内で情報の更新が行われずB回すべてで同じアームを引くといったことがしばしば起こるが、確率的一致法では観測データを固定したとしても次に引くアームがランダムに選択されるため、各アームの選択数が適度に分散され、バッチサイズが大きくなっても安定的な動作が得られると利点がある。

以下にThompson Samplingアルゴリズムの概要について述べる。

Thompson Samplingアルゴリズムはベイズ推定のフレームワークで考えられるため報酬を確率分布で考えるものとなる。ここで一例として、アームiの報酬\(x_{i,t}\)が真の期待値パラメター\(\mu_i\)のベルヌーイ分布\(Ber(x_i|\mu_i)\in [0,1]\)に従うとして、事後分布を考える。

ベルヌーイ分布の共役事前分布は”確率的生成モデルに使われる各種確率分布について“にも述べているようにベータ分布となる。これを用いるとアームiを\(n_k\)回選択し、当たりが\(m_k\)回出たとすると報酬の真の期待値のパラメータ\(\mu_k\)の事後分布は以下のようになる。

\begin{eqnarray}p(\mu_k|X_{n_k})&=&\frac{p(X_{n_k}|\mu_k)p(\mu_k)}{p(X_{n_k})}\\&\propto&p(X_{n_k}|\mu_k)p(\mu_k)\\&=&(\prod_{t=k}^{n_k}p(x_t|\mu_k))p(\mu_k)\\lnp(\mu_k|X_{n_k})&=&\sum_{t=!}^{n_k}lnp(x_t|\mu_k)+lnp(\mu_k)+const.\\&=&\sum_{t=1}^{n_k}inBer(x_k|\mu_k)+inBeta(\alpha|\beta)+const.\\&=&Beta(m_k+\alpha|n_k-m_k+\beta)\end{eqnarray}

上記の式により、\(n_k\)回の試行で当たりが\(m_k\)回出たアームkの報酬の期待値パラメータ\(\mu_k\)の事後分布は、事前分布のパラメータα、βにそれぞれ、当たりの数\(m_k\)と外れの数\(n_k-m_k\)を加えた数を新たなパラメータとするベータ分布に従うこととなる。

この事後分布を全てのアームについて計算した後に以下のようにして\(a_t\)を決めるのがThompson Samplingとなる。

\begin{eqnarray}a_t&=&arg\max_{k\in1,\dots,K}\hat{\mu}_k\\\hat{\mu}_k&\sim& Beta(m_k+\alpha|n_k-m_k+\beta)\end{eqnarray}

ちなみにThompson Samplingでは各々のアーム期待値が最大となる確率それ自体がわからなくてもその確率で各アームを選択できればよいため、上記のような手法でうまくいく。

Thompson Samplingの具体的な手順は以下のようになる。

1. 初期化: それぞれのアクションに対して、確率分布を表すパラメータを初期化する。一般的にはベータ分布などの確率分布が使用される。

2. アクション選択: 各アクションに対して、現在の確率分布からサンプリングを行い、それに基づいてアクションを選択する。これにより、より報酬の高いアクションの選択が促進されるが、不確実性を考慮して探索も行われる。

3. アクションの実行: 選択されたアクションを実行し、その結果として得られた報酬を観測する。

4. パラメータ更新: 観測された報酬を用いて、各アクションの確率分布のパラメータを更新する。通常、ベイズの定理を使用して確率分布を更新し、報酬が高いアクションに対する信念が高まり、報酬が低いアクションに対する信念が低まる。

5. ステップ2からステップ4を反復的に繰り返す。

Thompson Samplingの適用事例について

Thompson Samplingは多くの適用事例で成功を収めており、主に確率的な意思決定問題に使用されている。以下はThompson Samplingの適用事例となる。

1. 多腕バンディット問題:

Thompson Samplingは、多腕バンディット問題に特に適している。多腕バンディット問題では、複数のアクション（腕）から報酬を獲得することを目指し、各腕の報酬分布が不確実な場合に使用され、広告のクリック率の最大化、商品の在庫管理、投資戦略の最適化などがこれに関連している。

2. オンライン広告:

Thompson Samplingは、オンライン広告のクリック率の最適化に使用されます。異なる広告バリエーションをテストし、最も成功した広告を選択するためにThompson Samplingを活用できる。これにより、広告主はクリック率を最大化し、広告予算を最適に配分することが可能となる。詳細は”推薦技術“も参照のこと。

3. 臨床試験:

新薬の臨床試験では、患者グループに異なる治療プロトコルを適用することがある。Thompson Samplingを使用して、最も有望な治療プロトコルを特定し、臨床試験の成功率を向上させることができる。

4. 自動化されたリコメンデーションシステム:

オンラインプラットフォームや電子商取引サイトでは、製品やコンテンツのリコメンデーションが重要となる。Thompson Samplingは、ユーザーの過去の行動と好みを考慮に入れて、最適なリコメンデーションを提供するために使用される。詳細は”推薦技術“も参照のこと。

5. インターネット・オブ・シングス（IoT）:

IoTデバイスの適切な設定とリソースの最適な使用に関する問題では、Thompson Samplingが役立つことがある。デバイスのパラメータ調整や通信チャネルの選択などがこれに該当している。詳細は”センサーデータ&IOT技術“も参照のこと。

このアルゴリズムは不確実性のある意思決定問題に対処するための強力なツールであり、リアルタイムで最適な選択を行うための効果的な方法として広く利用されている手法となる。

Thompson Samplingの実装例について

Thompson Samplingの実装は、特定の問題やプログラム環境に依存することがあるが、一般的なアプローチとしては、確率分布のサンプリングとパラメータの更新が含まれる。以下に、Thompson Samplingの実装の一般的なステップとPythonを使用した簡単な例を示す。

Pythonを使用したThompson Samplingの実装例：

import random

# 各アクションの初期パラメータ（ベータ分布のパラメータ）を設定
num_actions = 5
action_parameters = [(1, 1) for _ in range(num_actions)]

# 各アクションの報酬を初期化
action_rewards = [0] * num_actions

# メインのThompson Samplingループ
num_rounds = 1000
for round in range(num_rounds):
    sampled_values = [random.betavariate(a, b) for a, b in action_parameters]
    
    # 最も高いサンプル値を持つアクションを選択
    selected_action = sampled_values.index(max(sampled_values))
    
    # 選択されたアクションを実行して報酬を観測（例：0または1の報酬）
    reward = simulate_reward(selected_action)
    
    # アクションのパラメータを更新
    a, b = action_parameters[selected_action]
    action_parameters[selected_action] = (a + reward, b + 1 - reward)
    
    # 累積報酬を更新
    action_rewards[selected_action] += reward

# 最終的な選択確率や報酬を分析
print("各アクションの選択確率:", [a / (a + b) for a, b in action_parameters])
print("各アクションの累積報酬:", action_rewards)

この例では、各アクションの報酬をベータ分布を用いてモデル化し、Thompson Samplingアルゴリズムに基づいてアクションを選択している。各ラウンドでサンプリングを行い、報酬を観測した後、ベータ分布のパラメータを更新する。

Thompson Samplingの課題について

Thompson Samplingは強力な確率ベースの意思決定アルゴリズムであり、多くの場面で成功を収めているが、いくつかの課題や制約も存在している。以下にそれら課題について述べる。

1. 初期探索の問題:

Thompson Samplingは最適なアクションを見つけるのに時間がかかる場合がある。初期の段階では十分な情報が得られていないため、探索が不足してしまう可能性があり、この初期探索の問題を解決するために、ε-greedy法などの他のアプローチと組み合わせることがある。

2. パラメータの事前知識が必要:

Thompson Samplingはベイズ的なアプローチを使用するため、事前のパラメータ情報が必要となる。正確な事前情報が得られない場合、アルゴリズムの性能が制限される可能性がある。

3. 計算コスト:

ベイズ的なサンプリングを行うため、Thompson Samplingは計算コストが高い。特に、アクションの数が多い場合、計算が複雑になり、リアルタイム性を確保するのが難しい。

4. マルチアームバンディット以外への一般化の難しさ:

Thompson Samplingは多腕バンディット問題に特化して設計されている。他のタイプの強化学習問題や意思決定問題への一般化は難しく、適切なモデルとパラメータ更新方法を見つけるのが難しいことがある。

5. 非定常環境への適応:

環境が時間とともに変化する場合、Thompson Samplingは適応性に制約を持つ。アルゴリズムは過去のデータに基づいてモデルを更新するため、急激な変化に対応するのが難しい。

6. 実験回数の増加:

Thompson Samplingは探索と利用のトレードオフを調整するため、アクションを試行する回数が増えると、探索が減少し、過去のデータに過剰に適合する可能性がある。

これらの課題や制約を克服するために、Thompson Samplingを改良したり、他の強化学習アルゴリズムと組み合わせたりする研究が行われている。適切なアプリケーションや環境において、Thompson Samplingは優れた選択肢であることがあるが、その制約を理解し、適切に設計と調整を行うことが重要となる。

Thompson Samplingの課題への対応について

Thompson Samplingの課題に対処するために、以下の方法やアプローチが取られている。

1. 初期探索の問題への対応:

初期探索が不足する問題に対処するために、”ε-グリーディ法（ε-greedy）の概要とアルゴリズム及び実装例について“で述べているε-greedy法や”UCB（Upper Confidence Bound）アルゴリズムの概要と実装例“で述べているUCB（Upper Confidence Bound）法と組み合わせることがある。これらのアプローチは、初期段階でより多くの探索を促進し、情報の収集を高めることができる。

2. パラメータの事前知識:

パラメータの事前知識が不足する場合、非情報性の事前分布（例: “ディリクレ分布の概要と関連アルゴリズム及び実装例について“で述べているディリクレ分布など）を使用することが考えられる。また、Thompson Samplingは自己探索によってパラメータを更新するため、初期の事前知識が後に修正されることがある。

3. 計算コストの低減:

計算コストが高い場合、近似アルゴリズムや高速なサンプリング手法を導入して計算を最適化することができる。また、並列処理やGPUを使用することで、効率を向上させることも考えられる。詳細は”機械学習における並列分散処理“も参照のこと。

4. マルチアームバンディット以外への一般化:

Thompson Samplingを他の問題に拡張するために、カスタマイズ可能なモデルとアルゴリズムの設計が必要となる。特定の問題に合わせて報酬分布やパラメータ更新方法を変更し、アルゴリズムを適用できる。

5. 非定常環境への適応:

環境が変化する場合、Thompson Samplingは適応性に制約を持つため、様々な戦略を検討することが必要となる。コンセプトの変化を検出し、パラメータ更新を適切に調整する方法を導入することが考えられる。

6. 実験回数の増加への対応:

実験回数が増加する場合、エクスプローレーションとエクスプロイテーションのバランスを保つことが重要となる。パラメータの更新方法や探索パラメータを調整することで、最適なバランスを見つけることが可能となる。

参考情報と参考図書

バンディット問題に対する詳細は”バンディット問題の理論とアルゴリズム“に述べている。そちらも参照のこと。

ウェブ上の情報としては”Netflixも使っている！Contextual Banditアルゴリズムを徹底解説“、”Contextual Bandit LinUCB LinTS“、”バンディットアルゴリズムを用いた推薦システムの構成について“、”Contextual Bandit を用いた賃貸物件検索システム“等がある。

主要な参考図書（Thompson Sampling を含む）

1. Bandit Algorithms — Tor Lattimore & Csaba Szepesvári

2018–2020年に出版された最も包括的な多腕バンディット教科書。
Thompson Sampling に関する章と理論的解析（ベイズ・バンディット、期待後悔など）が詳しい。

2. Introduction to Multi-Armed Bandits — by Alessandro Slivkins

多腕バンディット全般の理論的背景とアルゴリズムを丁寧に解説。
Bayesian bandits や Thompson Sampling の理論にも踏み込む構成。

3. Multi-armed Bandit Models: A Tutorial

タイトルは「チュートリアル」ですが、古典的文献レビューや主要アルゴリズムの解説がまとまっている本格派。

4. Reinforcement Learning: An Introduction — Richard S. Sutton & Andrew G. Barto

バンディット問題と探索-活用トレードオフを扱う定番教科書（Thompson Sampling も話題として触れられることが多い）。
多くの学習教材や講義で引用される。
（※Thompson Sampling が中心トピックではないが、背景理解で強力）

関連領域で推奨される教科書・参考書

Bayesian Data Analysis — Gelman et al.

Thompson Sampling のベイズ的背景（事前・事後分布）を深く理解するなら最良の英語書。
バンディット固有ではないが、ベイズ推論の基盤として有用。

Machine Learning: A Probabilistic Perspective — Kevin P. Murphy

機械学習全般の確率的アプローチをカバー。
バンディット／強化学習の基礎を確率的視点で学べる。

補助的な文献（図書ではないが重要）

以下は学術的な理論背景を理解する上でよく引用される論文・チュートリアルで、教科書と併せて読むと理解が深まる：

A Tutorial on Thompson Sampling — Daniel Russo & Benjamin Van Roy
（Thompson Sampling の理論とアルゴリズムを丁寧に整理した総説）
Analysis of Thompson Sampling for the Multi-armed Bandit Problem — Agrawal & Goyal
（理論的収束解析／後悔境界の証明）

参考図書としては”バンディット問題の理論とアルゴリズム“