ボードゲームとAI “アルファ碁はなぜ人間に勝てたのか” 読書メモ

人工知能技術機械学習技術自然言語処理技術人工知能アルゴリズム ICT技術デジタルトランスフォーメーション人工生命推論技術知識工学本ブログのナビオートマトンと状態遷移と自動計画

イントロダクション

AlphaGo（アルファ碁）は、Google DeepMindによって開発されたコンピュータ囲碁プログラムで、2015年10月に、人間のプロ囲碁棋士を互先（ハンディキャップなし）で破った初のコンピュータ囲碁プログラムとなる。コンピュータが人間に打ち勝つことが最も難しいと考えられてきた分野である囲碁において、人工知能が勝利を収めたことは世界に衝撃をもたらし、AlphaGoの登場は単なる一競技の勝敗を越え、人工知能の有用性を広く知らしめるものとなり、世界的AIブームを呼び起こすきっかけともなっていった。今回は、碁を含めたボードゲームとAIとの関連をテーマに述べ、図書「アルファ碁はなぜ人間に勝てたのか」の読書メモと「最強囲碁AI アルファ碁解体新書深層学習、モンテカルロ木、強化学習から見たその仕組み」の読書メモも併記する。

ボードゲームについて

ボードゲームは、特別なゲームボードとゲームピース（駒、カード、サイコロなど）を使用してプレイされるゲームの一種であり、これらのゲームは、複数のプレイヤーまたはチームがルールに従って競い合う、戦略的または娯楽的な活動となる。ゲームと人工知能（AI）の関係は非常に深く、ゲームは古くからAIの研究、開発、応用において重要な役割を果たしている。ボードゲームは非常に多様で、以下に示すようにさまざまなテーマやルールに基づいたものが存在している。

1. 戦略ゲーム:

チェス、囲碁、将棋など、戦略的思考が重要なゲーム。駒を巧みに配置し、相手を倒すことが目的となる。

2. ファミリーゲーム:

カタンの開拓者たち、カルカソンヌ、チケット・トゥ・ライドなど、家族や友達と楽しむのに適したゲーム。ルールが比較的簡単で、戦略的要素と運の要素が組み合わさっている。

3. ワーカープレイスメントゲーム:

ケイヴァーナ、アグリコラなど、プレイヤーが「ワーカー」と呼ばれる駒を配置してリソースを収集し、目標を達成するゲーム。リソース管理と戦略が重要となる。

4. カードゲーム:

トランプ、ポーカー、ブリッジ、ハースストーンなど、カードを使用してプレイするゲーム。トリックテイキングゲーム、トランプゲーム、カードバトルゲームなどがある。

5. ワードゲーム:

スクラブル、ボグル、コードネームなど、単語を作成または推測するゲーム。語彙力や言葉の組み合わせが試されます。

6. アブストラクトゲーム:

オセロ、ハイスロー、アブストラクト戦術など、テーマがなく抽象的なルールに基づくゲーム。戦術的な考えとパターン認識が重要となる。

7. 協力ゲーム:

パンデミック、グローブトロッターズ、Gloomhavenなど、プレイヤーが協力して共通の目標を達成するゲーム。競争ではなく協力が求められる。

8. ホラーゲーム:

ベタレータウン、マンション・オブ・マッドネスなど、恐怖要素が取り入れられたゲーム。プレイヤーはホラーのシナリオに立ち向かう役割を果たす。

9. 経済ゲーム:

モノポリー、アクワイア、パワグリッドなど、経済的要素やリソース管理が重要なゲーム。プレイヤーは資産を増やし、競争相手を打倒する。

“ボードゲームワールド“ではこれらを含めた様々なボードゲームが紹介されている。

ボードゲームとAI

ゲームとAIの関係は相互に補完し合い、両分野の発展に寄与したものとなっており、コンピューターサイエンスと人工知能の研究において、ゲームは非常に重要な要素となっているとともに、AIの進化はゲーム技術に新たな可能性をもたらしている。

以下に、ゲームとAIの関係についていくつかの重要なポイントについて述べる。

ゲームにおけるAIの応用:

“デジタルゲームAIの歴史(1)(人との機械のインタラクションの知能化)“等で述べているようにゲーム内のキャラクターや敵キャラクターの行動を制御するためにAIが使用されており、これにより、プレイヤーと対戦相手としてのAIキャラクターがよりリアルな振る舞いをすることが可能になっている。

AIのトレーニングと強化学習:

ゲーム環境は、AIモデルをトレーニングおよび評価するためのプラットフォームとして広く使用されている。特に”様々な強化学習技術の理論とアルゴリズムとpythonによる実装“で述べているように強化学習（Reinforcement Learning）では、AIエージェントがゲーム内で報酬を最大化する方法を学び、例えば自動運転車の制御からロボティクスまで幅広い応用が可能になっている。

戦略アルゴリズムの実践:

“ゲーム理論の概要とAI技術との融合と実装例“や”意思決定の理論と数学的決断の技術“で述べられているような様々な戦略アルゴリズムはゲームを用いて評価されることが多い。例えばAIは、チェスや囲碁などの戦略型のボードゲームにおいても非常に高いレベルのプレイヤーと競り合うことができるようになっており、Deep Blue（チェス）、AlphaGo（囲碁）など、AIが世界的に有名なトッププレイヤーに勝利した例がある。

ゲームエンジンとAI開発:

“デジタルゲームAIの基本技術(空間軸の認識技術)“で述べられているようなゲームエンジンは、ゲームの開発においてグラフィックスや物理シミュレーションだけでなく、AIの実装にも利用されている。エンジンはAIエージェントの動作や反応を制御し、ゲームのリアリズムを高める。

エンターテインメントと教育:

AIはゲームを通じてエンターテインメント体験を向上させるだけでなく、”AIと教育について“で述べているように教育分野でも活用されている。ゲームベースの学習環境は、学生やプレイヤーが問題解決能力や戦略的思考を養うのに役立つ。

AIの発展とゲームの進化:

AIの進歩は、ゲームの進化にも影響を与えている。よりリアルなキャラクター、相互作用、ストーリーテリングが可能になり、ゲーム体験が向上している。

テストベッドとしての役割:

ゲームはAIのアルゴリズムやモデルのテストベッドとしても利用されており、AI研究者は、さまざまな問題に対するアプローチをゲーム内でテストし、改善を加えることができる。例としてボードゲームは、戦略的な意思決定、局面評価、パターン認識など、AIが取り組むべき多くの課題を提供しいる。

ボードゲームAIに用いられるアルゴリズム

ボードゲームAIに用いられるアルゴリズムは、ゲームの種類や難易度に応じて異なるが、いくつか一般的なアルゴリズムが存在している。これらは”探索アルゴリズムの概要と各種アルゴリズムおよび実装“で述べられているように主に探索系のアルゴリズムが中心となる。以下に、主要なボードゲームAIアルゴリズムについて述べる。

1. ミニマックス探索:

ミニマックス探索は、ゲーム木（ゲームの可能な全ての局面を含む木構造）を探索し、プレイヤーの最適な手を見つけるためのアルゴリズムとなる。ミニマックスは、相手の手番において最も有利な局面を選び、それに対して最も不利な手を選び、アルファベータ剪定と組み合わせて、探索を効率的に行うものとなる。詳細は”機械学習のためのオンライン型確率的最適化とAdaGrad、ミニマックス最適化“や”意思決定の理論と数学的決断の技術“も参照のこと。

2. アルファベータ剪定:

アルファベータ剪定は、ミニマックス探索の効率を向上させるためのテクニックで、不要な探索を省略するものとなる。アルゴリズムは、最善手の範囲を限定し、それ以外の手を評価しないようにしている。詳細は”アルファベータ剪定の概要とアルゴリズム及び実装例について“を参照のこと。

3. モンテカルロ木探索 (MCTS):

モンテカルロ木探索は、確率的な探索を行い、プレイアウト（ランダムな手をプレイしてゲームの結果を評価）を多数実行して最適な手を見つけるアルゴリズムとなる。MCTSは、碁や将棋などの複雑なゲームにも使用されている。モンテカルロ木の詳細は”モンテカルロ木探索の概要とアルゴリズム及び実装例について“を参照のこと。

4. 強化学習:

強化学習は、ゲームプレイの経験から学習し、最適な戦略を獲得するアルゴリズムとなる。深層強化学習（Deep Reinforcement Learning）を用いたAIは、AlphaGoやAlphaZeroのように高度な戦略を学習し、プロのプレイヤーを打ち負かすことがある。詳細は”強化学習技術の概要と各種実装について“を参照のこと。

5. 評価関数:

ボードゲームAIは、局面評価のために評価関数を使用します。評価関数は、現在の局面が有利か不利かを評価し、ミニマックス探索やMCTSで使用されている。評価関数の質がAIの強さに大きな影響を与える。

6. オープニングブック:

オープニングブックは、特定のオープニング手順や序盤の局面に対するAIの事前知識を含むデータベースとなる。これにより、AIは序盤から有利な局面に導かれる。

ボードゲームAIは、これらのアルゴリズムを組み合わせ、ゲームのルールや戦術に応じて最適なアプローチを選択している。ゲームの複雑さや探索空間の大きさに応じて、異なるアルゴリズムが使用されることがあり、また、AIの強化と学習により、より高度な戦術と戦略を開発することが可能になっている。

次に最も古くからあり、ポピュラーなゲームであるオセロ、将棋、碁等の戦略型ゲームでのAIの相違点について述べる。

AIの観点からみたオセロ、将棋、碁の相違点

AIの観点からみたオセロ、将棋、碁の相違点はいくつかある。以下にそれぞれのゲームにおけるAIの取り組みと相違点について述べる。

1. オセロ（リバーシ）:

オセロは比較的単純なルールを持つゲームで、8×8のボード上でプレイされる。AIは可能な手を評価し、ボード上の石の配置を最適化するための戦略を学ぶ。
オセロのAIは、”ミニマックス法の概要とアルゴリズム及び実装例について“で述べているミニマックス法やαβ刈りなどの古典的なゲーム木探索アルゴリズムを使用している。また、ヒューリスティック評価関数を使って局面を評価している。
AIの強化学習はオセロにも適用され、深層強化学習モデル（例: AlphaZero）がオセロのプレイに成功している。

2. 将棋:

将棋は非常に複雑なゲームで、将棋盤上に40個以上の駒があり、動きのルールが多岐にわたっている。これにより、将棋AIの開発は非常に困難となる。
将棋AIは、ゲーム木探索、αβ刈り、ヒューリスティック評価関数などを使用しており、局面の評価にはさまざまな要素が含まれます（駒の配置、攻撃的・守備的な要因、王の安全性など）。
将棋AIには多くのオープンソースプロジェクトがあり、プロの棋士に勝つことができるほどの強さを持つAIも存在する。

3. 碁:

碁は将棋よりもはるかに複雑なゲームで、盤面上に石を置くことが目的となる。碁のボードは19×19の大きなもので、局面のバリエーションは膨大なものとなる。
碁AIの開発には、ディープラーニングが主要な役割を果たしている。AlphaGoとAlphaZeroは、碁のAIの進化を代表している。
碁AIは畳み込みニューラルネットワーク（CNN）や強化学習（特にモンテカルロ木探索）を使用して、局面の評価と最善手の選択を行っている。碁AIは、人間のトッププロに勝つことができるほどの強さを持っている。

オセロ、将棋、碁と丞につれて、その戦略の組み合わせは膨大になっていく。戦略ゲームAIの基本は探索型のアルゴリズムとなるが、オセロのAIは、ミニマックス法やαβ刈りなどの古典的なゲーム木探索アルゴリズムを使用し、ヒューリスティック評価関数を使って局面を評価しているのに対して、将棋のAIはゲーム木探索とヒューリスティック評価に焦点を当て、碁のAIはそのバリエーションの多さから、深層学習を用いたアプローチが主体となっている。

アルファ碁はなぜ人間に勝てたのか読書メモ

本書は京都大学情報産業機構教授である斉藤康己による解説書となる。彼の専門は、人口知能、認知科学、インターネットやセキュリティなどであり、共訳書に『メタマジック・ゲーム』（D.R.ホフスタッター著、共訳、白揚社、2005）、『リテラリーマシン　ハイパーテキスト原論』などがあり、著書に『ユビキタスオフィスのテクノロジー』（電気通信協会、2005）がある。

読書メモは以下となる。

アルファ碁はなぜ人間に勝てたのか 斎藤康己

プロローグ　アルファ碁の衝撃

3月上旬の出来事
世の中の反応
プロ棋子の反応
囲碁プログラマたちの反応
私のスタンス(この本で書く事)

第１章　ＡＩとゲーム
1.1 AIは何を目指してきたのか?

概要
1956年のダートマス会議でAIという言葉が生まれる
この中に「知能増強自動機械のシステム設計(Synthesis of Automata Design for an intelligence amplifier)」という論文がある
IA(Inteligence Amplifier) 知能を増強するもの
過去のコンピュータも計算を代行するという意味ではIA
コンピューターの原理のチューリングモデルも計算という抽象化
計算機に人間と同じような知的な動作をさせようとしてきたのがAI
AIが実現できればIAになる
人口の知能と、人を助ける計算機
イライザ(Eliza)
精神科医の患者との会話をシミュレート
シュルドルー(SHRDLU)
積み木の世界の質問と動作
デンドラル(DENDRAL)やマイシン(MYCIN)
初期のエキスパートシステム
AM(Automated Mathematician)
吸うか゜クシャが数学的な概念を形成する過程をシミュレート
サイク(Cyc)
知識ベースのデータベース化
真似をする対象である人間がどのようにして知的な動作を行ってきたかが勝訴際に分からなかった

1.2 強いAIと弱いAI

「同じ」の二つの意味
細かく分解すると異なっているが 機能(あるいは機能を実現するための構成要素のつながり具合や、 処理の進め方(アルゴリズム)のレベル) というレベルで同じ

1.3 AIの歴史

楽観的な第1次ブームから、知識工学的な第2次ブームへ
ディープラーニングの第3次ブーム

1.4 ゲームプログラミング

チェスがゲームプログラムの先駆け
全てを網羅する「ゲームの木」
「良さそうな手」をどう判断するか?
囲碁や将棋でAI研究が進んでのはなぜか?
ゲームプログラミングを遥かに超える、ロボットや言語理解の世界

1.5 アルファ碁はAIではない?

AI効果

第２章　囲碁プログラムの変遷
2.1 コンピュータ囲碁研究の歴史

最初のプログラムの強さ38級
Albert Zobristによる物理的なアナロジーによる局面の認識
Algolでプログラム
Reitman and Wilcoxのプログラム(1970年代)
パターン認識に基づいた推論
WEBと呼ばれるデータ構造で 連(string:同じ色の石が並んだもの)と 石の軍団(group)という階層的なパターンを表現
パターンにより戦略を決定する
古典的な囲碁プログラムのお手本、MFG
1980年代、DavidFotlandの MFG(Many Faces of Go)
アルファベータサーチ、 ルールベースのエキスパートシステム、 パターンマッチングの組み合わせ
ニューラルネットを使う囲碁プログラム
1990年代、Herbert EndertonのGolem
候補手の生成には局面状況の認識に基づく簡単なルールを利用
候補手の絞り込みになューラルネットを利用
ニューラルネットの学習法
入力を一つ与え、出力を計算して、教師信号との誤差を求める
その後さは一つ前の層の阻止との結合の重みが原因で発生したと考え、求めた誤差が小さくなるように重みを修正する
同じようにして一つづつ手前の層へと重みを伝播する
もう一つのニューラルネットを使ったプログラム
Nicol Scharudophらの TD学習法'Temporal Difference Learning)"TD学習の概要とアルゴリズム及び実装例"
強化学習
物理で囲碁?
Bernd BrugmamnのGobble
原始モンテカルロ碁
ランダムなゲームを何千とこなしながら、「焼きなまし法」を使う

2.2 三目並べを例にして

三目並べのルール
三目並べ着手のためのルール(例)

2.3 ルールベースのプログラム

知能は記号の操作で実現できる
サイモンとニューエルの「物理記号システム仮説(physical Symbol System Hypothesis)」

2.4 パターンを覚えさせて強くする

パターンマッチング
「カタツギ」の候補点を特定するパターンマッチング

2.5 木検索によるプログラム

ゲームの木の大きさ
チェッカーゲームはすでに「解かれた」
どうしても必要な局面評価
最善の手を探すミニマックス法
効率を上げたアルファ-ベータ枝刈り
木探索は以後には不向き

第３章　新しい囲碁プログラムの潮流
3.1 囲碁知識なしで打てるモンテカルロ碁

最適化手法で囲碁を打つ
ブリュークマンのモンテカルロ碁のアプローチ
「自然ならどのように碁を打つのか」という観点で物理学の手法を応用
最適化手法の一つ「焼きなまし法」はグラフの最短経路探索でも使われる
ある状態から近くにあるある状態へランダムに遷移
最初のうちはある確率で値が大きくなる方へも遷移(時間とともに小さい確率にする)
モンテカルロ碁の画期性
今までの囲碁プログラムは木の探索を行っていない
ルールで次の一手を決める
囲碁の知識をほとんど使わない
完全にランダムに最後までプレイし、 そのようなプレイをたくさん行った 結果の平均値が一番高い手を打てば良い

3.2 効率を改善したモンテカルロ木探索

ランダムプレイの結果平均で局面評価
プジー、ヘルムステック、カズナーフのアプローチ
プレイアウト(ランダムに最後までやる回数)をいかにして減らすか
プレイアウトの枝刈り
焼きなましが必ずしも必要ない
モンテカルロ碁と従来の木検索や知識ベースの融合
モンテカルロ木探索
2006年のクーロン(Remi Coulom)の論文
モンテカルロ木検索は、モンテカルロ法とゲーム木の探索を巧妙に組み合わせたもの

3.3 深層学習(ディープラーニング)の登場

ニューラルネットの仕組み
深層学習(ディープラーニング)とは
自己符号化(autoencorder)
今では実用的な用途としてはめったに使われてないと書かれている。オートエンコーダは画像のノイズ除去や可視化程度でしか利用目的がない
実は、その後ディープラーニングのアルゴリズムは改良を重ね、事前学習をせずにランダム値を採用しても十分な精度が出るようになった
オートエンコーダの研究は進み、生成モデルで活用されはじめた
Variational Autoencoderはこれまでの入力を受けて出力が決定論的に決まるAutoEncoderと違って確率的である
ヒントンのアイデア
学習の効率アップ
深層畳み込みニューラルネット
「畳み込み」
元のデータの部分的な領域を少しづつずらしながら、 その領域を要約するような数値を次の層に出力する操作
畳み込みにより元の画像のズレに強くなる

第４章　アルファ碁の仕組み
4.1 アルファ碁全体の構造

ポリシーネットワークとバリューネットワーク
2つのネットワーク(モデル)を事前に学習
ポリシーネットワーク
次参ってがどこに打たれる場合が多いか
有望な候補て
バリューネットワーク
局面の評価値がどのようになるか
最終的な勝率
ロールアウトポリシー(ネットワーク) rollout policy (network)
精度を上げるバリューネットワーク
ポリシーネットワークで有望な候補手を抽出
その中から値の高い候補を選んでプレイアウトを開始
バリューネットワークによって計算を端折る

4.2 二つのニューラルネットとその学習

アルファ碁はどれくらい「学習」したのか?
16万局、2490万局面を学習データとして利用
局面と次の一手をペーアとした学習データを2800万局面準備
100万局面はテスト用に残す
ディストビリーフ(distbelief)という機械学習用ソフトを使って学習
Tensorflowになる
教師つき学習で得られたポリシーネットワーク
SL(supervised Learning) ポリシーネットワーク
過去の世代のポリシーネットワークとの対戦
RL(Reinforcement Learning) ポリシーネットワーク
50台のGPUで128万回(一日)の対局
SLポリシーネットワークデータ同士を対決させて得られる大量の棋譜ランダムに局面を抽出
それぞれのネットワークの構造

4.3 マシンパワーも重要

学習スピードはCPUの500倍

4.4 アルファ碁プログラムの特徴

アルファ碁には高次の戦略や目標はない
UCBという値を使って「探検(exploration)」という少し幅を広げた探索を行う
中で行われていることは単なる計算 (number crunching)
アルファ碁は「考えていない」

4.5 囲碁プレイヤとアルファ碁プログラムの違い

アルファ碁は有望な「次の一手を導き出すだけ」
アルファ碁の思考方法
アルファ碁の学習方法
柔軟性、汎用性
盤のサイズが変わると学習をやり直す必要がある

4.6 なぜアルファ碁はイ・セドル九段に勝ったのか?

三つの勝因
深層畳み込みニューラルネットワークとモンテカルロ木探索の組み合わせ
深層畳み込みニューラルネットワークには弱点があり、 時々盤面の全体像(global picture)を見失う
圧倒的なマシンパワー
CPU3000台分の計算機パワー
2つのニューラルネットの制度の良さ
中間層を12層まで増やしている
ニューラルネットを補うモンテカルロ木探索
CPU3000台分の計算機パワー
次の一手を予測するだけでもかなり強い碁を打てる

第５章　新しいＡＩの可能性
5.1 人間によるプログラミングの限界

いまだにわかっていない人間の脳内の情報処理
人間が脳内でどのようにして情報を処理しているか、 その詳細がわかっていない
機械は指示されたことしかできない
プログラミングという作業の困難さ
プログラミングとはあらかじめ「仕組む」こと
「あらかじめ仕組む」ためには 将来どのような事態が発生するかを予測しなければいけない
ニューラルネットはプログラミングの一部をサボる手法

5.2 学習プログラムの制約

問題の明確化
機械学習が適用できる要件
入力と出力の定義が明確で紛れがないこと
「理解する」という行為は定義困難
理解というプロセスの最終産物 (出力、アウトプット、脳内の状態変化)が定義できない
学習用データを収集する困難
大量の学習データを収集することが困難
ニューラルネットによる言語処理の課題
単語レベルではある程度手法があるが、 文をどのようにコーディングしてニューラルネットに入れるのかが問題

5.3 古典的プログラムとニューラルネットのハイブリッドAI

新たな可能性
AIは最初は記号主義 (サイモンとニューエルの物理記号システム仮説) の考えでスタート
計算機上の記号処理プログラムの工夫で実現しようとする
ヴィノグラードはシュルドルーを作って 積み木世界での動作を実行させたが限界を感じた
人間と機械のインタラクションの研究に移行
人間と機械がうまく共存して全体で効率の良いシステムを作る
IA(Inteligence Amplifier)

5.4 記号を作り出すシンボライザの話

AIの「身体性」とは
シンボライザ(symbolizer)
SGP(Symbol Grounding Problem:記号設置問題)
ハルナッド
外界から触覚、嗅覚、味覚、聴覚、視覚の全ての感覚を含む 感覚器官に入ってきた情報が、どのように統合されて、 我々の使うことのできるのうの内部のシンボルになるのか」 という問いに対して、そのプロセスを解明し、 情報の依存性をきちんと記述する
シンボライザは「身体性」とも関係している

5.6 ロボットや言語理解への応用

ニューラルネット(深層学習)が有望な領域
ロボット
自己学習器(auto encoder)による適切な概念や表現の教師なし学習の州法によるアプローチ
自動運転
自然言語理解
東大ロボプロジェクト
パット・ヘイズによる人間の一般的な物理法則の理解のメカニズムの定式化
Naive Physics Manifesto
シンボライザ的な処理機構を組み込んで、それと言語理解をどう結びつけるか
第五世代プロジェクトの失敗の要因
客観的に評価可能な評価軸を設定せずに、あやふやな成果で終わる

5.6 これからの囲碁プログラム

どんなに強くてもアルファ碁は「強いAI」ではない
アルファ碁に欠けている要素
目標意識
戦略や戦術
ゲーム全体の流れの認識(時間軸)
相手プレイヤーのモデル
序盤、中盤、終盤の意識
今後目指すべき囲碁プログラム
自分の手の説明ができるプログラム
子供のように学習するプログラム

第６章　人類社会へのＡＩのインパクト
6.1 注目を浴びるAI

第3次AIブーム

6.2 AIが人間を超える議論は杞憂

ロボットが人間を滅ぼす

6.3 AIが人間を乗り越える領域

単純作業はAIやロボットが得意
ロボットは人間との連携作業は苦手

6.4 AIが人間を超えられない領域

創造的作業は地にでは置き換えられない
機械は対人サービスが苦手
言語理解が最後のネック
悲観論を超えて
あとがき

最強囲碁AI アルファ碁解体新書深層学習、モンテカルロ木、強化学習から見たその仕組み

大槻知史による本書は学術論文（NatureやGoogleのサイト）などで提供されている難解なアルファ碁およびアルファ碁ゼロの仕組みについて、著者がとりまとめ、実際の囲碁の画面を見ながら、アルファ碁およびアルファ碁ゼロで利用されている深層学習や強化学習の仕組みについてわかりやすく解説した書籍となる。特にデュアルネットワークはまったく新しい深層学習の手法で国内外の技術者の関心を集めている。
本書を読むことで、最新AIの深層学習、強化学習の仕組みを知ることができ、自身の研究開発の参考にできます。また著者の開発したDeltaGoを元に実際に囲碁AIを体験できる。

以下に内容を示す。

最強囲碁AI アルファ碁解体新書 深層学習、モンテカルロ木、強化学習から見たその仕組み
はじめに
Chapter 1 アルファ碁の登場
01 ゲームAIの歴史と進化
02 天才デミス・ハサビスの登場
03 アルファ碁の活躍
04 囲碁AIの基礎
05まとめ
Chapter 2 ディープラーニング 囲碁は瞬時にひらめく
01 ディープラーニングとは
02 手書き数字認識の例
03 アルファ碁における畳み込みニューラルネットワーク
04 ChainerでCNNを学習させてみる
05 まとめ
Chapter 3 強化学習 囲碁は経験に学ぶ
01 強化学習とは
02 強化学習の歴史
03 多腕バンディッド問題
04 迷路を解くための強化学習
05 テレビゲームの操作獲得のための強化学習
06 アルファ碁における強化学習
07 まとめと課題
Chapter 4 探索 囲碁AIはいかにして先読みするか
01 2人ゼロ和有限確定完全情報ゲーム
02 ゲームにおける探索
03 従来のゲーム木探索(ミニマックス木探索)
04 囲碁におけるモンテカルロ木探索
05 モンテカルロ木探索の成功要因と課題
06 まとめ
Chapter 5 アルファ碁の完成
01 アルファ碁の設計図
02 非同期方策価値更新モンテカルロ木探索(APV-MCTS)
03 大量のCPU・GPUの利用
04 APV-MCTSの効果
05 アルファ碁の弱点
06 アルファ碁の未来
Appendix 1 数式について
01 畳み込みニューラルネットワークの学習則の導出
02 強化学習の学習則の導出
Appendix 2 囲碁プログラム用のUIソフト「GoGui」 およびGoGui用プログラム「DeltaGo」の活用方法
01 DelyaGoとは
02 GoGuiのインストールとGoGui用プログラム「志位リカ千喜良」の利用方法
終わりに

探索アルゴリズムの概要と各種アルゴリズムおよび実装 | Deus Ex Machina より:

2024年2月10日 4:53 AM

[…] “マルコフ連鎖モンテカルロ法の概要と実装について“でも述べているモンテカルロ法と木探索を組み合わせたMCTSは、”ボードゲームとAI “アルファ碁はなぜ人間に勝てたのか” 読書メモ“でも述べられているゲームプレイや碁などのボードゲームで使用される探索アルゴリズムであり、ランダムサンプリングと木の構築を組み合わせ、最良のアクションを決定するものとなる。AlphaGoなどのAIプログラムに採用され、人間のトッププレイヤーに勝利している。 […]

返信