世界を変えた確率と統計のカラクリ134話 読書メモ

機械学習技術 デジタルトランスフォーメーション技術 人工知能技術 数学 アルゴリズムとデータ構造 lif tips&雑記 本ブログのナビ
世界を変えた確率と統計のカラクリ134話 読書メモ

世界を変えた確率と統計のカラクリ134話より。 岩沢 宏和

大数学者二人の往復書簡から始まった確率論と「政治算術」として始まった統計学。それらは、どのような発展を遂げ、現代に至ったのか。天才たちのユニークな発想とそこから生まれた偉大な成果を、豊富なエピソードとともに軽やかに描く科学読み物。

「確率・統計」の問題はとても身近でわかりやすくおもしろい反面、解答を考えるとなると、いくつも正しそうな答えが出てきて、なかなか難しかったりする。実際に、現代の中学生・高校生が正しく答えられる問題でも、当時の大数学者が間違えてしまった例がある。一方で、大数学者たちによる、ユニークな問題に対しての数理的センスに満ちたエレガントな解法も残っている。そうした一見不思議な問題や巧みな思考を要する事柄、興味深い歴史的なエピソードを、アクチュアリーで数学パズル・デザイナーでもある著者のユニークな視点で、たくさん紹介されている。」

第1章 賭け事にも幾何学的精神を – 確率論の始まり-

001 スパゲッティの輪
002 天気予報と確率
003 確率論の誕生した年
004 「確率」という言葉
005 カジノ必勝法?
006 カルダーノという先駆者
007 カルダーノの解けなかった問題 -分配問題
008 ガリレオのサイコロ問題
009 ド・メレ-きっかけを作った男
010 分配問題の解決
011 パスカルの天才ぶり
012 フェルマーの魔法 -消化試合論法
013 300年以上未解決だったこと
014 おそるべし賭博師ド・メレ
015 確率のテクニカルターム
016 事象とは何か
017 ルーレットの偏り
018 事象の分割
019 ギリシャ文字
020 トドハンター「確率論史」
021 ホイヘンスの活躍
022 ギャンブラーの破産問題
023 ホイヘンスの期待値
024 チャック・ア・ラック
025 期待値の計算方法
026 期待値の加法性
027 スパゲッティの輪の答え
028 統計学の始まり
029 イギリスの政治算術
030 オランダで始まった保険数学
031 オランダ全盛期

第2章 母なるものが生まれるまで – 古典的確率論の完成 –

032 確率論の不幸
033 「驚異の年」
034 ニュートンと確率の接点
035 一般2項定理
036 ライプニツの失敗
037 古典的確率論の中興の祖たち
038 ヤコブ・ベルヌーイ「推論術」
039 ベルヌーイ試行、二項分布
040 確率分布とは何か
041 大数の弱法則
042 天才ド・モアブルの苦難
043 ド・モアブルのトリック
044 トリックの続き
045 ド・モアブル「偶然論」
046 独立
047 52枚対52枚
048 正規分布の発見
049 正規分布の式
050 平均、分散、標準偏差
051 対数
052 ネーピア自身の対数
053 スターリングの公式
054「確率」というテクニカルターム
055 出席番号と背の順番
056 貴族モンモール
057 トレーズ
058 オイラーと確率論

調和級数

059 フランス革命期の数学者たち
060 古典的確率論の完成者ラプラス
061 ラプラス「確率の解析論」
062 母関数の理論

generating function
ある操作を施すと、確率や統計にお焼いて興味のある値を生み出してくれる関数
生み出してくれるので日本語では「母」がつく
確率母関数は確率を生み出す
モーメント母関数はモーメントを生み出す
キュムラント母関数はキュムラントを生み出す
母関数は対応する確率分布に対する情報をすべて持っている
1次から4次のモーメントが分かっていれば平均、分散、歪度、尖度とうの指針がすべて計算できる
連続型に対するモーメント母関数は、ラプラス変換の一種
連続型に対する特性関数はフーリエ変換

063 母関数の身近な利用例 -シッカーマン・ダイス
064 母関数の典型的な利用例
065 特性関数の使い道

第3章 パン屋の不正も見抜く – 正規分布の時代 –

066 正規分布の偏在性
067 「ガウス分布」と呼ばれて
068 スティグラーの法則
069 3大数学者
070 数学界のプリンス
071 誕生年の覚え方
072 24歳のガウス
073 「寡作なれど熟したり」
074 誤差分布としての正規分布
075 中心極限定理
076 ガウス積分とπ
077 ガウス積分を最初に成し遂げたのは誰か
078ガウスと確率
079 ガウス=クズミン分布
080 ポアンカレの逸話
081 ケトレーの実話
083 統計学のパトリアーク-ケトレー
084 マクスウェル分布
085 ゴルトンはなんでも正規分布
086 母集団という話
087 相関と回帰
088 順位相関係数

第4章 歴史的なアフタヌーンティー – 数理統計学を作った人々 –

089 歪んだ分布とカール・ピアソン

確率分布を捉えるために4つのパラメータを定義
平均(位置)
一次のモーメント
分散(散らばり)
二次のモーメント
歪度(歪み)
分布の左右の非平衡
正規分布の歪度は0
三次のモーメント
尖度(尖り)
例:分布の中央の尖り
両裾が長く続いている度合い
正規分布の尖度は3
四次のモーメント
正規分布は2つのパラメータ:平均、分散
正規分布以外の分布の存在
二項分布
ポアソン分布
ガンマ分布
標本x1,x2・・xnのk次のモーメントとは各観測値をk乗したものの平均 xk=(x1k+x2k・・・xnk)/n

090 カール・ピアソン年譜
091 数理統計学の先駆者-ティーレ

キュムラントの概念をも解いて展開式の未知の係数を書き表し、再帰的な手法で求めていく
グラム・シャリエ展開に基づいて「歪んだ」分布の密度関数を、モーメント法を使って求める

092 ティーレといえば

テイーレの微分方程式

093 エッジワース

エッジワース展開

094 キュムラント

確率分布に対して定まる一群の基礎数値
k=1,2,・・に関してk次のキュムラントとして定義
Xの従う分布のk次のキュムラントをkk|X|と書く

095 キュムラントと中心極限定理
096 推測統計学

母集団から抽出した標本で母集団の特徴や性質を推測する
製品の品質管理で使われる
分布の種類になんの過程をしないものはノンパラメトリックな統計的推論と呼ばれる

097 戦後日本の復興と推測統計学
098 喧嘩だらけの20世紀統計学史
099 ペンネーム
100 スチューデントのt分布

ゴセットによるt分布の発見
データが数十しかない中で母集団分布を推定する
同じ正規分布に従う小標本をたくさん用意して、標本平均Xと標準偏差sを計算して、x/sをとってプロットして分布がt分布となることを発見
T分布があれば小標本でも蓋然誤差が見積れる

101 標本分布論

標本から作る統計量(平均、標準偏差等)が確率変数としてどのような分布に従うかを研究するのが標本分布論
カイ2乗検定:カイ2乗分布に従う統計量を検定
T検定、F検定

102 統計学の父-フィッシャー

フィッシャーのz変換
実験計画法
分散分析法
F検定

103 最も有名な実験

実験計画法
統計的検定
無帰仮説
無帰仮説が正しいとすると実際に観察されたのと同等以上の極端な結果が出る確率がかなり低い(例えば5%未満)」場合には無帰仮説を棄却する
「違いがわからない」を無帰仮説として棄却されると「違いがわかる」と判定され
無帰仮説が棄却されなければ、「違いがわかる」ことは支持されないが、「違いがわからない」も支持されない
無帰仮説が棄却される時のみ統計的に有意であると判断される
統計的検定で「確率が低い」と判定する基準となる上限の確率(例えば5%)のことを有意水準という

104 乱数の本

統計的な実験のためにはランダムが必要

105 乱数を作れ

カイ2乗検定でランダムかどうかを判定

106 ネイマン=ピアソン流検定理論

フィッシャーの検定理論を発展
フィッシャーは優位性検定
仮説検定
対立仮説を扱う
対立仮説とは無帰仮説を棄却した時に支持される仮説
無帰仮説「規格道理である」対立仮説「規格より大きい」
小さい場合は棄却されない
対立仮説を立てることで棄却する方向性を定めることができる
統計的検定の誤り
第一種の誤り
無帰仮説が正しいのに棄却してしまう誤り
第二種の誤り
対立仮説が正しいのに無帰仮説を棄却できない誤り
example
無帰仮説「コインは表も裏も等しく出やすい」、 対立仮説「表の方が出やすい」の時、 表が5回でる確率は(1/2)5=1/32=3.125%で無帰仮説は棄却、 3.125%の確率で第一種の誤りの可能性
コインの表の出る確率が75%の時、 上記の仮説に対して(3/4)5=23.7%で無帰仮説は棄却されないが、 表が出る確率は75%で出やすいので対立仮説は正しい
回数を増やすと誤りの確率は低減する
検出力:検定力
第二種の誤りを1から引いた値
ネイマン・ピアソンの補題
無帰仮説と対立仮説が単純な場合、与えられた有意水準のもとで検出力を最大にするためにはどうすれば良いのかを示す

107 信頼区間

ネイマンとピアソンによる「区間推定」の手法
「信頼係数」を定めて推定の結果を区間として表す

108 点推定の理論

ピンポイントで推定を行う
点推定の結果から得られる推定値を「点推定値」とする
点推定値は観測値の関数の値
点推定値に対応した確率変数のことを点推定量という

109 最尤法

観測値から判断して、最も尤もらしい母数の値を決定する方法
尤もらしさは「尤度」というもので測る
母集団が離散分布で、未知母数をθとし、 母集団分布の確率関数をf(x,θ)とすると、 標本x1,…,xnが得られた時の尤度Ln(θ)は Ln(θ)=f(x1,θ)f(x2,θ)・・・f(xn,θ)で表される
尤度が最大となるθを見つけて、それを点推定値とするのが「最尤法」
対数尤度=LogLn(θ)=logf(X1,θ)+・・+logf(Xn,θ)

110 最尤法の生まれた年
111 点推定量の性質

安いサイコロを1000回振って、159回の1の目が出たとき、確率pを点推定すると159/1000=0.159となる
点推定量
その実現値を点推定値として用いる確率変数
持っているべき性質
不偏性
点推定量の期待値が(理論上)母数の真の値に一致する
不偏性を満たす点推定量を「不偏推定量」という
十分性(充足性)
標本の大きさをnで固定した時、当の点推定量以外の標本の情報は、点推定にとって(理論上)足しになることはないというもの
十分性を満たす推定量を「十分推定量」という
一致性
標本の大きさをどんどん大きくしていけば、点推定値は真の値に収束していく
一致性を満たす点推定量「一致推定量」という
最小分散性
不偏性を満たす点推定量のうち、その分散が最小であるもの
分散が小さい方が点推定量が真の値から離れ難いと期待できる
最小分散性を満たす点推定量を「最小分散不偏推定量」という
有効推定量ならば最小分散不偏推定量である
クラメール・ラオの不等式から
汎用的な点推定法
モーメント法
カール・ピアソン
標本のモーメントが母集団の真のモーメントに一致するものと仮定して必要な母数を点推定するもの
簡易に利用できるが、不偏性や最小分散性は期待できない
最尤法
フィッシャー
大標本であれば最尤法は万能の統計量

112 データの打ち切り

問題
ある機械製品の故障するまでの日数が母平均が未知の値μである指数分布に従う
この製品10個を調査してμの値を推定する
1000日調査して、故障したのは6個で、故障するまでの日数は409,544,590,725,782,948日
残り4個は1000日経過してもまだ故障しない
故障するまでの日数の期待値を求める
求める値
故障するまでの日数の期待値=故障までの日数の合計/故障した個数
=(409+544+590+725+782+948+1000×4)/6=1333

113 クラメール=ラオの不等式

不偏推定量のうち分散が最小のものが理想的な点推定量である
不偏推定量がどれくらいまで小さくすることができるのかに理論的に答える法則

114 ハロルド・クラメール

第5章 どんなモデルも正しくない – コンピューター時代の統計学 –

115 ジョン・テューキー

ハムサンドイッチの定理
多重比較検定
テューキーの補題
Bitの定義を作り出す

116 テューキー時間
117 高速フーリエ変換

テューキーとジェームズ・クーリイが提案
離散フーリエ変換を高速で計算する方法
離散フーリエ変換
一種の母関数
畳み込み
関数gを並行移動しながら関数fに重ね足し合わせる二項演算
独立な分布の和の離散フーリエ変換は離散フーリエ変換の積である

118 探索的データ解析

データの予備解析を行う際に図が重要な役割を果たす
テューキーの「探索的データ解析」
データが持つ情報を多面的に捉える

119 ロバスト統計

ジョージ・ボックスのロバストの概念
統計上の基準が実験者のニーズを満たすには
検定の対象としている特定の要素の変動に対する感応度は高い
外的な要素について実際に生じる程度の大きさの変動に対する感応度は低い

120 ノンパラメトリック

母集団分布に仮定を置かない
パラメータの推測に帰着しない
ピアソンのカイ2乗検定はノンパラメトリック
コルモルゴフ・スミルノフ検定ものノンパラメトリック検定
クラメール・フォンミューゼス検定も

121 ジャックナイフ法

偏りを近似的に修正する手法

122 ブートストラップ法
123 エフロンのサイコロ
124 ベイズ統計学前史
125 アクチュアリーとベイズ統計学
126 ベイズ統計学とコンピューター

BUGS
ギブズサンプリングを用いたベイズ統計
MCMC
マルコフ連鎖モンテカルロ

127 モデルの正しさ

本質的にどのモデルも正しくないが、中には有用なものがある
モデルを選択するにあたって、真であることより有用であることが十四あう

128 赤池情報量基準

AIC
統計モデルを選択するための基準
そのモデルによる推定値を用いて計算した尤度をLとし、そのモデルのパラメータ数をkとすると
AIC=-2logL+2k
AICが小さい程よい
基本は大標本対象
小標本のものもある
情報量(カルバック・ライブリー情報量)が重要
AICの他に、BIC,CIC,EIC,GIC,PICがある

129 交差検証法

クロスバリデーション検証
使えるデータを2つのグループにして一つでモデル推定、一つでテスト
適合具他愛を調べる方法
予測と実際の値の差の二乗の平均をみる
モデルが正しいかの検証
LOOCV(Leave-one-out cross validation)
データがn個としたら1個だけをテスト用にして残りでモデルを生成

130 一般化線形モデル

Generalized Linear Model
統計モデルの一つ
線形モデルでは、結果として考えられるもの(なんらかの量として表される)をいくつかの要因による効果の足し算で表す。
要因は、量で表されるものとそうでないもの(質で表されるもの)とがある。
リンク関数

131 一般化線形モデルと統計ツール

線形モデルで答えを求めるには、ある種の連立一次方程式を解ければ良い
GLMM : Generalized Linear Mixed Model
一般化線形混合モデル
GAM : Generalized Additive Model
一般化加法モデル

132 クラス子どの事故率と一般化線形モデル
133 生きた伝説 -ラオ
134 全ての判断は統計学である

コメント

  1. […] 世界を変えた確率と統計のカラクリ134話 読書メモ […]

  2. […] 世界を変えた確率と統計のカラクリ134話 読書メモ […]

  3. […] 確率・統計の理論や歴史に対する参考図書としては、”はじめての確率論 読書メモ“、”確率論入門 読書メモ“、”人間と社会を変えた9つの確率・統計物語 読書メモ“、”世界を変えた確率と統計のカラクリ134話 読書メモ“を参照のこと。また具体的な実装と活用については”pythonによる統計モデリング“、”Clojure/Incanterを用いた統計解析と相関評価“、”確率的生成モデルに使われる各種確率分布について“等を参照のこと。 […]

タイトルとURLをコピーしました