未来はキミドリイロ

サイコメトリックアイドルを目指す心理学徒の勉強部屋です。勉強・趣味などについて書いています。

【書評】涌井良幸 (2009). 道具としてのベイズ統計.

わかりやすさに定評のある涌井先生の,ベイズ入門本です。
途中まで読んで積んでいたものをようやく読み終えたので,今更ですが書評など。
章立ては次の通り。

序章:GoogleもMSもベイズ統計!
1章:ベイズ統計の準備をしよう
2章:ベイズの定理とその応用
3章:ベイズ統計学の基本
4章:ベイズ統計学の応用
5章:MCMC法で解くベイズ統計
6章:階層ベイズExcel
付録

この本の優れた点を次のように箇条書きしてみました。

  • ベースとなるベイズの定理に関する例題が豊富
  • ベイズ推定と最尤推定とを対比して学習できる
  • 共役事前分布に関する説明が丁寧
  • 昨今普及したMCMC法に関する説明が圧倒的にわかりやすい
  • 各章にベイズ推定を行う例題がついており,イメージがわきやすい(特に経験ベイズ,階層ベイズはわかりやすいです)
  • Excelでの計算ワークシートを組めるよう丁寧に解説している)*1


本書は伝統的な頻度論的統計学の既習者で,かつベイズ統計に関するスキーマを作りたいという人にはうってつけの一冊だと思います。
この一冊をとっかかりにしてイメージを作った後に,久保先生の緑本や数ある入門書(渡辺先生,松原先生など)を読むと学習がスムーズになるかもしれません。

この本の要旨として,次のようなことをおさえておくとベイズ統計を理解するための枠組みを構成できるかもしれません。


次からひとつずつ,部分的に所見を交えながらですが述べていきたいと思います。

ベイズの定理とベイズ統計学の関係

(中学や)高校の教科書にも掲載されているベイズの定理とは次のように定式化される定理です。
P(A|B)=\dfrac{P(A, B)}{P(B)}=\dfrac{P(B|A)P(A)}{P(B)}

  • P(B|A)事象Aが起こったことを所与としたときに事象Bが起こる確率
  • P(A)事象Aが起こる確率
  • P(B)事象Bが起こる確率

この定理より,事象Bが起こったというデータが観測されたときに,その下で事象Aが原因である確率を求めることができると理解されます。

これをすこしだけ統計学風にアレンジして,事象Aを仮説H,事象BをデータDという形で読み替えて表現すると,次のようになります。
P(H_1|D)=\dfrac{P(H_1, D)}{P(D)}=\dfrac{P(D|H_1)P(H_1)}{P(D)}=\dfrac{P(D|H_1)P(H_1)}{\Sigma P(D|H_i)}


たとえば,Kさんが使っている携帯電話がiPhoneである,というデータが得られたとします。
国内のシェアをA社が30%,D社が45%,S社が25%としたときに,KさんのキャリアがA社である確率を求める,ということを考えます。*2
このとき,どの携帯会社もiPhoneを販売していますから,仮説としては次の3つが考えられます。

  1. H_1:Kさんが契約しているのはA社である
  2. H_2:Kさんが契約しているのはD社である
  3. H_3:Kさんが契約しているのはS社である

このとき,数式上の確率については次のような意味となります。

  • P(D|H_i):キャリアがH_iの条件の下で機種がiPhoneである確率
  • P(H_i):キャリアがH_iである確率
  • P(D):携帯電話がiPhoneである確率

このうちP(D|H_i)には「尤度(liklihood)」,P(H_i)には「事前確率(prior probability)」という名前がついています。

こうしたことがベイズの定理について言えるかと思いますが,これらはあくまでベイズの「定理」についての話であり,ベイズ統計学」の話ではありません。

ベイズ統計学を考えるにあたって,定理をより使いやすく書き直すと次のように表現できます。
 \pi(\theta|D)\propto f(D|\theta) \pi(\theta)

この式は,\pi(\theta|D)事後分布)がf(D|\theta)尤度関数)と\pi(\theta)事前分布)の積に比例することを意味します。*3
この式を利用してパラメータの事後分布を求めることがベイズ推定であると言えるでしょう。

最尤推定法とベイズ推定との関係

ベイズに興味を持つ方であればご存知とは思いますが,頻度論者はパラメータを所与のもの,すなわち「神のみぞ知る定数」であると考え,一方でベイジアンはパラメータが分布をもつ「確率変数」であると考えます。

根本的な態度こそ違いますが,最尤推定ベイズ推定は関連付けておくと理解が深まる印象を個人的に持っています。
というのも,無情報事前分布である一様分布を事前分布としてベイズ推定を行ったときに,事後分布のモード(事後モード)は最尤推定値と一致することが知られているためです。

誤解を恐れずに言うと,ベイズ推定は最尤推定の拡張である,と考えることができると思います。
上述したベイズ統計学での基本式を再掲し参照することで,それを確認します。
 \pi(\theta|D)\propto f(D|\theta) \pi(\theta)

この式のうちf(D|\theta)は頻度論的な統計学が扱う尤度関数と同一のものであることから,頻度論的な統計学での最尤推定は次のようにも表現できます。
 \pi(\theta|D)\propto f(D|\theta)

この式はベイズでいうところの事後分布は尤度関数と同じである(正確には定数倍である)ことを示しています。
したがって,ベイズ統計学というのは,最尤推定に事前分布を仮定すること・導入することを以てパラメータの事後分布を推定するものだと考えることができます。

ベイズの定理の側からも確認をしてみます。
\pi(\theta|x)=\dfrac{f(\theta, x)}{f(x)}=\dfrac{f(x|\theta)\pi(\theta)}{f(x)}=\dfrac{f(x|\theta)\pi(\theta)}{\int f(x|\theta)\pi(\theta)d\theta}

このうち,f(x)はデータとして観測されており所与ですから,事前分布にあたる分子の\pi(\theta)を消してしまえば尤度関数を最大化する\thetaを推定するという最尤推定の問題に帰着しますよね。

ベイズ推定を行う2つの方法
  1. 共役事前分布の利用
  2. MCMC法の利用

このうち,MCMC法の利用が昨今爆発的に増えている印象です。
それを行うための環境*4が整備されてきているのが理由でしょうか。

MCMC法(マルコフ連鎖モンテカルロ法)とは何か?

ベイズ統計では確率分布を扱うため,積分計算が必須になります。
モデルが複雑になればなるほど,積分計算も難しくなり,臨終します。
そうした煩雑さを避けるために,周辺分布を利用したリサンプリングを重ねることで数値計算力押しして疑似的に分布を求めてみよう,というのがモンテカルロ法の発想であると言えるかと思います。
その際,マルコフ性という性質を持たせることでリサンプリング効率を上げよう,というのがマルコフ連鎖モンテカルロ法の考え方といっていいでしょう。


ベイズ統計自体は今後も長く使われていくことが予想されますから,頻度論者であっても知識として知っておいて損はしないのでしょうね。
私個人としては今まで頻度論の中で統計を学んできたので,宗旨替えをするか否かを考えるためにももうすこしベイズについての勉強をしていこうと思っています。
頻度論的統計学ベイズ統計学では母数に対する考え方が違いますから,現象への態度の違い,モノの見方の違いなど,そうした数理的な面や実用性以外の面も併せて最終的な判断をしたいですよね。
頻度論的統計学の態度自体は非常に科学的であり,捨て去るべきものではないと考えます。
一方でベイズ統計の考え方は状況によってはより良く現象を記述できる可能性を有しており,量子論的な世界観との親和性は高いかもしれません。
頭を悩ませる夜は当分終わらなさそうです。

*1:これは個人的には重要視しませんが,ビジネスの世界では統計ソフトの導入やパッケージのインストールが個人の意のままというわけではないですから,大事なのだと思います。

*2:話がややこしくなるのでSIMフリーのことは考えません。

*3:文系人間としては,「パラメータの」事前/事後分布と呼ぶ方が丁寧でわかりやすかったです。

*4:BUGS, JAGS, Stanなど