モンティ・ホールのパラドックスを例に、Bayes（ベイズ）の定理の使い方と考え方を考察する

この記事の目次

ベイズの定理とは

ベイズの定理は、条件付き確率の一つの表現です。条件付き確率とは、あるイベント（B）が起こる世界だけを考えて、その世界の中で別のAというイベントが起こる確率のことであり、数式では$P(A|B)$や$P_{B}(A)$などと書きます。この記事では、$P(A|B)$という記法を採用させていただきます。

一般に確率というのは、普遍的な世界を考えて、その世界の中ではどんなイベントが起きても良いという状況設定をとります。しかし、条件付き確率では、普遍的な世界というよりは、よりローカルな世界、局所的な世界を設定することで、どのイベントが起こるのかを制限して確率現象をとらえます。条件付き確率の意味は、大局的に見るならば「情報の付加」を確率に反映することができるという点にあります。普遍的な世界の中だけでは、「新しくわかった情報」があったとしても、より精度の高い考察ができませんがより局所的な世界を設定することで、その情報を活かして確率を考察することができるようになります。

例えば、こんなゲームを考えてみます。あたり玉が30個、ハズレ玉が30個入った箱の中から一つの玉を取り、その玉があたりかハズレかを言い当てるというゲームです。何も情報がなければ、その玉があたりかハズレかを正しく言い当てられる確率は$\frac{1}{2}$です。ここで、あたり玉、ハズレ玉に関して次のような情報をあらかじめ持っている場合を考えます。あたり玉、ハズレ玉には細かく見ると大小の玉に分かれており、あたり玉には大きい玉が20個、小さい玉が10個入っています。ハズレ玉には大きい玉が10個、小さい玉が20個入っています。この情報を知っているならば、取り出した玉があたりかハズレかを正しく言い当てられる確率は変わってきます。もし、取り出した玉が大きい玉である場合、あたりである確率は$\frac{2}{3}$であり、逆に取り出した玉が小さい玉である場合、ハズレである確率は$\frac{2}{3}$です。このように、情報が付加されることによって、あたりかハズレかを言い当てられる確率は上昇します。

このことからわかる教訓は、条件付き確率を用いるとあたりかハズレかを言い当てられる確率が上昇する、ということではなく、「付加された情報を使って、その場に即したよりふさわしい確率を計算することができるようになる」という点にあります。例の値によっては、あたりかハズレかを言い当てられる確率は上昇しませんが、付加された情報を「適切に確率に反映する」手段を持つことができるのです。

しかし、「ある条件が付加された」ことを適切に確率の計算に反映するというのは簡単ではありません。上の例のように、直感的に明らかな計算であれば困りませんが、少し複雑になるとどのような計算をすることで普遍的な世界を局所的な世界に変えることができるのか、わかりづらい場面も出てきます。ベイズの定理は、この橋渡しをしてくれる定理といって良いでしょう。

それでは、ベイズの定理の式を書いてみます。

$$P(A|B) = \frac{P(B|A)\times P(A)}{P(B)}$$

ベイズの定理の主張を確認していきます。左辺は、Bというイベントが起こる世界だけを考えたときに、その世界でAというイベントが起こる確率を表しています。その確率は、右辺の式で書き表わせるというのがベイズの定理の主張です。この定理は、条件付き確率の式を書き直しただけのものです。条件付き確率の式は、

$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$

と書くことができます。ここで、

$$P(B|A) = \frac{P(A \cap B)}{P(A)}$$

と書くことができることに注目すると、下の式の$P(A \cap B)$を上式に代入することでベイズの定理の式を得ることができます。それでは、ベイズの定理について、さらに考察を深めていくことにします。ベイズの定理は条件付き確率の定義式を書き直しただけのものだということはすでに申し上げました。ところで、条件付き確率はどうして

$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$

という式で書けるのでしょうか。条件付き確率はある局所的な世界を考えて、その中で起こる確率現象を考察します。今の場合、局所的な世界とはBというイベントが必ず起こる世界のことです。この局所的な世界を「普遍的な世界」にいる人間の目から眺めてみます。普遍的な世界にいる人間の目からは、局所的な世界でAというイベントが起こることはAかつBというイベントが起こることを意味します。ゆえに、分子に$P(A \cap B)$という確率が来ることは納得しやすいと思います。では、分母の$P(B)$はどういう意味を持つでしょうか。分数というのは、一般的に「単位あたりの」数という意味合いを持ちます。というのも6つのケーキを6人で分けるというようなことを考えたとき、$\frac{6}{6}=1$というのは、1人当たりのケーキの数という意味を持ちますし、100 km$^{2}$あたりに200人の人間がいるといったとき、$\frac{200}{100}=2$は1 km$^{2}$あたりに2人の人がいるという意味を持ちます。言い換えると分母を1(単位)とみたときの分子の値が分数の意味です。今の場合では、分母である$P(B)=1$とみたときの分子$P(A \cap B)$の値を条件付き確率と呼んでいるわけです。分母の値を1とみるというのは、普遍的な世界から、局所的な世界への変換と考えることもできます。つまり

$$ \frac{P(A \cap B)}{P(B)}$$

という式は、Bというイベントが必ず起こるという状況において、AかつBが起こる確率を表すわけです。これは条件付き確率の定義なので、結局

$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$

と書けるわけです。このように普遍的な世界の確率を局所的な世界の確率に変換する鍵となっているのが、$P(B)$で割るという部分で、この操作のことを「規格化」と呼んだりします。規格化することによって、局所的な世界に移ることができるわけです。最初に、情報の付加を確率に適切に反映する必要がある、ということを申し上げましたが、「規格化」という操作がこのことを可能にする鍵です。ベイズの定理を用いるということは、意識するとしないとに関わらず規格化をすることになるので、正しい処方で情報の付加を反映することができるようになるのです。

では、最初にあげた例に戻って、ベイズの定理を使ってみます。まず、現在の局所的な世界では、「取り出した玉が大きい玉である」というイベントだけが起こるものとします。そこで、求める確率として「取り出した玉が大きい玉であることがわかっているときにあたりの玉を取り出すことのできる確率」と設定します。すなわち、
A：あたりの玉を取り出すイベント
B：取り出した玉が大きい玉であるイベント
という風に当てはめます。ベイズの定理の右辺の式のそれぞれの値を求めましょう。右辺の分子については、AかつBが起こる確率と考えて求めても良いですが、ここではベイズの定理の式の形をそのまま使いながら求めます。
$P(B|A)$は、あたりの玉を取り出すことがわかっているときに、取り出した玉が大きい玉である確率のことなので、$P(B|A) = \frac{20}{30} = \frac{2}{3}$と計算できます。
$P(A)$は、あたりの玉を取り出すことができる確率なので、$P(A) = \frac{1}{2}$と計算できます。大事なことは、ベイズの定理における$P(A), P(B)$という式は「普遍的な世界にいる人間」の目から確率を考えるということです。だから$P(A)$はあくまで普遍的な世界の上で、Aが起こる確率のことを言います。ここで、局所的な世界と普遍的な世界をごっちゃにしていると、$P(A)$のことを$P(A\cap B)$と思って計算してしまう可能性があるので、注意が必要です。局所的な世界に移るのは、分母で割るという規格化の操作が役に立ちます。分母はBが起こる確率なので$P(B) = \frac{30}{60} = \frac{1}{2}$と計算できます。ゆえに、ベイズの定理を用いると、結局

$$P(A|B) = \frac{2}{3}$$

と求めることができるのです。ベイズの定理をうまく使いこなすには、与えられた問題設定の上で、どのようにA, Bを定めて、どのような局所的な世界を考えるべきなのかを適切に設定しなければなりません。この設定さえうまくできれば、ベイズの定理を使うことで機械的に計算をすることができるのです。それでは、これまでの話をまとめてみます。

ベイズの定理

・条件付き確率とはあるイベント(B)が起こる世界だけに限定した局所的な世界においてイベント(A)が起こる確率のことである。
・ベイズの定理に現れる$P(A), P(B)$は、普遍的な世界にいる人間の目から見た確率のことである。
・ベイズの定理では、 Bが起こる確率で割る（規格化する）ことによって、普遍的な世界での確率を局所的な世界の確率（条件付き確率）に変換する。
・与えられた問題に対し、どのような局所的な世界を考えるべきかを見極めて、求めたい確率の表現から適切にイベントA, Bを設定する。

ベイズの定理の応用例１　ウイルス検査

ベイズの定理を扱うとき、非常に有名な例で、ウイルス（薬物）検査というものがあります。検査というのはその性質上、自然に「局所的な世界」での確率を考えることになるので、ベイズの定理を応用するのに格好の獲物です。ここでは、次のように問題を設定してみます。

問題設定

ある世界では、Cウイルスが蔓延しており、国民の10000人に1人の割合でCウイルスに感染している。Cウイルスに対してP検査というものがあり、P検査ではCウイルスに感染しているものに対し99%の割合で陽性を示し、Cウイルスに感染していないものに対し99%の割合で陰性を示す。さて、全国民の中で無作為に抽出された国民がP検査を受けたところ、陽性を示した。このとき、この国民が実際にCウイルスに感染している確率を求めよ。

2020年4月現在、上の問題設定が何のことを指しているかは明らかだと思います。問題を読むとわかる通り、何が局所的な世界として取り上げられているかは明白だと思います。「検査を受けたときにある国民が陽性反応を示した」という世界です。この世界の中で、国民がCウイルスに感染している確率を求めよう、というのが問題です。すなわち、イベントA, Bというのはすぐにわかって、
A：ある国民がCウイルスに感染しているというイベント
B：ある国民がP検査を受けたとき、Cウイルスに陽性を示すというイベント
です。では、ベイズの定理の右辺を考えます。

（１）$P(B|A)$について
これは、国民がCウイルスに感染しているときに、P検査で陽性反応を示す確率なので、問題文のいう通り、0.99です。

（２）$P(A)$について
これは、国民がCウイルスに感染している確率なので、問題文のいう通り0.0001です。

（３）$P(B)$について
規格化の部分です。これは、国民がCウイルスに陽性反応を示す確率です。さて、国民がCウイルスに陽性反応を示す場合というのは、次の2通りが考えられます。
（あ）国民がCウイルスに感染していて陽性反応を示す。
（い）国民がCウイルスに感染しておらず陽性反応を示す。
この二つは同時には起こらない（排反）なので、この二つの確率を足せば良いです。すると、問題文から$0.0001\times 0.99 + 0.9999\times 0.01$となります。Cウイルスに感染していない人が陰性となる確率が0.99なので、陽性となる確率は0.01となることがわかりますね。

以上で、ベイズの定理の計算の準備は整いましたので、実際に計算します。

$$P(A|B) = \frac{0.0001\times0.99}{0.0001\times0.99 + 0.9999\times 0.01} \simeq 0.0098$$

よって、この国民がCウイルスに感染している確率は、わずか1%程度だということがわかります。さて、この検査には果たして意味があるのでしょうか。陽性反応と言われてもCウイルスに感染している確率は、たかだか1%なのです。問題は、Cウイルスに感染していないにも関わらず、陽性反応を示してしまう確率です。これは問題文にある通り、1%です。さて、それでは全国民の中から無作為に10000人を呼んできてP検査を行うとしましょう。このとき、9999人がCウイルスに感染していて、1人がCウイルスに感染していないとすると、陽性反応がでる人数は100人程度でありそのほとんどが実際にはCウイルスに感染していない国民となります。これでは、誰が本当にCウイルスに感染しているのかを突き止めることはできません。

このように、99%という一見高い精度を持った検査に見えても、実際に計算するとあまり役に立たない検査だということがわかります。ベイズの定理は、直感では察しにくい数学的事実をきちんとした処方で計算させてくれるとても便利な定理なのです。

ベイズの定理の応用例2　モンティ・ホールのパラドックス

さて、「直感で正しいと感じる解答と数学的な計算で導かれる解答とが食い違っている」という類のパラドックスで有名なものを取り上げます。モンティ・ホールの問題は例えば次のような設定です。

モンティ・ホール問題

3つの箱K, L, Mがある。箱の中の一つにあたりボールが入っている。参加者は3つの箱のうち一つを選び、そのあとで司会者が残った二つの箱のうちでハズレの箱を一つ明らかにする。その後、参加者は選ばれなかった箱に切り替える権利を持つ。あたりボールを選ぶためには、参加者は最初に選んだ箱をそのまま選ぶべきか、それとも残った箱に切り替えるべきか。

様々な設定がありますが、基本的なストーリは同じです。さて、直感に従うと途中でハズレの箱を示されそうが示されまいが、箱にボールが入っている確率はどれも$\frac{1}{3}$なんだから最初に選んだ箱に決めようが、残った箱に切り替えようが同じであるというのが自然です。この問題設定では、途中で局所的な世界に移っていますので、ベイズの定理を使って解けそうだとわかります。そこで、この問題にベイズの定理を応用してみることを考えます。

この問題、ベイズの定理を適用する設定方法がかなり難しいかもしれません。おそらくその根は次の3つのことが理由でしょう。

あたりボールがどこにあるかわからない。
自分の選ぶ箱がどれかが決まっていない。
司会者が開示する箱がどれかがわからない。

そこではじめに、あたりボールが箱Kにあると仮定します。対称性から箱L, Mにある場合も同様に考えられるので、あたりボールを箱Kに固定しても一般性を失いません。これで1の問題はなくなりました。次に、司会者が開示する箱ですが、今の場合、参加者が選んだ箱に応じて箱L, Mのどちらかが開示されます。そこで、今の場合局所的な世界では、箱Lが開示されたと考えましょう。すると、求める局所的な世界の確率は、箱Lが開示されたという世界において、開示されなかった箱に選び直したときにあたりとなる確率です。すなわち、イベントA, Bはそれぞれ次のようになります。
A：箱Lが開示されたというイベント
B：開示されなかった箱に選び直したときにあたりとなるイベント

それでは、ベイズの定理の右辺の式の値を求めていきます。まず、規格化する分母の値から求めます。今の場合$P(A)$は箱Lが開示されたというイベントです。これは参加者がどの箱を選んだかに依存しています。

（１）参加者がKの箱を選んだ場合。
このとき、Lの箱が開示される確率は$\frac{1}{3}\times\frac{1}{2} = \frac{1}{6}$です。Kの箱を選ぶ確率が$\frac{1}{3}$であることも考慮に入れる必要があります。

（２）参加者がLの箱を選んだ場合。
このとき、Lの箱が開示される確率は0ですね。

（３）参加者がMの箱を選んだ場合。
このとき、Lの箱が開示される確率は$\frac{1}{3}\times1 = \frac{1}{3}$です。Mの箱を選べば自動的にLの箱が開示されますね。

以上より、$P(A) = \frac{1}{6} + \frac{1}{3} = \frac{1}{2}$と計算できます。次に、分子の方を求めます。$P(B)$に関しては、開示されなかった方にあたりボールが入っている確率であり、これは参加者がL, Mの箱を選んだときに起こる事象なので、$\frac{2}{3}$と計算できます。$P(B|A)$は開示されなかった方があたりとなる状況で、箱Lを開示する確率です。少しややこしいですが、開示されなかった方があたりとなる状況というのは、参加者がL, Mの箱を選んだということを意味し、そのときに箱Lを開示する確率というのは箱Mを選んだ場合のみなので、$\frac{1}{2}$です。よって、$P(A|B) = \frac{2}{3}\times\frac{1}{2} = \frac{1}{3}$と求めることができます。

これでベイズの定理を適用する準備が整いました。ベイズの定理を適用することで
$$P(A|B) = \frac{\frac{1}{3}}{\frac{1}{2}} = \frac{2}{3}$$
と求めることができます。

また、今は局所的な世界を箱Lが開示されたという状況として設定しましたが、箱Mが開示されたという状況として設定することもできます。参加者が何を選ぶかを固定していないので、どちらの設定も対称であり、片方の確率のみを考えれば十分です。以上より、司会者が箱を開示したとき、参加者が開示されていない箱を選んであたりとなる確率は$\frac{2}{3}$となることがわかりました。そうすると、司会者が箱を開示した後、参加者が最初に選んだ箱があたりとなる確率は$\frac{1}{3}$となることがわかります。この計算もベイズの定理を用いて計算することができるので、練習問題として、ぜひ挑戦してみると良いと思います。

さて、このようなことを考えると、開示されなかった箱に選び直す方が2倍も有利になることがわかります。これは直感とはかなり、異なる結果ではないでしょうか。しかし、実際にこのようなゲームをしてみると、確かに選び直した方が2倍もあたりやすいことがわかります。この直感のずれを説明するWebサイトはたくさんあるので、腑に落ちないという方は色々参考にできるところがあると思います。ここでは、僕なりの直感的な理解を簡単に示しておこうと思います。

まず、最初に箱を一つ選ぶという行為があって、その後に司会者があたりボールが入っていない箱を開示します。そのあとで箱をもう一度選び直すことができます。最初に選んだ箱をそのまま選ぶということと、箱を選び直すということは次のようなことに置き換えて考えられます。

最初にAくんが箱を1つ選んで、その後にBくんが残りの2つの箱を選ぶ。Aくんはその箱を開示し、Bくんは2つの箱を両方開示する。このとき、1人に人間が最初に選んだ箱をそのまま選ぶということとA くんの立場は同じ、選び直すということとBくんの立場は同じだということに気づくでしょうか。司会者がハズレの箱を開示してくれるのだから、箱を選び直すということは、Bくんのように事実上2つの箱を選ぶことと同じことをしていると言えます。そう考えるとAくんがあたり箱を得られる確率が$\frac{1}{3}$, Bくんがあたり箱を得られる確率が$\frac{2}{3}$であることから、ベイズの定理の主張が正しいことが理解できますね。この考え方は箱の数を増やしても同じように通用します。

まとめ

このようにベイズの定理は最初は少しとっつきにくいのですが、数式の意味をわかりやすく局所的な世界と普遍的な世界のようにイメージをすることで、より理解は深まるかもしれません。ベイズの定理は「情報の付加」を適切に確率に反映するということを申し上げましたが、このことが「統計学」におけるBayesianを考えるときに非常に重要です。近いうちに、Bayesianに関する記事も投稿する予定なので、よろしければご覧いただけると幸いです。

このような長い記事をご覧いただきまして誠にありがとうございます。議論の不備や意味不明な点などございましたら、ご指摘いただけるととても助かります。

ベイズの定理とは

ベイズの定理の応用例１ ウイルス検査

ベイズの定理の応用例2 モンティ・ホールのパラドックス

まとめ

コメント

ベイズの定理の応用例１　ウイルス検査

ベイズの定理の応用例2　モンティ・ホールのパラドックス