Credible Intervalって何?
その前に信頼区間(confidence interval)とは?
95%信頼区間は、「標本抽出して95%信頼区間を計算するという操作を100回繰り返した時に、そのうちの95回はその区間に母平均が含まれるような区間」です。こちらについては以前に解説しました。
・95%信頼区間とは何ですか?(統計学ワード) https://pharmacyebmrozero.com/2017/12/23/95%e4%bf%a1%e9%a0%bc%e5%8c%ba%e9%96%93%e3%81%a8%e3%81%af%e4%bd%95%e3%81%a7%e3%81%99%e3%81%8b%ef%bc%9f%ef%bc%88%e7%b5%b1%e8%a8%88%e5%ad%a6%e3%83%af%e3%83%bc%e3%83%89%ef%bc%89/
そもそも信頼区間は “頻度主義の考え” に基づいています。頻度主義では母平均(真の値:神のみぞ知る値)は1点に決まっていると考えるため、「何回も試験を繰り返すと、100回実施した場合は、95回は真の値がその区間内に入る」という前提で計算をします。したがって、頻度主義者は、サンプル数を増やしたり、試験を繰り返すことでバラツキの範囲を狭くして「真の値らしいものを捉えやすくしよう」と試みます。
しかし、ここで疑問が湧きます。
「サンプル数や試験回数を増やすには時間がかかる」
「もっと直感的に、目の前の試験のバラツキや真の値らしいものを捉えられる方法はないのか」
つまり、すぐに答えが欲しい “せっかちな方” にはやや不向きなアプローチだと言えます。
ベイズ確信区間(Bayesian credible interval)とは?
頻度主義に基づくと、区間を推定するのにどうしても時間がかかります。関心のあるパラメーター範囲を計算し「計算したパラメーターがこの範囲に含まれる確率は95%!」と言えれば、より直感的だと言えるのではないでしょうか。
ここで登場するのが信用区間(確信区間)です。
95%信用区間とは「母平均の事後確率分布において、95%の確率で真の値が含まれる区間」のことです。信用区間はベイズ主義の考えに基づく区間推定値です。
信用区間の方が意味としては直感的になります。
ベイズ主義の基になるのは、ベイジアン(Bayesian)の哲学です。頻度主義とは異なり、ベイジアンは「パラメーターは真の値を持つ」とは考えません。その代わり「パラメーターXXは様々な値を取り、どの値を取るかは確率分布P(X)P(X) による」と考えます。
データyy を与えるモデルパラメーターXXを決めると、以下のベイズの定理が成り立ちます。
P(X|y) = P(y|X)P(X) / ΣyP(y|X)P(X)P(X|y)
P(X):事前確率分布(prior distribution)→データを観測する以前におけるXXに対する確率分布
P(y|X):尤度(Likelihood)→モデルパラメーターXXが決まった時の、データyy の確率分布
P(X|y):事後確率分布(posterior distribution)→データyy を観測した後における、モデルパラメーターXXの確率分布
ベイズ統計学のメリットは、値XXの取りうる範囲が事後確率分布として表現されているため、例えば、95%のXXが含まれる範囲を事後確率分布P(X|y)から直接計算できることです。
実践編:野球チームの強さを検証 — 信頼区間 vs. ベイズ信用区間
例題)ある野球チームTの試合結果を記録した。同点の場合は勝つか負けるかするまで試合を延長した。100試合したうち、野球チームTが勝った回数は42回だった。このとき、野球チームTは野球が弱いといえるか。
頻度主義の場合
ある頻度主義者「野球チームTの勝率XXは、100試合のうち勝ち数42。これは100試合という限られた試行の中で得られた結果であるため、母集団の一部しか観測できていません。野球チームTの勝率XXには、真の値が存在すると仮定します。真の値は神のみぞ知る値であるため推定しかできないが、野球チームTが強いのか弱いのかは判断できます。そのために信頼区間を計算してみます。」
今回の母集団は、複数の独立した試行を基に、勝率XX、敗北率1−XX の2通りの結果であるから、二項分布になります。100試合の結果から得られた勝ち数の平均分布は、中心極限定理により、以下の正規分布に従うと考えられる。また分散は既知であるため、z=1.96を用いて、信頼区間は(下限32.33, 上限51.67)と計算できます。
平均:100X
分散:100X(1−X)
観測された勝率X=42/100X=42/100
信頼区間:下限100X−1.96√100X(1−X), 上限100X+1.96√100X(1−X)
100試合のうち、野球チームTが弱いとするには、勝率が勝率50%を下回ると仮定します。つまり信頼区間の上限が50を下回ればよいことになります。
今回の算出結果では、上限が51.67であるため、野球チームTが強いのか弱いのかは結論づけられない、となります。また真の値は32.33〜51.67の範囲内に存在すると仮定されることになります。
ベイズ主義の場合
あるベイジアン「野球チームTの勝率は、複数の独立した試行を基に、勝つか負けるかの2通りの結果であるため、データyyを与える確率分布は二項分布である。この確率分布のモデルパラメーターは、勝率をXXとすると、試行回数NN、データ=勝ち数yyとして、この確率分布は以下のようになります。
P(y|X)=(N/y)X^y(1−X)^(N−y)
モデルパラメーターXXが決まってるとすれば、上式をベイズの定理における尤度関数として扱えます。モデルパラメーターの事前確率P(X)の確率分布を仮にK分布としてみます。今回は尤度関数P(y|X)が二項分布であるため、事前確率分布P(X)がK分布なら、求めたい事後確率分布P(X|y)もK分布になります。事前確率分布と事後確率分布が同様の確率分布になるような事前確率分布を共役事前確率分布と呼びます。
K分布には、事前確率分布のパラメーターが、α及びβ と2つあるます。
X〜K(α, β)
α及びβ は、K分布の平均がα/α+β、サンプルサイズがα+β、 ということを利用して決定してましょう。野球チームTは、勝つか負けるかの2通りであるから、事前確率分布P(X)の平均が0.5になるようにしてみます。サンプルサイズは100であるから、α=β=50と仮定します。
このとき、尤度関数P(y|X)が二項分布であるため、共役事前確率分布の性質により、事後確率分布P(X|y)は以下のように示されます。
X|y〜K(α+y, β+N−y)
パラメーター値を代入すると、事前確率分布はK(50, 50)、事後確率分布K(92, 108)となります。
以上のことから95%ベイズ確信区間を求めます。事後確率分布で95%のデータが含まれる範囲を計算すると(下限0.39, 上限0.53)。
本計算結果から、野球チームTの勝率は95%の確率で(下限0.39, 上限0.53)の範囲に存在することとなります。したがって、勝率半分である50(ベイズの定理では0.50)が含まれており、また区間推定値が0.50を跨いでいるため、野球チームTは弱いとは言えないのではないか、となります。
コメント
信頼区間がよく用いられていますが、これは対象とした試験結果のみでは真の値を含んでいるのかどうなのかよく分からないため、試行回数を増やすこと、つまり試験を何回も繰り返すことが重要です。
さて、わたくし個人としては、各試験はそれぞれ固有の意味があると考えます。したがって、より直感的なベイズ信用区間を好みます。ただ残念ながら、ベイズ信用区間を用いた臨床論文に今までお目にかかったことはありません。もしかしたら見落としているのかも。
どんな臨床試験に、どちらが適している、というよりは著者の好みによるところが大きいと思います。これは、真の値に対するアプローチの概念が異なるだけだからですね。つまるところ、好きな方を使えば良いわけです。
参考文献
小森 他 日本音響学会誌 75 巻 6 号(2019),pp. 351–357
コメント