19-4 设定先验分布非均匀分布,并进行推理
如19-2中解说的那样,多数人认为,把“某对夫妇生女儿的概率”的先验分布设定为均匀分布,并不十分恰当。这是由于,一般来说很难认为当类别接近0或1时,与接近0.5时的情况是相同的;而最初的设定——接近0.5的类别容易发生,远离0.5的类别难以发生这样的思路则更为普遍。最后,以这种情况为例来进行解说。
此时,可以将先验分布设定为α=2、β=2的贝塔分布。正如第17讲中的解说,该分布为:(图表19-7 )
y=6x (1-x ) (0≤x ≤1)
图表19-7 非均匀贝塔分布的先验分布
在上述先验分布的情况下,离类别0.5越远,其概率密度越小。此时,“类别x 的夫妇生女孩”的概率为:
p((类别x )&(女孩))
=p(类别x )×p(女孩|x )
=6x (1-x )×x
=6x 2 (1-x )
因此,实行标准化条件之后,从作为后验分布的贝塔分布中可以求出:(此处省略说明系数为12的理由)
z=12x 2 (1-x )
据此,这对夫妇第二胎依然为女孩的概率,可以从贝塔分布的期待值的公式(第18讲)
中推理得出,结果为0.6。因此可以得出,相比于把均匀分布作为先验分布时(推算值约为0.67),推算出生女孩的概率的数值要更接近0.5一些的结论。这个推理应该可以说服大多数人吧。
