19-2 设定先验分布为均匀分布,并进行推理

把某对夫妇生女孩的概率设为x 。x 表示这对夫妇的“类别”。由于类别是未知的,所以将其作为推理的对象。

虽然我们知道,类别x 一定是一个大于0且小于1的数值,但并不知道具体的数值。因此,需要设定每一类别分别对应何种程度的先验概率。当x 分为3种情况时,设定各x 的数值为事前“概率”是完全没问题的。但在本次推理中,x 可以有连续无限个数值,因此设定的数值为“概率密度” (第16讲中对于“概率密度”这一概念已经进行了解说)。把各个类别的可能性的设定为概率密度时,称为“先验分布” 。

在这里,暂且把表示x 的先验分布的概率分布,假设为均匀分布。

这意味着,不管该夫妇所属的类别x 为何种可能性,都假定其相等(大致相同)。也许有的读者会不理解这样进行假设的原因,认为“x 在接近0或接近1的情况下,与接近0.5的情况下,结果是相等的”这样的设定不合逻辑。这是一个合理的疑问。在下一节中,将会以能够解答这个疑问的先验分布为例,来进行解说。而作为学习的出发点,首先我们来一起思考均匀分布的先验分布。

关于类别x (x 为某对夫妇生女孩的概率)的先验分布,设定如下:

y=1 (0≤x ≤1)

它的含义是:不论哪种类别x 的可能性,其概率密度都为1。可以这样来理解:首先像第4讲的图表4-1中那样,把p=0.4,0.5,0.6这3种类别设为对等(概率均为19-2 设定先验分布为均匀分布,并进行推理 - 图1 )的情况,然后对其进行无限的细化,并设为同等的(概率密度均为1)情况。这意味着,不管从哪个类别中分配到,其概率密度都是相等的,所以把它们都设定为全部相等。另外需要加以说明的是,概率密度1并不等于概率。概率密度和概率是不同的概念:概率密度是在计算x 的宽度时,运用乘法计算面积时最初的概率的量。

在图表19-1 中,先验分布即为x 轴上方的部分。

19-2 设定先验分布为均匀分布,并进行推理 - 图2 图表19-1 类别为均匀分布的情况

接下来,x 轴的下方的长方形,可以对应第4讲的图表4-3的长方形分割图,也就是划分出互不相同的几种可能性。在图表4-3中,划分了6个长方形,但在图表19-1中,划分为无数条线段(AB或BC即为其中的1条)。

从有限变成无限的情形,如图表19-2 所示。

19-2 设定先验分布为均匀分布,并进行推理 - 图3 图表19-2 从有限到无限

那么,接下来可以这样分析图表19-1:例如,图中的x =0.7(点A)表示该夫妇的类别为0.7,换言之,表示“这对夫妇生女孩的概率”为0.7这样一种可能性。因此,这对夫妇生的第一胎为女孩(这样一种可能性)的概率密度为0.7,用线段AB来表示。那么,生男孩的概率密度自然为0.3,用线段BC的长度来表示。实际上,这里采用了“&的事件的概率法则”(见15-3)。换言之,表示为:

(AB的长度)=(类别是x =0.7的概率密度)×(类别在x =0.7的基础上,生女孩的概率)

   =(x =0.7时的y)×p(女孩|x =0.7)

   =1×0.7

   =0.7

在19-3之后,这个问题将成为基本的知识点。

假设我们获得了“这对夫妇生的第一胎为女孩”这样一条信息吧。那么,就可以把图表19-1中涂有颜色中的浅色部分的线段(生男孩的可能性)排除在外,只留下涂有颜色中的深色部分的线段(生女孩的可能性),如图表19-3 所示。

19-2 设定先验分布为均匀分布,并进行推理 - 图4 图表19-3 排除生男孩的可能性

排除掉生男孩后的可能性之后,便不符合标准化条件(所有事件的概率之和为1)了。由于表示生女孩这种可能性(涂有颜色的深色部分的三角形)的面积为0.5,那么,为了把它的面积变为1,需要在保持各线段的比例关系的同时,变更概率密度。只要把每条线段延长到之前的2倍,就能满足标准化条件了 (三角形的高度变为之前的2倍)。图表19-3的右侧部分,表示这一步骤完成之后的状态——把左侧的x 轴下方的部分翻转过来,再纵向延伸到之前长度的2倍。需要注意的是,右侧部分的图像即为贝塔分布的α=2、β=1的情况 (见17-4)。这个是在获得了“该夫妇生的第一胎是女孩”这条信息时,关于这对夫妇的类别x 的后验分布。同时还需注意的是,它表示的不是后验概率,而是后验分布。这是因为,分布图表示的是概率密度。后验分布如图表19-4 所示。

19-2 设定先验分布为均匀分布,并进行推理 - 图5 图表19-4 先验分布和后验分布

看图可知,虽然关于该夫妇生第一胎之前的类别x 的先验分布,为均匀分布(无论哪种类别x ,结果都是相同的)。但在获得了“第一胎为女孩”的信息之后,关于类别x 的后验分布,就变更为z=2x 这样的贝塔分布了。这意味着,类别x 的后验概率密度,是随着x 的增大而增大的。

如果各位读者不想对类别x 的分布进行推理,而是想推测“这对夫妇生的第二胎为女孩的概率”的话,那么,计算x 的概率分布的期待值 就可以了。先验分布和后验分布都是贝塔分布,在上一讲中已经对于它们的期待值的计算方法进行了解说。左侧的均匀分布(α=1、β=1的贝塔分布)的期待值为0.5,右侧的α=2、β=1的贝塔分布的期待值为19-2 设定先验分布为均匀分布,并进行推理 - 图6 。因此,虽然在事前推测“生女孩的概率”为0.5,但是在获得“第一个孩子是女孩”的信息之后,便更改为19-2 设定先验分布为均匀分布,并进行推理 - 图7