21-3 根据正态分布进行贝叶斯推理的步骤

步骤1:用正态分布设定先验分布

我们要推算的是实际的水温θ。虽然现在已知,观测结果(信息)为40℃,但贝叶斯推理的风格是:在此之前的类别的先验分布中,对于“θ是以怎样的形式分布的”这一问题进行设定。这个问题设定类别的先验分布时,出现了与以往不同的情况:实际的水温θ有各种类别(温度),而这些不同的类别(温度)之间存在“可能”或“不可能”的差异。在这种情况下,运用正态分布进行设定则较为合理的(共轭先验分布)——由于希望加热到的合适温度为42℃,因此,把平均值设定为42℃这样一种正态分布。而由于标准偏差无论如何设定都是有可能的,那么就暂且设定为3℃吧。总的来说,就是进行以下设定:

先验分布的设定:类别θ遵循平均值为42、标准偏差为3的正态分布。

步骤2:在类别θ的基础上,求出测量40℃这一温度得到的概率密度的函数

贝叶斯推理的下一个步骤,是在确定类别之后,计算从这个类别中所获得特定的信息的概率密度。以癌症检查的例子进行说明,则为“患癌症”的人的检查结果呈“阳性”的事件,即“癌症&阳性”的概率。把其他几种情况都列举出来,则为:计算“癌症&阴性”、“健康&阳性”、“健康&阴性”这4种可能性出现的概率。这些都是按照“类别&信息”的形式组合而成的。

在烧水的问题中,“类别&信息”,则是以“(实际的水温θ)&(测量的温度x )” 这种形式出现的。但在该组合中出现了两个难题:第一,与癌症检查中出现4种可能性不同,该情况下,存在无限种可能的组合形式。因此,不能通过图表来进行举例说明(而第19讲中的贝塔分布的情况,由于信息只有“女孩”“男孩”2种情况,因此勉强能够用完整的图表来举例)。第二,“类别&信息”的概率,虽然是通过“条件概率的公式”(见15-3)计算得来的,但这种情况下的计算太过复杂,对于不是那么精通数学的人来说很难理解。

因此,本讲中按照以下方式进行处理:

・在基本事件“(实际的水温θ)&(测量的温度x )”中,只用图表列出“θ&40”的概率分布。(由于在此之外还存在“θ&38”或“θ&40”等无限的可能性,因此不对其一一进行图表列式)。

・若把基本事件“θ&40”的分布调整为满足标准化条件的形式,则为正态分布。此外,关于如何计算它的平均值和标准偏差的问题,此处只给出结论。

以上述方针为前提,下面我们继续来进行解说。

21-3 根据正态分布进行贝叶斯推理的步骤 - 图1 图表21-1 采用正态分布的贝叶斯推理

在图表21-1 中,上方部分的开口朝上的图表为θ的先验分布。正如设定的那样,为平均值42、标准偏差3的正态分布。

而下部分的开口朝下的图为,表示类别为θ(当实际水温为θ)时,测量出的结果为40℃的概率密度的图表。换言之,即根据测量出来的温度,从划分的情况(测量结果为37℃或45℃等所有情况)中,只抽取40℃这一测量结果而形成图表。

步骤3:求出后验分布,并计算其分布的期待值

在图表21-1中,由于针对各个θ,只画出了在其基础上表示观测到40℃的概率密度的部分,因此,并不满足标准化条件,这与以往所有的贝叶斯推理是一样的。若将其调整为满足标准化条件的比例关系,则可以得出以下结论:

后验分布  将基本事件“θ&40”调整为满足标准化条件的比例关系,那么可以得到“在获得40℃这一信息之后,各θ的后验概率”。该后验分布即为,关于θ的正态分布。 而该正态分布的平均值(分布的期待值),可以通过以下计算得出。

θ的后验分布的期待值=21-3 根据正态分布进行贝叶斯推理的步骤 - 图2

上述计算过程的具体含义,将在下下节中进行解说。