6.4 识别伪造数据

    如果你之前没有对数字进行太多思考,你可能很自然地假设在最随机的数据集中,所有数字出现的可能性等同。但根据本福特定律,对于许多类型的自然发生的数据,数字越小,它以首位数出现的频率越高。你可以用这个秘密知识来检验任何数据集的真实性。

    在电子计算器时代远未到来的19世纪,科学家利用出版书籍里的表格发现了对数的值。一位特别细心的19世纪天文学家、数学家西蒙·纽科姆(Simon Newcomb)发现,含有对数表格的页面,其前几页比后几页更加破旧。纽科姆下结论,以1开头的数字出现的频率比以2开头的数字更高,以2开头的数字出现的频率比以3开头的数字更高,以此类推。

    根据他的观测,纽科姆于1981年在《美国数学杂志》(American Journal of Mathematics)上发表了实证结果,其中阐述了许多类型的自然产生数据的概率,数据以d开头,d=1,2,…,9。纽科姆的首位有效数法则(first significant digit law)几乎不被关注,在很大程度上甚至被遗忘了,直到50年后,就职于通用电气公司的物理学家富兰克·本福特(Frank Benford),注意到了同样的对数表破损模式。

    经过对大量数据的广泛测试(20 229个观测结果)——包括原子量、河流的排水区、人口普查数字、棒球统计数据和财务数据,本福特将首位有效数字概率定律发表在美国哲学会的会议记录上(本福特,1938)。这一次,首位有效数字法则吸引了更多的关注,被称为本福特定律。尽管文章于1938年发表后,本福特定律变得众所周知,且其中包括大量的统计证据,但它缺乏一个严谨的数学基础,直到1996年,佐治亚理工学院的数学教授西奥多·希尔(Theodore Hill)才提供了严谨的数学证明(希尔,1996)。

    今天,本福特定律在多个自然产生数据的领域中有着常规的应用。也许本福特定律最实际的应用是检测会计中的欺诈数据(或无意的错误),由圣迈克尔学院(Saint Michael's College)工商管理和会计系的教授马克·内格罗尼(Mark Nigrini)率先应用(http://www.nigrini.com/)。

    伪造数据的检测不仅在会计中非常重要,而且在各种各样的其他应用中也很重要(例如,在药物测试的临床试验中)。本Hack介绍了本福特定律,告诉你如何应用它,提供了一些直观理由证明其有效性,并给出说明什么时候能运用本福特定律的指导原则。

    6.4.1 如何生效

    在最简单的形式中,本福特定律指出,在许多自然产生的数字型数据中,第一个(非零)有效数字的分布遵循对数概率分布,如下所示。沿用希尔的用法(1997),令 表示十进制数字x的首位有效数字。例如, 6.4 识别伪造数据 - 图16.4 识别伪造数据 - 图2

    然后,根据本福特定律,6.4 识别伪造数据 - 图3的概率可按下式计算,其中d可以等于1,2,3,…,9:

    6.4 识别伪造数据 - 图4

    这样,表6-5给出了首位有效数字的概率。

    表6-5:本福特定律下的首位有效数字的概率

    第一个非零数字 本福特定律下的概率
    1 0.301
    2 0.176
    3 0.125
    4 0.097
    5 0.079
    6 0.067
    7 0.058
    8 0.051
    9 0.046

    6.4.2 验证定律

    为了证明本福特定律,我会考虑两个你可以自行验证的例子。

    1. 街道地址

    付诸行动验证本福特定律,打开你所在城市或城镇的电话簿,翻到任何一页,记录下以非零开头的每个十进制数门牌号码。两页就足够了。除非你所在的城镇有些不寻常,不然相对频率应和通过本福特定律预测的概率相似。

    表6-6显示了413个家庭门牌号码的计算结果,号码取自2005年至2006年Narragansett/Newport/Westerly这一地区的RI黄皮书(白页部分)中的两页。

    表6-6:遵循本福特定律的地址

    首个非零数字 门牌号首个数字的相对频率 基于本福特定律的概率
    1 0.334 0.301
    2 0.174 0.176
    3 0.143 0.125
    4 0.075 0.097
    5 0.073 0.079
    6 0.075 0.067
    7 0.046 0.058
    8 0.043 0.051
    9 0.036 0.046

    图6-1更清楚地展示了这个模式。

    6.4 识别伪造数据 - 图5

    图6-1:遵循本福特定律的街道地址

    虽然实际情况和本福特定律不完全一致,但你可以看到一个合理的良好匹配。如果你采用更大的地址样本,由此产生的相对频率会更接近本福特定律预测的频率。

    1. 股票价格

    股市遵循本福特定律。你可以在http://quotes.nasdaq.com/reference/comlookup.stm上获取最新的纳斯达克证券价格,进而自行验证。

    图6-2和表6-7显示了2006年1月27日纳斯达克证券第一个非零十进制数字的相对频率,并和本福特定律所预测的概率进行对比。

    6.4 识别伪造数据 - 图6

    图6-2:遵循本福特定律的股市

    表6-7:遵循本福特定律的纳斯达克证券

    首个非零数字 纳斯达克证券首个数字的相对频率 根据本福特定律的概率
    1 0.301 0.301
    2 0.167 0.176
    3 0.133 0.125
    4 0.095 0.097
    5 0.082 0.079
    6 0.071 0.067
    7 0.055 0.058
    8 0.045 0.051
    9 0.049 0.046

    6.4 识别伪造数据 - 图7你可以在http://homepage.mac.com/samchops/benford/上得到用于生成这部分表格和数字的Matlab代码。此外,Mark Nigrini在http://www.nigrini.com/datas_software.htm上提供了DATAS软件(包括一个免费的学生EXCEL程序),可执行对第一个、第二个或前两个数字的更复杂的数据分析。

    6.4.3 本福特定律更普遍的应用

    本福特定律并不只适用于首个非零数字,也同样适用于其他数字的概率。再次,遵循我们之前讨论的方式,令 表示十进制数字x的第二个有效数。例如,6.4 识别伪造数据 - 图86.4 识别伪造数据 - 图9,而6.4 识别伪造数据 - 图10

    注意,不同于首个有效数字,第二个有效数字可以是零。

    然后,根据本福特定律, 的概率,由下面的等式给出,其中d可以等于0,1,2,…,9:

    6.4 识别伪造数据 - 图11

    这个公式得出了第二个有效数字的概率,如表6-8中所示。

    表6-8:本福特第二数字定律

    第二个有效数字 根据本福特定律的概率
    0 0.119 68
    1 0.113 89
    2 0.108 82
    3 0.104 33
    4 0.100 31
    5 0.096 68
    6 0.093 37
    7 0.090 35
    8 0.087 57
    9 0.085 00

    从表6-8可以看出,不同于相应的首位数字,第二个有效数字之间的概率差异不那么具有戏剧性。

    现在,回到股市。为了论证本福特定律和第二个有效数字有关,我计算了之前纳斯达克证券的第二个有效数字的相对频率。结果如表6-9所示,再一次说明确实与本福特定律有密切的一致性。

    表6-9:遵循本福特第二数字定律的纳斯达克证券

    第二个数字 第二个数字的相对频率 根据本福特定律的概率
    0 0.128 03 0.119 68
    1 0.114 27 0.113 89
    2 0.109 18 0.108 82
    3 0.102 90 0.104 33
    4 0.102 30 0.100 31
    5 0.092 73 0.096 68
    6 0.090 64 0.093 37
    7 0.091 53 0.090 35
    8 0.084 06 0.090 35
    9 0.084 36 0.085 00

    本福特的一个更普遍的概率公式可以用来计算第n位的相应概率。设 表示十进制数字x的第k个有效数字。然后,根据本福特定律,6.4 识别伪造数据 - 图12 , 6.4 识别伪造数据 - 图13 , …,和6.4 识别伪造数据 - 图14的概率由下面的公式给出:

    6.4 识别伪造数据 - 图15

    注意,如果k不等于1,那么 可以等于0,1,2,…,9,正如前面所指出的,d1可以等于1,2,…, 9。

    6.4.4 其他生效领域

    本福特定律的两个独特性质是尺度不变性和底数不变性。

    1. 尺度不变性

    本福特定律的尺度不变性是指,如果你用某个数乘以任何非零的常数,你依然会得到接近于遵循本福特定律的分布。因此,你以美元、第纳尔1 或谢克尔2衡量股票的报价,以英里或公里测量河流的长度,都没有区别。你最后总是会得到遵循本福特定律的数据。

    1第纳尔是南斯拉夫、伊拉克及阿尔及利亚等国的货币单位。——译者注
    2古希伯来或巴比伦的度量单位和钱币。——译者注

    为了证明这一点,我使用前面例子中的纳斯达克证券数据,把每个值都乘以p。正如你在表6-10中看到的那样,相对频率仍遵循本福特定律。

    表6-10:遵循本福特定律的扩大后的纳斯达克证券

    首个非零数字 纳斯达克证券首个数字的相对频率 根据本福特定律的概率
    1 0.306 0.301
    2 0.176 0.176
    3 0.123 0.125
    4 0.097 0.097
    5 0.081 0.079
    6 0.066 0.067
    7 0.058 0.058
    8 0.049 0.051
    9 0.045 0.046
    1. 底数不变性

    本福特定律的底数不变性是指,它不仅适用于底数10,而且还适用于更一般的底数。此外,西奥多·希尔发现,本福特定律是唯一具有这一性质的概率定律(希尔,1995)。

    6.4 识别伪造数据 - 图16你可以在希尔(1997)论著里找到一般底数的本福特定律公式。6.4.7节有关于此出版物的详细说明。

    数据具有以下特点时,本福特定律的效果最佳。

    • 足够的可变性

    该变异越高,本福特定律的运用效果越好。

    • 无内置最大值或其他类似的约束

    例如,本福特定律并不适用于高年级学生的年龄,或当地老年人中心的成员。

    • 数字来自于计数或测量

    例如,它不适用于社会安全号码和邮政编码,因为它们是简单的识别码,不是真正的数值。

    • 大样本

    数据集越大,本福特定律的运用效果越好。

    • 随机抽样

    数据来自于大量的、随机选中的、符合概率分布的随机样本。随机抽样的实现为希尔证明本福特定律提供了有力的支撑(贝克尔,2000;希尔,1999)。

    由于税收数据很好地遵循本福特定律,所以这一定律已经十分成功地用于识别虚假的纳税申报。在描述本福特定律的一些基本特征时,我们展示了如何对数据的违规行为进行迅速且随意的检验。具体来说,任何人都可以很容易地计算第一个数字的相对频率,把这个结果和由本福特定律预测的结果放在一起,并进行仔细的对比检查。

    在实际应用中,专家和权威人士使用的、用来确认偏离本福特定律结果以及其他违规行为的程序是相当复杂的。与本福特定律存在偏差并不能证明存在欺诈行为,但它确实给出了显著性,提示需要进一步调查,记住这点也同样重要。

    6.4 识别伪造数据 - 图17你可参看内格罗尼(1996)了解更多利用本福特定律发现舞弊的细节,其中包括“拟合优度”测试。6.4.7节有出版物的具体信息。

    6.4.5 生效原理

    尽管对本福特定律的证明是相当具有技术性的,但也有一些针对此数学原理的、有见地且直观的解释。马克·内格罗尼(1999)就提供了一个这样的解释,我觉得特别有吸引力。

    他的解释是这样的。想象一下,将初始金100美元用于某种投资,预计金额以10%的年增长率增长,总金额的第一位有效数字变为2将大约需要7.3年的时间。这是因为总量需要增加100%,才能达到200美元的价值。相比之下,考虑500美元增加到600美元的时间。如果我们继续假设10%的年增长速度,它将需要大约1.9年才能达到600美元。所以,投资金额的首位数是5时,所需时间比投资金额首位数是1时要少很多。一旦总金额达到1000美元,在其第一位数变成2之前(另一个100%增长),将再次需要约7.3年的时间。

    现实世界确实比较复杂一点,但是这确实有助于解释为什么1作为首位数比其他数字作为首位数要更常见。另一种直观的解释是,如果有比大城市数量更多的小城镇,那么就有比长河流数量更多的短河流。

    6.4.6 无效领域

    本福特定律不太可能运用在无足够变异的数据集,或非随机选择的数据集上。例如,计算机上的文件大小大致遵循本福特定律,但只有当所选文件的类型没有限制时,才可以采用本福特定律。

    为了说明这一点,我在一台苹果PowerBook G4笔记本电脑中找出了文件大小的第一个数字的频率。图6-3和表6-11中展出的结果显示出了本福特定律。

    6.4 识别伪造数据 - 图18

    图6-3:遵循本福特定律的电脑文件

    表6-11:大致遵循本福特定律的电脑文件

    首位非零数字 660 172个电脑文件首位数字的相对频率 根据本福特定律的概率
    1 0.277 0.301
    2 0.181 0.176
    3 0.144 0.125
    4 0.107 0.097
    5 0.076 0.079
    6 0.067 0.067
    7 0.054 0.058
    8 0.054 0.051
    9 0.041 0.046

    尽管图6-3和表6-11所示的结果是基于660 172个文件的,表6-12显示,600个样本就足以表现出本福特定律模式(虽然不如更大样本的表现效果),只要文件样本是随机的。

    表6-12:600个计算机文件大小的随机选择

    首个非零数字 600个电脑文件首位数字的相对频率 根据本福特定律的概率
    1 0.262 0.301
    2 0.187 0.176
    3 0.147 0.125
    4 0.107 0.097
    5 0.069 0.079
    6 0.070 0.067
    7 0.052 0.058
    8 0.057 0.051
    9 0.052 0.046

    为了便于比较,我计算了同一台计算机上iTunes音乐库中的MP3文件的相对频率。表6-13和图6-4表明,该组文件不遵循本福特定律。

    表6-13:不遵守本福特定律的MP3音乐文件

    首位非零数字 601首MP3文件首位数字的相对频率 根据本福特定律的概率
    1 0.080 0.301
    2 0.097 0.176
    3 0.276 0.125
    4 0.270 0.097
    5 0.161 0.079
    6 0.070 0.067
    7 0.023 0.058
    8 0.013 0.051
    9 0.001 0.046

    6.4 识别伪造数据 - 图19

    图6-4:不遵守本福特定律的MP3音乐文件

    600首MP3格式的音乐文件的大小不近似本福特定律,这并不奇怪,因为MP3音乐文件的大小表现出的变异比更随机任取的600个计算机文件的变异要少得多。

    6.4.7 参阅

    • Becker, T. J. (2000). “Sorry, wrong number: Century-old math rule ferrets out modern-day digital deception,” Georgia Tech Research Horizons,http://gtresearchnews.gatech.edu/reshor/rh-f00/math.html.
    • Browne, M. (1998). “Following Benford's law, or looking out for no. 1.” The New York Times, August 4, 1998.
    • Fawcett, W. (n.d.). “Significant figure generator.”http://williamfawcett.com/flash/SigFigDistbGen.htm.
    • Benford, F. (1938). “The law of anomalous numbers.” Proceedings ofthe American Philosophical Society , 78, 551-572.
    • Hill, T. P. (1996). “A statistical derivation of the significant digit law.” Statistical Science, 10, 354-363.
    • Hill, T. P. (1995). “Base-invariance implies Benford's law.” Proceedings of the American Mathematical Society, 123, 887-895.
    • Hill, T. P. (1997). “Benford's law.” Encyclopedia of Mathematics Supplement, 1, 112. Kluwer.
    • Hill, T. P. (1999). “The difficulty of faking data.” Chance, 26, 8-13.
    • Newcomb, S. (1881). “Note on the frequency of use of the different digits in natural numbers.” American Journal of Mathematics, 4, 72-40.
    • Nigrini, M. (1999). “I've got your number: How a mathematical phenomenon can help CPAs uncover fraud and other irregularities.” AICPA Journal of Accountancy Online Journal, May 1999,http://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.
    • Nigrini, M. (1996). “A taxpayer compliance application of Benford's law.” Journal of the American Taxation Association, 18, 72-91.
    • 你可以在http://homepage.mac.com/samchops/benford/获得生成本部分图表的Matlab代码;在http://www.mathworks.com下载运行代码的Matlab安装包。

    ——欧内斯特·罗斯曼