你相信吗?在1,2,3,4,5,6,7,8,9,10这十个整数中存在一个隐形的数字,叫布里姆。当然,这是科幻小说所探讨的内容。详情见伊格尔·特珀的《隐匿的数字》。
有一个著名的心理学效应,讲的是如果你一直盯着白纸上一个字母或数字看,它们变渐渐变得陌生,模糊,直至消失在你的视网膜上。
所以,当国家统计局声称,在他们随机调查的100位网友中,有87.53%的网友支持封杀BTchina。我盯着这个数字,突然有了一种身处科幻国度的异域感——向韩松老师的同名演讲致敬——87.53便是一个不为人知的隐匿杀手。
作为一个科幻小说爱好者,我对源于希伯莱数字神秘主义的哲学略有涉猎,同时,我的专业经常要面对一堆枯燥无味的数字,有时候得到的实验数据不理想时,常常忍不住生出要胡编乱造的邪恶念头。但是,好比要犯罪必须要具备一定的反侦察能力,要编数字,也得具备一定的统计学知识。
不要走开,统计学是非常有趣的事务。下面简单的介绍几个概念。
众所周知,在a……z这26个字母中,每个字母出现的概率是不均等的,这叫作齐普夫定律。那么,在0……9这10个数字中,它们出现的概率是否均一呢?数学期望这个概念告诉你,应当是均一的。但是,生活中,却并非如此。
事实上有更多的人喜欢7这个数字——由于宗教或是历史传统的原因——这是很好理解的。七宗罪、足球7号、一周七天……东方人不喜欢4,不用解释了吧。
所以由于文化的原因,大街上随机抽样让人们随便写下一个数字,得到的数据可能显示是非均匀的分布,
人们常说不要去MAI彩票,因为彩票并不会因为你懂数学就会多分点运气给你,用概率法则设计的机器对每个人都是公平的。
这个说法其实是不对的。数学家的确不能让彩色球让自己所预测的那样出现,但他却能根据人们的习惯下丨注法而获益。试想一下,数学家了解到人们习惯于buy8、9、7、15这样的号码以及不习惯选择连号,他就能有意避开这样的选择,从而与他人分享彩池奖金的可能性就降低了,也就是说他的数学期望升高了。
所以,懂点数学没坏处,数学家要买彩票肯定是赚的,只是他们没有必要这样做,因为付出的时间与精力成本太高了。
以上这段废话告诉你,生活中许多看起来司空见惯的数字中其实隐藏很深的内涵。
1881年,天文学家西蒙·纽康伯发现对数表包含以1起首的数那首几页较<敏感詞>页破烂。这个现象引起了科学家的怀疑,他们猜想,以1开头的十位数在统计中可能出现的概率要高于以2开头的,同样,以2开头的十位数在统计可能出现的概率要高于以3开头的,以此类推……
你可能会反驳说,任何一本书开头几页都更容易出现卷边等破损情况。
但是到了2009年,没错,就是今年,西班牙数学家在素数中重新发现了这一模式:虽然素数一般被认为是随机分布的,但西班牙数学家发现素数数列中每个素数的首位数字有明显的分布规律,这一规律被称作本福特定律。
本福特定律阐明了这样一种统计规律:
在十进制首位数字的出现机率(%,小数点后一个位):
d p
1 30.1%
2 17.6%
3 12.5%
4 9.7%
5 7.9%
6 6.7%
7 5.8%
8 5.1%
9 4.6%
也就是说在统计中1X.XX%这样的数字出现的概率高达30.1%,而9X.XX%出现的概率只有4.6%。(同样适用于个位、三位统计数据)
为什么会出现这样一种情况,一种让人信服的解释是,因为大多数统计数据是基于增长率的,比如GDP、环比、减排……而由最初的数字a增长到另一个数字a+1起首的数的时间,必然比a+1起首的数增长到a + 2,需要更多时间,所以出现率就更高了。比如,马丨英九的支持率从10%增长到20%显然要比80%增长到90%更容易。
本福特定律被广泛用作检查支持某些公共计划的经济数据有否造假,被誉为假帐克星。今年6月举行的伊朗大选,美国的研究人员分析了各个选区候选人所得票数的个位数字,结果发现与本福特定律不符,于是断言大选舞弊的可能性超过九成五。
那么87.53这个数字与本福特定律有什么关系呢??这得归因于QWERT键盘的设计者。
QWERT键盘的设计者一开始设计这样的键盘,其实并不是为了键盘好使,而是为了键盘不好使。因为在那个时代键盘是机械式的,打字员手法过快,很容易使键盘烧坏,设计者有意让字母与数字的安排与我们的手指习惯错位,阴差阳错,QWERT式键盘反而成为了标准化设计而得以推广……这是题外话了。
请大家把手放在右边的小键盘,试试87.53的手感就知道了,是不是感觉特别流畅?
如果大家不相信这一说法,还有个更好的裁判:google,google是不会说谎的。
如果统计是编出来的,结果也会呈现出规律,因为数字是有限的,比如统计常用xx.xx%的格式,共包含10000个数字,当样本量够大(超过10000)时,编出来的结果肯定会出现重复,这叫作抽屉原理。抽屉原理的简单表述是“若有n个笼子和n+1只鸽子,所有的鸽子都被关在鸽笼里,那么至少有一个笼子有至少2只鸽子”。
87.53%并不神奇,鉴于gov.cn各网站已经积攒了足够多的统计数字,你可以搜索类似的数字(使用Google site:Gov.cn),比如17.53%(10,400个结果)、27.53%(55,700)、37.53%(7,030)、47.53%、57.53%、57.53%、67.53%、77.53%、87.53%(4,750)、97.53%;或者你也可以随手写一个如12.34%。如果有人足够闲,可以写个小程序,遍历全部xx.xx%在gov.cn的分布情况,看看是不是真的有特别被偏爱的数字,至少87.53%并不够神奇。
下面摘录几条精彩的供大家欣赏:
日前,国家统计局安徽调查总队公布了马鞍山市2008年度“公众对城市环境满意率”调查结果,结果显示公众对该市环境保护满意率高达87.53%。
http://hbj.mas.gov.cn/Web/show.aspx?id=154870
1—5月份,全市规模以上工业完成增加值87.53亿元,比上年同期增长17.29%,完成固定资产投资170.81亿元,同比增长23.7%
2006年末,100%的村和100%的自然村通公路,42.95%的村地域内有车站。进村公路路面以柏油路面为主,村内道路路面以水泥路面为主,87.53%的村在村内主要道路有路灯。
http://zhengwu.beijing.gov.cn/tjxx/tjgb/P020080424521463082909.doc
调查结果显示,有80.28%和87.53%的受访者分别对海南食品安全现状和药品安全现状感到满意
全市建筑行业发展平稳。年末资质以上建筑企业75家,比上年增加9家。全年完成建筑业总产值38.62亿元,比上年增长35.7%。全年施工房屋建筑面积571.51万平方米,房屋竣工面积257.44万平方米,其中住宅竣工面积87.53万平方米。
…… |