统计陷阱:由真实数据制造的假象

全民创业,全民微商,全民淘宝,看看到处纷飞的产品介绍,分析图表吧,我们无法怀疑,我们的确生活在一个数据与商业繁荣的时代。生活的经历告诉我们做事情一定要“心中有数”,但心中有数首先要眼里有数,所以我们习惯于“实证方法”,通过调查得出统计数据,再做成表格、数字,生产车间里有箭头图,研究报告里有饼图、柱状图、折线图、曲线图、模拟曲线、回归曲线,好了,这下,我们踏实了。可是,由于商业利益的存在,统计数据也...

全民创业,全民微商,全民淘宝,看看到处纷飞的产品介绍,分析图表吧,我们无法怀疑,我们的确生活在一个数据与商业繁荣的时代。

生活的经历告诉我们做事情一定要“心中有数”,但心中有数首先要眼里有数,所以我们习惯于“实证方法”,通过调查得出统计数据,再做成表格、数字,生产车间里有箭头图,研究报告里有饼图、柱状图、折线图、曲线图、模拟曲线、回归曲线,好了,这下,我们踏实了。

可是,由于商业利益的存在,统计数据也会表现出倾向性,或者预先设定了倾向性。所以,让我们感到踏实的数字未必反映真实状况,我们依赖的“实证方法”未必就“实”,其过程可能是把一种倾向研究成“事实”或证明成“事实”,与其说是“实证”,还不如说是“证实”。

美国著名统计学家达莱尔·哈夫的名著《统计数字会撒谎》或许能让我们对于统计中的陷阱有入木三分的认识。自1954年出版至今,这本书多次重印,历久弥新。达莱尔举出许多活生生的案例,向我们一一解读了统计中的陷阱,读起来很有味道。

达莱尔提出,当你面对统计数据时,先要问自己5个问题:谁说的?他是如何知道的?遗漏了什么?是否有人偷换了概念?这个资料有意义吗?

笔者很注意电视、报纸上卖药的广告,“中国有百分之××”的人“缺钙”、“前列腺”、“性机能”这个“百分之××”是多少呢?一般是70%、80%、90%。很奇怪,过去凭票过日子的时候,中国人啥成分不缺,现在怎么什么都缺?如果把广告所警告的疾病、营养不良的百分比都拢一下,这个结果够吓人的。问题的根本在于,这个危言耸听的统计是谁做的?当然是厂商做的,那么出现如此荒诞不经的统计也就不足为怪了。

统计的陷阱在哪里呢?首先是统计本身的不真实性,比如统计样本的选择偏差,或是样本空间过小,导致代表性差。统计样本的选择偏差是比较常见的,由于受调查者的主观意向或者客观失误的影响,统计样本的选择偏差直接影响到统计的结果。

如果抽取开发商作为样本调查房价是不是高?抽取医药人员作为样本调研医疗费高不高?说得再搞笑一些,抽取交通违章者作为样本去调查交通警察的形象。那么,看似科学的统计会得出相当滑稽的结果。

统计的另一个陷阱在于统计之后的分析过程,在分析中,统计者是否遗漏了什么?或者忽视了统计所依赖的条件?哈夫在书中举了个例子:“某年公布的数据显示,该年4月的零售额高于去年同期,于是证明经济开始进入复苏阶段,但遗漏的内容是前一年的复活节在3月,而该年的复活节在4月,所以复活节带来的消费高峰在4月。”暂时的消费高峰显然不能代表经济的转向。

我们经常看到这样的分析报告,某产品价格为1000元,目前消费群体是10万,年收入1亿元,如果全国有百分之一的人消费该产品,就会有1300万消费群体,年收入将高达130亿元,带来××亿元的税后利润。

类似的分析过程我们并不陌生,但统计者忽略了一个事实,那就是从10万消费群体增加到1300万的前提是价格的大幅降低,而价格大幅降低之后,收入就不会那么多了,利润更会有很大的变化。试想,如果现在的手机还是当年大哥大的价格,能做到如此普及吗?

以突发事件代替常态,以小样本推广到大样本,如果忽视了一些重要的因素,分析过程就会产生缺陷。即使是正确的统计数字也未必能得到正确的结论。

桑普拉斯说,统计分析让一切假象原形毕露。但遗憾的是,统计未必能够揭示真实,有时候还可能制造假象。当我们面对生活中形形色色的统计数据的时候,千万要多保持一些理智和清醒。

0支持
0反对