admin 管理员组

文章数量: 887021

体系

参考书籍:《统计数字会说谎》、《谁说图表不会说谎--杰拉尔德.埃弗雷特.琼斯》

统计学是一门关于收集、处理、分析、并解释和展现从数据得到的规律的一门学科,统计学可以提炼数据,但是要小心统计学也是会说谎的,一不小心自己得出的分析结果可能就欺骗了别人,或者被别人提供的统计结果蒙骗而不自知。

统计以事实为基础,尽管如此,有时却具有误导性,利用统计,既可以昭告事实,但也可以瞒天过海。问题是,如何才能判别自己所获悉的是事实,亦或是谎言?

好好掌握统计学将会使你拥有识别统计学结果是否出错或产生误导,换句话说,学习统计学是避免遭人愚弄的良策。

下面分别从统计数据和统计图表两个方面来讲述统计学是如何说谎的。

一、统计数值

误导方式1:统计数值虽然精简,但是屏蔽了细节

汇总统计值虽然精简,但是也使得很多细节变得含糊,而其中包含的信息可能很重要。不过这点在我看来不能说是数字在说谎,应该是取决于决策者对问题的思考,及目的。

例如对于经理想要本月销售总额,但实际情况是,虽然销售总额是没问题,但各个销售员的表现是不一样的,当然也许她就是不关心哪些销售员业绩不好,而她只关心各月是否达标了。

误导方式2:在数据差异较大时,使用平均数代表一般水平

例:若一个高尔夫球手的历史成绩如下:85、83、82、84、83,那么说他的平均成绩是83分,就是比较公正的说法;然而,同样是平均成绩83分,若成绩是:74、73、72、100、98,则用平均数描述该球手的成绩就不太可靠了。

结论:平均数只有在数据接近的情况下,才可靠;单纯的平均数无法让你判断选手的表现是否稳定,有可能在某一场打得精彩绝伦,而剩下的几场却打得一塌胡涂。

(1)使用中位数或众数

(2)使用移动平均:只使用近期的数值,而不是历史所有

(3)不计算空值:因为空值和零值不是一回事,在汇总用来取平均数值的个数时,空白不会计入,但会计入零值。

(4)采用截断均值

误导方式3:只有统计数值,没有带标识或单位

例:20,那到底是20个人,还是20斤

误导方式4:百分数与绝对数量

二、统计图表

我们平时看到的各种图表,虽然是以事实为依据,但它们可以将事实任意夸大或缩小,下面将较大家看透这些把戏,不要被一目了然的图表误导。

1.柱形图/条形图/折现图

误导方式1:柱形图/条形图/折现图坐标轴起点不为0,夸大事物变化趋势或差距

例:下面数据为某公司去年下半年盈利情况:

月份7月

8月

9月10月11月12月
利润(百万)2.02.12.22.12.32.4

(1)下面柱形图/条形图/折现图,纵坐标轴起点不为0开始,导致看起来,该公司盈利状况很好,一飞冲天的感觉:

 ​​​​​​​

(2) 下面柱形图/条形图/折现图,纵坐标轴起点若为0开始,看起来,该公司盈利状况平稳:

  

结论:

1.正确的绘制方式应该是(2)

2.绘制方式(1)误导的原理:纵坐标不从0开始,会使得纵坐标的单位刻度变小,使得同样的差距,需要更长的线/柱形表示,从而看起来变化大。例如(2)的单位刻度是0.5,而(1)的单位刻度是0.1

3.绘图软件可以为我们节省时间,生成有效图表,但至于图表是否正确,这得由我们自己保证;例如上面这个案例,在excel初始绘制出来的图表就是(1)呈现的,是具有误导性的;所以需要我们加以判断是否正确,而别指望软件绘制出来的就是正确的。

2.饼图

误导方式1:用饼图展现各类别频率接近的数据,难以发现细微差别

种类体育策略动作射击其他
销量(件)1050011500120001100012400

                

结论:当各类别比例较接近时,饼图用处不大,因为这时难以根据扇形块尺寸上的微小差别进行判别。应改用柱形图或条形图展现。

误导方式2:三维饼图,视觉上会造成误判

在3D饼状图中,人们通常认为边缘厚的分块最重要,这是因为立体效果为部分分块增加了厚度,从而使分块的表面尺寸失真。人们可能会感觉这个分块比二维的圆形图中出现的分块大。

例:以下数据,二维饼图看,A地区和B地区接近,但是从三维饼图看,B地区远比A地区多。

地区人数
A13
B14
C20

​​​​​​​                   

误导方式3:用绝对数值而非比例作为饼状图的数据标签

当饼状图各扇形被用绝对数值标注时,读者会不自觉地将数值相加,看看总数时多少(就算不那样做,他们至少对总数有个心理印象,即使他们察觉到)

结论:饼状图要用百分比,不要总是忍不住把绝对值加上去,如果绝对数值非常重要,那就用其他的图表形式。

误导方式4:用“其他”来隐藏不想交代的信息,或者是把有问题的数据剔除,这样剩下的“全部”就不是真正的全部了

建议:图表中如果一定要包括一个非常小的分块,1%或更少,建议将其绘制成大约1.5%的分块(大约5度的一个扇形),这样人们就会看到这个薄薄的分块,但一定要在附近标识真正百分比

3.雷达图

误导方式1:各指标的评分标准不一致

例如,你想从迅速、礼节、准确性、效果和跟踪这几个方面评估公司的客服质量,你想用精确到小数点后一位的1到10分制给礼节指标打分,那么你也要这样给其他指标准确打分,这样意味着各维度是可以比较的,但是骗子不一定遵守这个规矩。

假设有两个指标,一个指标评分范围为0-4,另一个为0至100。

(1)将0-100除以25,将得分的值缩短至0-4刻度中,而不用把0-4刻度放大

(2)将(1)得到的结果保持与范围为0-4的指标相同的小数位(保持相同小数位的方法有两种,一种是四舍五入,一种是直接截断,一般用直接截断)

例如指标评分范围为0-100中,有一个取值为85.6,则85.6/25=3.424,四舍五入为3.4,直接截断为3.4

误导方式2:各维度得分点连接起来的形状规则代表最佳选择,最均衡、整体价值最高,这是偏见

误导方式3:将正确的图表和有问题的图表放在相邻位置,例如可能把单位一致和单位不一致的雷达图放一起,给人印象所有图表都是单位一致的。

误导方式4:各指标的单位刻度不同,从而故意将不规则的雷达图调整为规则的

例如,假设有5个指标:节能性、操作性、加速度、外观、乘坐感受,其中节能性、操作性的单位刻度为2,而乘坐感受、外观、加速度的单位刻度为5

4.柱形图/条形图/折现图

误导方式1:坐标轴没有从0开始,夸大变化趋势;

误导方式2:调整y轴值域(包括:扩大y轴值域,缩小变化趋势;缩小y轴值域,放大变化趋势)

例如:

菜品外观
酱汤6.2
黄瓜沙拉4.5
美味金枪鱼7
饼干3.4

正常绘图:y轴起点从0开始,y轴最大刻度与数据的最大值接近

扩大y轴值域:缩小差异

缩小y轴值域方式一:不以0作为起点 

 

 

误导方式3:若只有百分数而没有频数,或只有频数而没有百分数

有时候,这是一种用来隐藏基础数据真实情况的伎俩,因为比如有很大比例的人青睐某种特定游戏类别,但受到调查的仅有10人;或者,你可能发现,有10000个玩家最喜欢玩的是体育游戏,但仅通过这个数据无法判断这个人在所有游戏玩家中占有的比例是高是低。

因此在设计以百分数为表现内容的图形时,请考虑这样一条黄金定律:设法指出频数或是将频数标在图形中间,或是标在图形旁边,都可。

误导方式4:

误导方式4:直方图的误导

本文标签: 体系