315|可视化打假:商家如何利用图表欺骗我们?

澎湃新闻记者 陈良贤
2021-03-15 19:00
来源:澎湃新闻

今天是“315”国际消费者权益日,很多媒体都在为消费者打假。其实,商家的搞假不仅存在于商品中,宣传介绍里也有利用视觉陷阱欺骗消费者的。

特别是相比文字,图表在传播中更有优势,所谓一图胜千言。好看的图表、专业的图表,可信度似乎也更高。

而阿尔贝托·开罗(Alberto Cairo)的《数据可视化陷阱》(How Charts Lie)一书则告诉我们并非如此,它揭穿了很多美国政客、公司利用图表来欺骗的把戏。本应帮读者更好地理解数据的图表,却常常成为忽悠人的工具。

比如书中提到的这幅曾挂在白宫西翼的 2016 年美国大选投票结果地图,就很具有误导性。一眼望去仿佛 80% 都是投特朗普的红色,但实际上他和希拉里得票率都不足50%。

图片来源:@TreyYingst

让我们一起来一场图表打假吧。

可视化的原理

“如果说图表的核心就在于:在尽可能忠实于数据的基础上通过各种方式来编码数据,那么我要告诉你:打破这个核心原则将无一例外地导致视觉欺骗。”——《数据可视化陷阱》第 59 页

Cairo 在书的开始就指出了可视化的最核心原则,即忠实于数据去做可视化。这一点要做到好像简单,随便用个 Powerpoint 或 Keynote 里的图表工具一键生成,不就是最准确、最忠实于数据的可视化了吗?

但其实猫腻多多。因为想欺骗你的人,才不会用默认模板简单地生成图表,而是处心积虑地调整各种参数,让你看完图后,得出和数据本身并不相符的结论。

具体有哪些猫腻?Cairo 首先科普了一张图表该如何正确地阅读:

为什么要这么读图?现在生活中图表这么多,还要教吗?

是的,很多人其实并不会读图。遇到图表时,往往只看标题和可视化,忽略了数据来源、坐标轴等部分,而这些正是可以做手脚的地方。

Cairo 就根据这些读图要点总结出了 5 大类图表陷阱,我们一个个来看。另外,为了让大家更好理解这些陷阱及其背后的原理,课代表找了一些国内的图表做案例来做说明,说不定就有曾经骗到你的图。

陷阱1:糟糕的设计

下面这张是凤凰新闻(左边)和 BBC (右边)报道中国新冠确诊人数的地图,数据更新时间都是2020年2月14日的下午。

图片来源:凤凰新闻、BBC

除了 BBC 的地图国界线不对,少了很多重要的地方外,两张地图还有没有什么地方让你感觉不对劲?

是不是 BBC 的地图看起来像是国内的疫情重灾区有很多?东部很多省份的疫情都和湖北一样严重,而我们知道实际情况并不是这么一回事,凤凰新闻的图就没这种观感。

怎么回事?大家的数据明明是一样的。

差别就在色块的取值范围上:虽然两张地图都划了 5 个色块,但 BBC 将确诊病例大于 500 例的省份都赋予最严重的深红色,导致了当时确诊 529 例的重庆和确诊 51986 例的湖北是一样的颜色,很有误导性。而凤凰网的数据划分范围就合理的多,是以 10 的次方为分界线。

“图表的质量取决于数据编码的精准度以及它是否采用了恰当的比例。”——《数据可视化陷阱》第 91 页

刚刚是第一个案例,问题出在颜色标度上,再来一个,大家看看有什么问题?

图片来源:小米发布会

这是 2017 年 4 月 19 日小米发布会上的一幕,展示的是 小米6 手机和友商的三台手机在安兔兔上的跑分。发布会的 PPT 在这里耍了一个小聪明,坐标轴并非从 0分 开始,而是直接从 40000分 开始。

这么做会从视觉上产生什么样的效果呢?那就是夸大差距。

数据上,小米6 的跑分是 18 万多分,而 OPPO R9s 是 7 万分不到,前者是后者的 3 倍不到。而从4万分开始展示,高度给人的视觉感受是双方的倍数有 5 倍多。

“肆意地摆布标度和比例通常会导致图表展现的歪曲。”——《数据可视化陷阱》第 68 页

关于坐标轴是不是非得从 0 开始,一直是可视化设计中的一个老生常谈的问题,美数课也曾经有图被读者指出坐标轴起点不是零(见《特朗普的败选人生该如何安排,这里有份榜样名单》的评论区)。

Cairo 觉得这个需要结合实际问题看,如果图表是利用高度本身去呈现数据,如柱状图,那么坐标轴就应该从 0 开始,但如果我们关注的是数据的相对位置,如散点图等,那么坐标轴的起点就可以更灵活

手机发布会上的 PPT 图表耍小聪明的真是太多了,小米至少还是基于数据去呈现的图表,下面这张图是就真的是放飞自我了,这是 魅蓝S6 手机新品发布会上介绍处理器的一幕:

图片来源:魅蓝发布会

神奇的地方出现了:三星 7872 处理器的得分看起来是高通骁龙 625 处理器的两倍,但前者是 1313 分,后者是 845 分。

课代表根据数据做了一张对比图,原来 PPT 制作者不仅将自己的柱形图拉长了,数值 1313 应是拔到了 1400 多,还把竞品的柱形图缩短了。 

这是课代表见过的最不走心的一张骗人图表了。

陷阱2:数据不可靠

第一个图表陷阱是利用读者没有看坐标轴或标签的习惯来进行视觉欺骗,接下来这个陷阱利用的则是常常被大家忽视的数据来源。

Cairo 在书中提到了这么一句俗语——“输入垃圾,输出必为垃圾”(Garbage in garbage out),这是程序员、统计学家和科学家中常说的一句话。在图表中这个道理也同样适用:如果图表引用的数据都是错的,那它再精美也没用

来看下面这张图,这是一张讲各地小孩会说方言比例的图表,曾在社交媒体广为流传。

图片来源:网络

因为传播得太广,很多媒体、政务号都出来回应:扬子晚报《吴语熟练使用比例全国最低,专家:不必当真》、苏州发布《苏州小孩会说方言比例全国垫底!?我们专门做了调查,结果……》。

而这张图最大的问题就是数据来源。谁做的调查、调查的样本量是多少、熟练使用方言的判断标准是什么,这些通通没有交待。

但为什么还有这么多人信、还传播?Cairo 在书中一语道破:

“那些符合我们根深蒂固的信念的图表,对我们产生误导的可能性最高。”——《数据可视化陷阱》第 93 页

在知乎上“如何看待这张《6 ~ 20 岁熟练运用方言人群比例》统计图?”这个问题下,不少回答就是因为这张图符合自己的认知所以选择相信:

“坐标上海,对于上海青少年无法熟练使用沪语的情况深有感触。”

“作为一个无锡人,无锡(包括苏南吴语区)的方言普及率真的是很令人担忧。”

“早就知道我吴已完了,我们县未成年人会说方言的正无限趋近于零。”

如何识破呢?Cairo 在书中写了 17 条经验,这里囿于篇幅限制,分享一条最万能的方法:

不要相信任何没有明确说明故事来源或没有给出引用链接的发表物。——《数据可视化陷阱》第 93-94 页

陷阱3:片面的数据

那是不是写清楚了数据来源,图表就完全可信呢?未必。

Cairo 总结的第三种陷阱是提供片面的数据,相比前一种,这种骗人方式更加狡猾。

“视觉垃圾的贩卖者们都知道,要想欺骗读者,一种有效手段就是使用断章取义的数据。”——《数据可视化陷阱》第 124 页

何谓断章取义的数据呢?下面来看第 4 个案例:

图片来源:网络

课代表确认过,数据的确是来自上海“随申办”小程序,那有什么问题吗?

猫腻就在这位网络博主隐藏了一个关键信息——这是上海市户籍人员的统计数据,并不是生在上海的人口数统计。上海作为一个移民城市,户籍人口一直在增长,所以这里的数据中有很多是出生后移民来沪的。

课代表在 2021 年 2 月 7 日也在这个小程序上查了一下,上海市户籍人口中共有 252 人在 2020 年 1 月 1 日这天出生,比上面的 156 人多了不少,下次查可能又多了。

图片来源:随申办

 

图片来源:网络

除了断章取义的数据,Cairo 还指出了另一种片面的数据:

“与其处心积虑地展示一小部分精挑细选的数据,不如把尽可能多的数据一股脑塞进图标里,挤爆读者的思维宽带。”——《数据可视化陷阱》第 124 页

2019 年的时候,一系列主题为“北京离婚率 48.3% ”的文章刷爆了朋友圈,渲染中国的婚姻制度将要消亡的氛围,同时还配了看起来很全很官方的数据。

很多做数据分析的公众号就指出了这些文章背后的数据问题:当年离婚对数÷当年结婚对数得到的不是离婚率,而是离结比。至于离婚率的计算公式要看是要精离婚率(Fine Divorce Rate),还是粗离婚率(Crude Divorce Rate),两者的计算方法也不同。

图片来源:大数据DT,该号制作这张图表是为了指出问题

但有这么多数据的图表放在读者面前,给人一种好全、好专业、好可信的感觉,应该是错不了。

大家有没有感觉到,相比前面那些陷阱,这种陷阱隐蔽性更强,但它们都有一个共同特征,就是前面提到的那句——都是“符合我们根深蒂固的信念的图表”

生孩子的是不是越来越少了?离婚的是不是越来越多了?对,那就点赞、转发呀。

谣言往往从这里滋生。

所以,Cairo 觉得设计师在做图表时,需要“努力在‘过分简化事实’和‘展现过多细节以掩盖事实’之间寻求平衡”,部分的事实并不等于事实

陷阱4:虚假关系

什么是虚假关系(spurious relationship)?简单说就是把两件没有因果关系的事建立联系,太阳升起是因为公鸡打鸣就是一个典型的例子。

这种相关性的谬误出现在很多图表中,甚至是经过审核的科学研究中。

有人还记得“巧克力吃得越多的国家,诺贝尔奖就拿得越多”这条新闻吗?这出自医学权威期刊《新英格兰医学杂志》上的一篇研究(DOI: 10.1056/NEJMon1211064),论文中有这样一张图表:

图片来源:《新英格兰医学杂志》

这篇研究的作者通过这张图说,人均巧克力消费量( X 轴)和人均产生的诺贝尔奖得主数( Y 轴)有正相关性,因此吃巧克力有用。至于原理,则是巧克力中有类黄酮(flavonoids),可以提升脑力。

可别嘲笑他的神奇逻辑,还有别的研究人员受他思路启发,研究出了喝牛奶多的国家获诺贝尔奖几率高。

课代表怀疑这是牛奶公司的硬广图片。

图片来源:网络

这两个研究的漏洞就是强行建立因果联系。有文章就进行了反驳(DOI:10.3945/jn.113.174813),用的是反证法,发现宜家的数量也和诺贝尔奖得主的比例有着显著的正相关性。

这两样东西要是真有因果关系,课代表觉得中国每个城市都应该开十个宜家。

果然,要用魔法打败魔法。

图片来源:The Journal of Nutrition

但为什么这种强行建立因果联系这么有市场?Cairo 是这么解释的:

“人的大脑本身就有一种‘对所见进行过度解读’的倾向,而且人的大脑总是识图印证与我们信念相符的内容,当图表遇到人脑的这种倾向性,其暗示误导性规律的作用更会被放大。”——《数据可视化陷阱》第 177 页

有个很经典的搞笑网站“虚假相关”(www.tylervigen.com),就搜集了很多这种离奇的虚假因果关系图:

鸡肉消费量竟和原油进口总量相关?日本车卖得越多,撞车自杀的美国人越多?掉进泳池淹死的人数竟然与凯奇演的电影有联系?

影帝瑟瑟发抖,表示不敢再演电影了。

对于这些图表中的逻辑陷阱,Cairo 给普通读者的识破方法就是多想想:

“这幅图表展现出来的规律和趋势之外,这些数据还有可能隐藏了哪些规律和趋势?”——《数据可视化陷阱》第 191 页

对设计师,Cairo 则警告了六个字:“不要添油加醋。”

陷阱5:隐藏不确定性

我们生活中,还会遇到很多调查性或预测性的数据,如谁会在投票中胜出、台风移动路线或者股票的走势。但这些预测有时候不能保证百分百的准确,它们常常会带有一个叫置信区间的东西。

比如“调查显示,北方人春节吃饺子的比例是 70% ,95% 的置信水平上边际误差是正负 10 个百分点。”的意思是:根据我们的调查,我们有 95% 的把握,确定 60% 到 80% 的北方人春节吃饺子。(数据是课代表随手想的,请勿当真)

设计的时候就需要将这种可能性体现出来,而不是简简单单呈现一个 70% 就结束了,而读者一定要留心图里的置信情况。

图片来源:FiveThirtyEight

以上就是《数据可视化陷阱》这本书总结的 5 大类图表陷阱,包括了:糟糕的设计、数据不靠谱、片面的数据、虚假关系以及隐藏不确定性。但有错的不是图表,图表只是工具,毕竟“图表会说谎的原因之一是因为我们会对自己说谎。”

Cairo在书的最后提到:“我们生活在一个数据和图表被神化的时代”,而这样揭穿图表陷阱的科普是很有必要的。书里还有很多有意思的可视化案例解析,感兴趣的小伙伴欢迎找书来看。

你对这些有欺骗性的图表有什么想法吗?欢迎留言分享~

    责任编辑:吕妍
    校对:丁晓