雷锋网按:日前,亚马逊欧洲商业智能部门负责人、资深数据科学家 Karolis Urbonas,在发表了题为《用数据说谎》的博文。文章总结了用数据误导人最常见的三种方法。这三种做法,或许大家在潜意识里都知道,但未必会把它们与“用数据说谎”联系起来。
当然,作者的目的,是希望数据科学、机器学习从业者引以为戒。全文由雷锋网编译,做了不改变原意的删改。
Karolis Urbonas
“用数据说话”,这句话常被大家挂在口边。
自大学起,那些希望我们养成批判、逻辑思维的老师,就一遍遍向我们灌输“观点”、“经验主义”与“客观事实”的区别,引导学生如何正确看待“严师出高徒”、“原汤化原食”、“君子坦荡荡,小人长戚戚”、“天将降大任于斯人也,必先……”等等古代“智慧”结晶。
因此在潜意识里,会有人认为,高质量数据代表的就是事实,而基于可靠数据的分析与结论,也应当是客观、理性的。
但往往并不如此。
举个例子,数据分析师会有意无意地有所倾向、偏颇,这很难避免;还会受到来自周围同僚、上司的压力或是期望,又或是项目赶时间。除此之外,数据分析和解读的过程也存在天然的风险,导致最后的“说谎”行为。即便数据科学家的初衷十足高尚,最后的结果也未必能保证真实、客观。
闲话少说,一起来看看用数据说谎的三种方法。
平均数是有史以来被滥用最严重的参数,到处都有人利用它来创造谎言。
当平均数被提供,请注意:除非数据是标准分布(基本上从来都不是),否则它不能代表任何反映真实情况的有价值信息。这背后的原因很简单,用通俗的话来讲,就是大家常说的“我上司收入 100 万,我收入 20 万,两人的平均收入是 60 万”。在理论上讲,平均数根本无法反映数据的结构分布,而该信息至关重要。平均值并不是一个非常可靠的度量参数,它对边缘数值以及任何偏离标准分布的样本都非常敏感。
统计学家弄明白这一点已经有几十年,但企业、各类机构、政府仍然把平均数作为核心统计参数,并基于它来对涉及十亿、百亿、千亿规模的问题做决策,并且掩盖真实问题。
解决方案是什么呢?
不要用平均数!从今儿起不再用它,并有意识地考虑数据分布,不要弄出来一个只对个别情形有参考意义的统计报告。第一步,可以从使用中位数开始,并且用 top 99%、bottom 1% 数值来对数据进行概括。
平均数作为各门学科的权威参数已经太久,它有太多不加质疑的盲目追随者,我们几乎已经可以把它看做是宗教。这事儿到底是怎么发生的呢?很久很久以前,自然科学的标准分布假设(雷锋网注:使用平均数的前提)蔓延到了其他领域,比如商务分析以及其他商业数据应用。这毒害了好几代的数据分析师。
证实性偏见(ConfirmationBias)
这又是一个很经典的误导途径,与心理学紧密相连。它发生于你搞清楚将解决的问题之前,当然,这一步也会影响该效应。数据分析师看待需要解决的问题的方式或角度,能在根本上改变原本的客观立场。一旦牵涉到情感(不论是表达出来的,还是潜在的),显而易见的,该效应会大幅加强。对于该效应,一般很难甄别,这也是区别普通数据分析师和大师级分析师的主要分水岭。
一个十分典型的场景,是在时间不足的情形下被要求完成数据分析。这会产生尽快下结论的压力——通常会有重要决策要根据分析结果来制定。这时会有许多偏见、偏差一股脑儿地涌入项目中,证实性偏见却是数据分析师最心甘情愿上钩的一种。数据分析师随后根据心里已有的假设,忙着在最短时间内回答或解决研究问题。这意味着第一个出现的伪相关就有可能被当做是答案。该情况下,分析师会主动寻找能证实原先假设的证据,而可能对其它证据视而不见。这便是“用数据来配合假设”。
这发生于数据分析师先入为主,认定该问题有一个“正确”的时候。当分析师有意寻找符合该假设的证据,该偏见便成功地把分析过程引到歧路。随后,分析师对数据的压缩、调整,仅是为了贴合与假设一致的结论。这里,非常重要的措施,是在一开始就定义严格的研究要求,并收集支持正反两面结论的数据和证据。
数据科学家对于在数据中找出某种模式、合理解释,常常会心痒难耐。这时,他们很可能会忽视一个事实:并没有足够的数据来下结论、或回答问题。后者是完全正常的。这时候,也可能问题本身需要重新定义。
人脑是如此善于在混乱中发现模式或图案——有时,它们开始发现并不存在的模式。对于数据科学家而言,这是非常致命的。许多公司雇佣数据分析师就是为了发现模式,因而,发现的模式越多,证明该分析师的水平越高、洞察力非同一般,因为他看到了别人都看不到的东西。这类建立在谬误之上的成功,导致许多工作被聚焦于发现模式、分段以及“非同寻常的东西”。当然,许多时候这些都是正常存在的,真实数据中也会有许多噪音。
这就导致了很尴尬的局面——数据分析师“发现”了原本并不存在的模式,企业根据该结论做决策,然后这一决策影响了现实人群,竟然迫使该模式真的出现。简直是神奇。举个非常简单的例子:寻找消费者细分市场,然后试图把他们从一个市场区间“转”到另一个。当某细分市场被企业营销部门瞄准,想要把他们推向一个其实并不存在的区间,该神奇的现象就会发生,发挥现实影响。但是,这种事的风险很大,并且容易导向一系列昂贵的错误决策。
这当然不是一个完整的“用数据说谎”列表。如要彻底学习,你应该学习心理学理论中其它能影响你的主观判断以及洞察力的认知偏差。 以上是最常见的数据分析陷阱,我看到许多分析师不小心掉进去,并非故意的制造出数据“谎言”而不是寻找真实情况。客观并不是一个容易实现的目标,它需要许多自律。
最成功的数据科学家,会把非常非常多的注意力放在提防这些偏见、偏差上,并对它们所能导致的这些谎言保持高度警觉。
via cyborgus