雷锋网 AI 科技评论按:《哈佛商业评论》(Harvard Business Review)最近发表了一篇文章《不想被偏见左右?那就用算法!》作者是亚历克斯·p·米勒。这篇文章谈到,人类常常做出有带有偏见性的决定(确实如此),所以他认为更多的地使用算法代替人类做决定是一个不错的选择。
「如何提高算法的公平性」是机器学习领域经常谈及的话题,但是直接认为算法的偏见就是比人类少,马上引起了不少反对之声。在雷锋网 AI 科技评论编译的这篇文章里,Rachel Thomas 就逐项提出了自己的反驳。
他认为米勒忽略了许多重要的相关因素,包括:
算法实现的时候通常不会设计一个用来申诉的途径(因为很多人误以为算法是客观、精准且不会出错的)
在许多情况下,算法的使用范围比人类的决策者规模大得多,所以会把完全相同的偏见也散播到同样大的范围中去(算法之所以吸引人,一部分原因就是因为使用成本低)
算法的使用者可能不理解概率或置信区间(即使已经注明),并且在实际操作中可能也不愿去推翻算法的决定(即便这在技术上是完全可行的)
与其只关注这些不置可否的选择,不如好好考虑如何将人类和机器的优势相结合,以便创造出更好的、偏见更少的决策工具。
米勒在《不想被偏见左右?那就用算法!》中承认,「算法革命」的批评者是在担心「算法在运用时会不透明、带有偏见,成为无法解释的工具」,但他在自己的文章中却只提到了「偏见」,而忽略了「不透明」和「无法解释」(以及它们和「偏见」之间的化学反应)。
媒体总是通过人类和机器的对比来证明 AI 的进步,比如我们常会看到媒体报道,谁才是某项任务的冠军。若考虑到大多数算法一般都是用来做什么的,这种比较其实并不科学,同时这样评价人工智能也十分狭隘。因为在所有案例中,算法都有人类的参与,尤其是在搜集数据、制定决策、实现方式、解读结果及因人而异的理解等方面,都会受到人类的左右。
多数从事人工智能医学应用的研究人员,事实上并不打算用机器来完全取代医生,他们只想利用人工智能来帮助医生,使他们的决策能更加准确和效率,并提高医疗质量。要知道,史上最强的从来不是人与机器中的一个,而是并肩协作的人类与计算机组成的团队。
米勒(正确地)认为,人类是非常有偏见的,然后他对比了几种现有的并不完善的改善方案,想从里面挑出不那么糟糕的一种。但他却并未提出实质性的思考:怎样才能减少偏见,作出更好的决策呢?(也许是通过一些人与算法的结合?)我想,这个问题更值得考量。
算法在实际中运用范围很广,因而也会出现许多相同的偏见,但这种偏见却会被认为是正确或客观的结果。米勒的研究中,把它们拿来做了完全并列的对比,但他没有注意到实际使用中的区别。
凯茜•奥尼尔(Cathy O 'Neil)在《摧毁数学的武器》(Weapons of Math Destruction)中写道,她所批评的那类算法更倾向于祸及穷人。它们专注于处理相对便宜而又大规模的任务,当然,价格低是它的优势。相反,富人却常倾向于选择「人」。要知道,大公司或者贵族学校常倾向于内部推荐或面对面的面试,而不会像财力不足的企业那样使用机器进行群体筛选。佼佼者往往会动用人力,而机器常被派遣去做相对初级的选拔。
凯茜在书中举了的一个例子,有一位患双相情感障碍的大学生,他想在暑假里找一份装杂货的工作。但由于他申请的每一家便利店都在使用相同的心理测量软件来筛选求职者,因此他被每家便利店都拒绝了。这体现出算法的另一隐患:即使人类经常有类似的偏见,但并不是所有的人都会做出相同的决定。如有可能,他也许能找到一个即使知道他的心理疾病仍然愿意雇佣他的老板。
许多人宁愿相信算法做出的决策,也不愿信任人类的决定。事实上,设计算法的研究者们可能对概率和置信区间有更多的了解,但真正使用这些算法的普通大众却不会注意到这一点。即使给了他们推翻算法决策的权力,在实际操作他们也不一定愿意这样做。
很多关于算法偏见的案例,其实都缺乏有意义的解释或申诉过程。这看似是算法决策过程中的特殊趋势,也许是因为人们错误地认为算法就是客观的,所以没必要允许对结果进行申诉。与此同时,正如上文所说的那样,算法决策系统本来是为了削减成本,如果要允许申诉的话,这功夫就白费了。
凯茜·奥尼尔(Cathy O’neil)还提到,有位深受学生、家长和校长喜爱的老师,却莫名被算法开除了。她永远都没办法知道算法是因为什么原因而开除她的!如果有一种相对快捷、简单的方式来让她提出申诉,甚至即便只是让她确切知道这和什么因素有关,这故事就不会那么令人扼腕了。
有一个软件在美国一半以上的州使用着,它会决定每个人接受的医疗保健服务应该有多少。根据 The Verge 的调查,这种软件在阿肯色州实施后,许多患有严重残疾的人医疗保健骤然大幅削减。比如,一位患有脑瘫的女性 Tammy Dobbs,她本需要一个帮助来帮助她完成起床,上厕所,吃东西等日常生活行为的人,但其受助时间却突然减少到每周 20 个小时。没有任何人能向她解释为什么医疗保健服务一下子变少了。最终,经过法院调查,是该软件的算法错了,因此对糖尿病或脑瘫患者产生了负面影响。然而,像 Tammy Dobbs 类似的许多病人依然生活在恐惧之中,总担心他们的福利又会莫名其妙地被削减。
这个算法的创造者是一位教授,他从这个软件中赚取版税。然而在被问及此事时,他却认为这是别人的责任。我们可不能推卸自己的技术问题给别人。
2000 年代中期,科罗拉多州使用了一个单独的计算机系统来确定公共福利,结果被发现有超过 900 条的错误规定被输入到了里面,导致了一系列问题。比如,孕妇无法享受医疗补助。律师们通常很难发现这些漏洞,因为这些内部工作机制就像商业秘密一样受保护。所以说,医疗保健、雇佣/解雇、刑事司法和其他会对人们的生活造成重要改变的领域的决策系统,应该创建出一个快速且易于操作的申诉机制。这些令人不安的事故中,如果有一种简单高效的方法来纠正算法的错误就好了。犯错是难免的,正因如此,有一个严密的系统来发现和纠正这些错误是不可或缺的。
当我们谈及人工智能时,我们需要考虑的是在这个现实世界中复杂的系统。《哈佛商业评论》中提到的研究将决策看成孤立的行为,并没有考虑所处的环境。就好比判断一个人是否会坦白其他罪行,这种决定并不能孤立做出,还需要结合复杂的法律系统。我们有必要了解研究领域所处的真实环境是如何交互运作的,同时别忽略那些可能会受到影响的人。
在美国的一些法庭上,对于审前保释、量刑和假释有关的判决,都使用了 COMPAS 算法。在 ProPublica 的一项中调查发现,白人被告人的结果误报率是 24%(这里的误报是说,算法判断这个人释放时是「高危」的,但此后并没有二进宫),而黑人被告的误报率高达 45%。后来的研究发现,COMPAS 事实上还不如一个简单的线性方程精确。(你可以在普林斯顿计算机科学学院教授 Arvind Narayanan 的《21个关于公平的定义》视频中看到更多关于公平的定义)。
克里斯蒂安•林(Kristian Lum)是一名统计学博士,也是人权数字分析集团(Human Rights Digital Analysis Group)的首席数据科学家。她与纽约法律援助协会(NY Legal Aid Society)的律师、前公设辩护人伊丽莎白•本德(Elizabeth Bender)以及一名被捕却无辜的男子,特伦斯•威尔克森(Terrence Wilkerson)一起组织了一个研讨会。他们一起分享了关于法律体系中所存在的漏洞的应对经验,为围绕 COMPAS 的辩论提供了宝贵的讨论素材。 Bender 分享说,纽约市的无力负担保释费用、也尚未经过审判的被捕公民都会被关押监禁在 Rikers Island,政府付费的公共辩护人去那里见他们的时候来回各需要两个小时,但是实际面见需要法律服务的那个人的时间才不到 30 分钟,假如守卫们动作麻利、守时的话(但往往不是这样的)。威尔克森详细介绍了这些无力缴纳保释金的无辜被捕者有多么经常同意签署认罪协议,只为了他们可以更快地出狱。请不要忘了,这些都是发生在一群从来没有上过法庭的人身上!这个圆桌讨论是一个阐明现实世界与复杂系统之间关系的绝好例子,真希望更多的统计学家和计算机科学家能向他们学习。
由此可见,算法也许会加剧潜在的社会问题,比如法院和监狱系统啦,跟种族偏见挂钩的保释金使用等等。所以我们有责任去了解算法可能会接触的系统以及它们可能会遇到的问题。
大多数对算法偏见持反对意见的人,都只是在反对不公平的偏见,而不是反对算法本身。米勒说,这些批评算法不公平的人「很少问他们分析的系统在没有算法的情况下运行得有多好」,这表明那些反对者可能并不知道人类带有多少偏见,或就只是单纯排斥算法。在我开始撰写有关机器学习偏见的文章之前,我就花了大量时间研究和撰写有关人类的偏见(特别是关于它们如何与科技行业相关的研究)。
当我在 twitter 上分享有关偏见的算法时,常会遭到反驳,认为我是反算法/科技人士。我有数学的博士学位,我曾做过量化分析师、数据科学家和软件工程师,并创建了一个免费的在线计算线性代数课程,且与别人合作创立了 fast.ai ,它有面向程序员的深度学习实操课程,并通过算法的巧妙运用赢得了斯坦福大学的计算机视觉速度测试。
我不是唯一这样的人:大多数直言不讳批评带有偏见的算法的人,都有计算机科学、数学或统计学博士学位,且持续活跃在他们的领域里。只要看看 Faireness Accountability and Transparency Conference 的一些发言者就懂了。好比普林斯顿大学的计算机科学教授 Arvind Narayanan,他是 Kaggle 社交网络挑战赛的冠军,也是一门流行的加密货币课程的老师,他依然公开反对过算法偏见。
所以,我希望有关偏见算法的讨论不要总是拘泥在这种无足轻重的地方,而要深入问题的本质。
via fast.ai,雷锋网 AI 科技评论编译