雷锋网按,众所周知,机器学习模型的性能与训练所用数据集的质量息息相关。不过,怕什么来什么,计算视觉新创公司 Roboflow 就宣称,我们担心的情况在行业内时有发生。 Roboflow 的创始人 Brad Dwyer 指出,一些用来训练自动驾驶汽车的知名数据集遗漏了不少关键数据。
Dwyer 指出,包含了 1.5 万张图片(主要是白天在山景城及附近区域采集)的 Udacity Dataset 2 就出现了遗漏。他们在数据集中发现了数千张没有标签的车辆、行人图片。在大约 5000 张图片中,还出现了很多没有标签的自行车(其中有 217 张甚至没有任何注释,但这些样片中确实有小汽车、卡车、街灯或行人)。除此之外,Roboflow 还在该数据集中发现了虚假注释以及复制粘贴,甚至体积明显超标的bounding box。
标签相当重要,但它并不是 AI 系统理解范式含义(比如什么时候一个人会走到车前)并给予该知识评估未来事物的准绳。不过,错误标签或者没有标签的项目可能会造成精度降低或糟糕的决策,而对自动驾驶汽车来说这可是灾难的根源。
数据集中很多目标都没有标签
“开源数据集确实很棒,但如果想赢得公众的信任,我们必须保证自己分享的数据足够完整且准确。”Dwyer 写道。他还指出,在 Udacity 的自动驾驶工程课上,成千上万的学生都在用 Dataset 2 支持一个开源的自动驾驶项目。“如果你在项目中用了公共数据集,车辆上路前请一定要做好尽职调查并检查其完整性。”
众所周知,AI 容易因数据集不完整或偏斜而产生偏见。举例来说,词嵌入是一种常见的算法训练技术,由于涉及将词链接到向量,因而不可避免地会拾取(最糟糕的是放大)源文本和对话中隐含的偏见。眼下,许多面部识别系统就有点“种族歧视”,它们识别起有色人种错误率就要高一些。Google Photos 甚至错误为黑人打上了“大猩猩”的标签。
目前,除了 2018 年 Uber 测试车那起致命事故,自动驾驶汽车遭遇的都是磕磕碰碰的小事故。不过,这可能是因为路上的自动驾驶汽车太少了,而未来情况可能会发生巨变。按市场研究公司 ABI 所言,2025 年将有 800 万台自动驾驶汽车上路,Research and Markets 则预计到 2030 年全美将有 2000 万台自动驾驶汽车投入运营。
如果这些车辆都搭载着有缺陷的 AI 模型,一旦它们突然失灵,后果恐怕不堪设想,比如用一场恶性事故彻底毁掉人们对自动驾驶汽车的信心。布鲁金斯学会与高速公路和汽车安全维权组织(AHAS)的研究均发现大部分美国人都对自动驾驶汽车的安全性不放心。布鲁金斯学会的调查显示,有超过 60% 的受访者不想乘坐自动驾驶汽车,而 AHAS 的调查中则有 70% 的受访者不愿和自动驾驶汽车共享道路。
想解决数据集的遗漏问题,就必须用上更好的打标签方案。Dataset 2 在 Github 的官方页面表示,自家的打标签工作靠的是众包语料注释公司 Autti,后者用到了机器学习与人工监督相结合的方法。当然,现在我们还无法肯定数据集的遗漏是否与这种打标签的方法有关,未来严格的验证步骤才能给它盖棺定论。
Roboflow 告诉 Sophos 的 Naked Security,称公司计划使用原始数据集和数据集的固定版本(已在开放源代码中提供)进行实验,以查看在训练各种模型架构时问题的严重程度。“如果与其他领域(例如医学,动物,游戏)的数据集相比,Dataset 2 质量真是特别差,” Dwyer解释道。“我希望未来大公司们对打标签、清洁和验证过程再上点心吧。”
在一份声明中,Udacity 强调称,作为工具,自家的数据集纯粹是为了教育目的而生,它们从未暗示过该数据集是完美的,或数据都打了标签。此外,虽然 Udacity 在用该数据集训练自家自动驾驶汽车,但几年来这些车辆均在封闭测试道路行驶,从没上过公路。
“我们放出这个数据集的目的是为了帮助那些刚刚转战自动驾驶领域的研究人员和工程师。”Udacity 发言人说道。“后来,类似 Waymo、nuTonomy 和 Voyage 等公司都放出国更新更好的数据集,它们才是面向现实世界的。因此,我们这个项目三年都没更新了。也就是说,滥用这些教育数据集不但起不到帮助作用,可能还会造成误导。”
雷锋网&雷锋网&雷锋网