“见了一年的投资人和客户,大家上来就问,你们做不做预标注?能不能用预标注解决所有问题?”
在类GhatGPT大模型爆火的当下,预标注技术似乎已成为自动驾驶数据标注赛道上的致胜金牌,一家年轻的自动驾驶数据服务公司——恺望数据在近日举办的闭门交流会上给大热的预标注技术“浇冷水”。
恺望数据产品项目VP张鹏表示,目前自动驾驶预标注技术仅能处理60%~70%的数据,仍需人工对算法预处理数据进行矫正,距离实现90%的全自动化目标仍有一段距离,需要分阶段进行。
为此,恺望数据建立了一套过渡方案。恺望数据在会上透露,目前基于“自动化产线+规模化人力”为核心的恺望自动化数据产线已正式启用。
一般而言,自动驾驶数据生产的流程包括需求规则的解读、数据任务拆分、人员匹配,也包括在生产管理过程进行产能监管、质量监管、效率监管。
与着重关注“预标注”环节的技术方案不同,恺望自动化数据产线以数字驱动方式搭建了自动驾驶数据生产的全流程系统,通过SaaS平台、算法、各板块建模等工具,以及校企合作培训逾千位“恺望人工智能训练师”,对数据生产各个环节进行了优化。
该数据产线的突出特点是兼具自动化技术与人力运营管理两大部分。
恺望数据CEO于旭表示,在数据生产的全流程中,目前有些部分已能够实现全自动化,但有些部分,尤其是需要人为判断的部分,还有待更多成熟的模型建成,才能逐步实现自动化。
另一方面,自动驾驶数据标注行业正在迎来指数级的数据增长需求,但融资环境遇冷,自动驾驶公司预算有限。于旭表示,数据标注行业也需降本增效,以满足自动驾驶公司的低价需求。
为实现稳定的低价数据供应,在人力运营管理部分,恺望数据通过搭建“恺望数据学院”,与多家高职院校合作“恺望人工智能培训师计划”,对在校学生进行数据生产技能培训与恺望自动化生产体系培训,以获得大规模的标准化人力。
在具体的运营管理上,恺望将借鉴Uber面向司机的培训模式与管理经验。按照计划,恺望将在今年培训超过1000位学生,第一批300人培训目前已在山东等地高职院校完成。
据介绍,通过“自动化产线+规模化人力”的部署路径,在提升数据生产规模化的同时,新产线运转能够减少成本超过20%。此外,新产线积累的人机交互数据和经验也可以反哺给全自动化产线的建模,逐步推动数据生产从“成熟的人工模式”转化为“成熟的人工智能模型”。
参考特斯拉的“影子模式”以及国内自动驾驶的产业链情况,恺望为公司定下了3年实现产线整体90%自动化的目标,而在某些具体项目上,1年内即可达成90%全自动化。
“特斯拉通过‘影子模式’,用接近2年的时间基本实现整体90%的自动化,但这是在百万台量产车、纯视觉路线以及全产线自研的背景下才能做到。对比国内,量产车规模较小,且采用多传感器的模式,产线分割严重,在这个现状下,想单靠硬技术实现90%自动化还是有些难度。”于旭表示,这也是恺望决定另辟蹊径同时从人力运营管理上下功夫的原因。
恺望数据成立于2022年2月,团队成员来自字节跳动、阿里巴巴、Uber、Momenta、奔驰等公司。其中,作为公司创始人和CEO的于旭,拥有多段从零到一的大数据平台搭建经验,是字节跳动、Momenta、Uber等企业数据生产及运营体系搭建的第一人。
2022年9月6日,恺望数据宣布完成千万级天使轮战略融资,投资方包括辰韬资本、三一集团和溪山天使汇。目前,恺望数据已与三一集团在自动驾驶领域开展数据合作,其他客户包括长安汽车、字节跳动、元戎启行、辉羲智能、地平线、寒武纪、易控智驾、中科创达、中交兴路、旷视、商汤等。
雷峰网(公众号:雷峰网) 雷峰网