大数据已是几年前的热点。
不过,随着人工智能的发展,它的作用与日俱增,从“数据为人服务”到“数据驱动人的行为”,这中间产生了巨大的变化。
8月13日,华院数据首席数据科学家尹相志受邀出席CCF-GAIR峰会,华院数据从2002年开始从事大数据相关的应用,有着多年的积累,目前的发展方向在AI、机器人和智能驾驶产业。
在我们的交流中,尹相志抛出一个非常有意思的话题:“你有没有发觉,狗这种动物非常神奇?”他继续解释,为什么长相差这么多我们都可以称作狗?而狼和狗,从生物学界门纲目科属种来看全部都一样,但是狼是狼,狗却是狗。狗与狼的差别远小于吉娃娃和藏獒的区别,但是人就会分辨哪个是狼,哪个是狗。这是一个认知和理解的问题,也是人工智能的难点,尹相志分别给出了自己看法。
在汽车行业,尹相志表示,现在汽车厂商或互联网公司,他们有足够的资本和需求去获取这部分的数据。传统的思维就是拥有数据就把它收起来去变现,但是如果不具备把数据转换成更有价值的能力,那么他们依旧处于产业链的底端。生产数据和收集数据可能会产生短期收益,但是变现能力会大于储存成本。
如果中国要成为一个人工智能大国,在存储上政府可能会有补贴,新存储技术也会让成本降低,尹相志表示,把数据做有价值的转换才是更重要的。
现在的数据是在人的界定之内让机器去识别它,越多的数据越可以做精准的辨识。但是问题就是如果超出这个范围,也就是超出监督式学习的范围,机器便识别不了,这是最可怕的事情。人类是无法穷举出全部的可能性的,所以现在人工智能走的是非监督学习的路。在超出人限定的范围的进行,在外界没有经验和训练数据样本提供给机器时,完全靠机器自己摸索。这个也是未来人工智能的趋势,是技术安全的问题。
另一个数据的安全也有难点。用一辆车去覆盖所有的数据计算,包括识别和深度学习耗费的计算量非常的大,对车的功耗也很大成本很高。如果放在云端,会因为信号有一点点的问题就会延时,这些基础的储备问题都需要解决。这个时候V2V和V2X这种车与车之间并行计算,可以局部的离线,彼此贡献计算能力倒是一个突破点。
尹相志预测,虽然现在智能汽车产业链上的企业都在开发各自的底层技术,但是3到5年后就会开始协同。对于智能驾驶来说难点不仅是识别,最重要的是通过数据做决策。通过识别的图片要决策出周遭来车的意图,这个也是要判断的。
有些事情并不是可以通过一己之力可以做到,所以尹相志表达了对数据开源的看好,他认为关键技术是需要申请专利去守护的,但是对于数据来说,通过共享可以让数据分析更加精准和智能化。
在智能驾驶技术的视觉传感需要的就是更多的现实中的图片,需要人工的标注。这是一种最初级的加工,人工的成本非常高,但是做出来的东西才有价值,没标注的数据是不被需要的。不过对于大数据公司来说
保证它的算法上积累
拥有高品质的数据
灵活的商业模式
是非常重要的,华院数据选择扮演一个很中性的角色,定义为一个数据的平台,在上海主办了BOT大数据大赛。尹相志看到,其实对于人来说3岁小孩可以做到的事情人工智能都不可以。所以他希望能博采众长,也希望可以让人工智能要成为产业落地。尹相志原本在台湾也是从2002年开始从事大数据挖掘的工作,他对人工智能方面了解颇深,他也坦言:驾驶辅助还好,但是现在谈智能驾驶还太早。
最后回到狼与狗的问题,从外形上的确很难分辨,比如哈士奇、阿拉斯加雪橇犬都和狼非常相似,但是区别就在于狗听人的驯化,而狼不同,并且这种“性格”非常明显。这也是机器学习的非常困难的一点,没有情感的识别,只能通过数据和算法。如何让大数据变成真正的智能数据可以替汽车和人决策?还有很远的路要走。很多从事智能汽车技术研发的人都认可5年之内让自动驾驶汽车上路不太可能,并且在马上路只有1辆或者几辆车是智能的也是危险的。现在只能从辅助驾驶一点一点实现,在智能驾驶的风口中,反而更需要的是一种理智前行的态度。