注:本文来自知名科技投资人Chris Dixon的私人博客cdixon.org
把创业的过程形象化来说,在一个idea maze/思维迷局中,一名合格的创业者能够预测到在某个岔路口应该如何转向,便能够带领公司走向财富巅峰;反其道行之,则会引至衰败末路。而一名不合格的创业者,却只知道跟风似的追赶流媒体、图片分享、P2P的浪潮,但对自身所处的大行业的历史却是一无所知,他们不会从前人失败的教训中吸取到经验,并且也无法预测到下一个将会引起变革的新技术。
我认为,如果把这个问题赋予更加具体化的实例将会是更加有趣。所以我选择以AI创业公司为例,以下便是我为人工智能创业者们画的idea maze草图。
机器学习圈内有一句流行的话叫做“machine learning is really good at partially solving just about any problem/机器学习能够很好的解决绝大多数的难题”。话是这么说没错,要做出一个能够适用于80%-90%情况下的通用模型的确不难。但是在这之后,便是需要时间、精力、财力的不断投入来维持模型的正常运转。根据普适性的经验来说,实现80%的准确性和通用性,仅仅只需要花费数个月的时间就可以了,但是剩下的20%的部分却是能够画上许多人好多年的时间,或者是终其一生来实现的。
用户体验容差
于是在第一步你便要做出艰难的选择了:
1、要么是不断钻研下去将准确性提升到100%
2、要么适用于大多数情况,但是部分正确的产品
如果你选择第二点,那就会遇到通常所说的“fault tolerant UX/用户体验容差”
我们平时的生活中已经不知不觉的接触了太多的容差的例子。比如说iOS系统的自动更正功能,或者是在Google搜索的结果“did you mean X?”。或者宽泛些说,你可以把Google搜索引擎本身就当作一个很好的用户体验容差的范本,因为它并没有直接跳转到第一条搜索结果,而是向用户推送了10条结果来供挑选。
不过当你决定实现100%准确性,那便又是一种新做法了。毕竟是由人类发明的算法,你当然不能单纯的依赖算法来帮你实现最后的10%—20%的准确性目标,你只能通过“死记硬背的笨办法”——用尽可能多的数据来训练调教你的模型。数据是AI 的核心要素,因为:
在算法和计算资源完备的情况下,数据是唯一缺失的关键点以及最重要的成分;
算法大多数是公开的资源,而优秀的数据要么是仍未诞生,要么是被私人拥有。
面对数据你要做的只有一句话:不断不断细分它。即便你已经身处一个细分化的领域中,也要尝试着进一步细分。如果你想打造一个能解决所有问题的机器人,还不如先打造一个能帮助安排日程的机器人。
如果你的目标是建立一个X,那么便需要先在细分领域下建立MVP,来实现部分的X,从而各个击破才有可能最终实现整体的X。一个建议是,要尝试不断细分下去,一直到你无法细分的极限了,毕竟当项目获得成功之后,再逐步扩大市场反而是更加容易的事情。
宽泛些说,数据的来源大致有两个方向:
1、建立自己的数据
2、众包
当然我们又可以举出两个生动活泼的例子,Google地图和Waze。Google地图的庞大数据库是建立在成千上万名雇员的实地测绘勘量的,而Waze做的是召集全世界上百万号人一起众包来实现这一目的。所以说除非你像Google一样财大气粗能够承担得起自己单干获得资源,不然还是众包比较适合。
于是我们又走到了下一个关键结点,创业公司如何获取数据?
1、将公共资源数据“化为己有”
2、众包
当然,第一种方法最简单粗暴的例子便是从维基百科上“扣数据”。其实也有很多创业公司们已经尝试着紧抱维基好大腿,不过并没有多少能成功的。
对于小团队来说,花钱最少也最为可行的办法当然还是众包。众包成功与否的关键点便在于,如何设计完善的激励系统,让用户们从数据库中取回数据之后,能够自觉的将数据传回?
关于这一点,我把自己的亲身经历分享给大家。去年我投资了一家名为Wit.ai的公司,Wit从事的是为开发者提供语音转换为文本或者自然语言的服务。坦诚的说,Wit.ai的1.0版本出错率并不低,但是公司却提供了API接口和控制面板邀请开发者一起测试并更正bug。在这个过程中,不少用户不仅用上了免费的服务,而在广大用户的“众包智慧”下,Wit.ai系统也变得更加完善。值得庆贺的事,随后Wit公司便被Facebook收购,但这整个过程的确可以称得上是许多创业者们借鉴的范本。
以上只是我为AI创业公司绘制的idea maze草图的粗略解释,不过仍有几点温馨提示,
1、草图的结论进攻参考,可以成为大家的讨论一句,但是却不能够成为创业的信条
2、成功的新技术大多是“另辟蹊径的”,正如当年的互联网、智能手机、云计算和比特币那样,最开始我们都以为是微不足道的小事物,没想到最后竟掀起技术变革的大波澜。
所以不要忽视任何一点你所谓的“细枝末节”。
via cdixon