作者 | 林觉民
编辑 | 王亚峰
总有些人,让我们热泪盈眶。
不知道现在的年轻人还玩不玩豆瓣,他们应该不会知道,豆瓣是最先提出“推荐引擎改变世界”这句口号的公司。
不过,他们对中国头号文艺青年+理想主义者“豆瓣阿北”或许还有印象。
阿北(杨勃)1998年加入发明计算机的IBM做顾问科学家,两年后出来参加了一个Python邮件组,并且从中发掘出积极分子洪强宁。
豆瓣阿北
2005年底,阿北创办豆瓣后,打算将洪强宁拉入伙,于是给他出了一道解BUG的面试题,洪强宁用Python完成后成为豆瓣2号员工。
洪强宁对雷峰网回忆过当日见面的场景:“哈哈,阿北原来是用Java的,但是做豆瓣时他说自己恨死Java了,所以我们豆瓣一开始就用Python。”他后来主动降薪加入豆瓣,做到首席架构师,也是中国早期杰出的Python布道者。
在拿到融资前,整个豆瓣就阿北一个老板带着洪强宁一个正式员工(负责社区管理的Brant当时还是兼职),两人每周在咖啡馆见面一次,聊到深更半夜,然后各自回家干活,直到2006年6月他们才搬到北京798艺术区旁边的办公室里。
网上一直盛传豆瓣得名于公司所在地“豆瓣胡同”,洪强宁却跟雷峰网说,自己只是路过那里,并没待过,只阿北在那里曾短暂居住。
从豆瓣成立第一天起,阿北要解决的问题就是信息过窄,他非常清晰的认识到推荐是一个行之有效的解决方案。
阿北和后来的张一鸣一样,自己动手写了第一版推荐引擎,这也是中文互联网世界的第一个推荐引擎。
单从推荐效果来看,这个推荐引擎其实已经相当厉害。当时豆瓣的主要用户都是热爱读书创作的硬核文青,他们非常需要一个探索发现新书的工具。阿北帮助他们解决了这个需求,所以豆瓣开始风靡博客圈,也因此获得许多流量。
但是从运行效率来看,阿北这个纯Python的推荐引擎也同样渣渣,随着用户的不断涌入,很多时候运行一整天才能算出结果。
不过阿北并不像张一鸣那样为技术不足忧愁,因为他有王守崑这个多年老友相助。
王守崑
事实上,王守崑当时手里拿着两份offer,一份是世界第一有钱的电商公司亚马逊的,另一份就是世界第一有情怀的豆瓣的,这两份offer需要他做的事都一样——那就是推荐算法。
这并不是一个需要考虑的抉择,因为王守崑义无反顾站到了阿北一边,原因仅仅是豆瓣看起来更有意思。
王守崑老师对雷峰网回忆了刚加入时的工作:“我作为四号员工入职后,头两个月只做了一件事,就是把阿北的纯Python版本改成纯C版本,然后推荐效率就大概提升了十几倍的样子。”
按照王守崑的说法,阿北的版本仍然是非常好的,他认为自己做的主要是优化性能的工作。
同样是2005年,同样出身IBM,同样觉得推荐有意思的徐易容创立了抓虾,他聚拢了30位工程师,抓取了500多个博客和新闻频道的13亿篇文章,他计划将机票、招聘、教育、餐饮通通容纳进自己的抓虾阅读器,他甚至开始评价当时正在创业的师兄李彦宏“也没什么了不起”。
如果用后来移动互联网时代的说法,徐易容想做的抓虾就是主打信息分发的推荐引擎,不过他始终没有真正建立起一个推荐工具,从头到底采用的仍然是传统的关键词规则匹配方法,主要是依靠好的产品体验获取客户。
另外,徐易容的想法太大,做的也太早,抓虾最后抓瞎,只能卖给豆瓣。抓虾虽然没有为豆瓣带来多少技术,却也贡献了不少内容资源。
在此之后,豆瓣开始做一个叫“豆瓣猜”的推荐产品,豆瓣内部将书籍、电影、音乐称为钉子,推荐引擎称为锤子。阿北的任务是带队找钉子,王守崑的任务招人做锤子。
2007年,豆瓣第一个定义并且提出招聘“算法工程师”这个职称。在此之后,广大推荐算法人才终于有了自己独特的岗位。
2007年谷文栋从北京航空航天大学博士毕业,他敲响了王守崑的面试大门,虽然阿北和王守崑都觉得他是少见的推荐人才,但是谷文栋最终决定创业,王守崑没能招纳到谷文栋,只好保持长期联系。
一年后的夏天,国人的目光都集中在奥运盛典上时,谷文栋却醉心于经营自己讨论推荐算法的邮件组和博客,很多推荐技术爱好者都是其忠实粉丝。
又过了一年,谷文栋和还在读博的项亮一起成立面向推荐领域的专业社区ResysChina,并且计划办一场“ResysChina推荐大会”,将大家弄到一处好好聚聚,但是他们连个场地都没有。
这时候,阿北和王守崑对两人伸出了援手。
2009年12月19日,豆瓣支持谷文栋搞起了第一届ResysChina推荐大会,不仅给大家提供点心饮料纪念品,而且贡献王守崑担任主讲人上台演讲,国内推荐技术爱好者纷纷报名。
不久前,谷文栋和雷峰网回忆那天时说:“阿北当时非常激动,他说了好多好多话。”
王守崑上台分享了很多豆瓣猜经验。
迅捷英翔的孙超和刘凯义讲了怎么做推荐产品。
百度的张栋当时正在搭建凤巢系统,有非常丰富的大规模机器学习经验,整段演讲高屋建瓴而且故事性强,每一段话都妙趣横生,将大会推向高潮。
张栋
以至于,后来谷文栋再办推荐大会时,又再次找他。
张栋是中国搜索引擎界的卧龙凤雏,当前国内能叫得出名字的搜索引擎大多和他有关。
他1976年出生,硕士毕业于中科院,博士毕业于瑞士联邦理工大学和美国麻省理工大学。
2006年底张栋加入谷歌,从事推荐引擎技术的研发。两年后,作为第一个从谷歌加入百度的员工,张栋担任了百度凤巢广告系统架构师,是最早将大规模机器学习核心算法应用在中国互联网产品的先行者。
多年后的一个寒夜,张栋吃完火锅后这样告诉雷峰网:“当前人们提到人工智能,首先想到的是战胜国际象棋大师的 AlpahGo,人脸识别、自动驾驶等。但是我认为,人类迄今最大的人工智能应用就是互联网搜索引擎。”
在张栋眼里,离开百度可能是他做过最错误的选择,从他后来的创业来看,他骨子里仍然有很强的搜索情节。
时间回到2009年,张栋这年不仅在豆瓣的推荐大会上做了分享,而且还干了另一件影响深远的事,他把自己在谷歌的好友宿华拉进了百度。
两个人分工是这样的,张栋擅长算法,所以能够设计算法框架,宿华擅长系统优化和工程,能做很多工程实现。
张栋那时候对宿华评价非常高,每次见到谷文栋,都会忍不住自夸:“卧槽,哥们,我这边有个天才程序员。”
宿华
张栋将百度凤巢做起来后,百度收入飙升,净利增165%,这也是百度领先腾讯阿里两家的高光时刻,以后再也没有这样的机会了。
不得不说,谷歌对中国互联网的发展真是影响深远。
从根子上说,张栋在百度凤巢做的大规模矩阵分解,和他前同事王益后来在腾讯广点通做的大规模语义分解,其实大同小异,都是谷歌大规模并行化技术的发展。
谷歌间接给百度和腾讯送来了最强营收算法。
有人说,张栋并没有将算法看得很重,他在第二届ResysChina推荐大会上甚至提出了一个观点,这个观点被人解读为“算法无用论”。
2010年的ResysChina推荐大会是在淘宝举办的。
这里有两个背景:一是当时淘宝事事向亚马逊看齐,亚马逊有个说法——他们35%的交易是推荐驱动的,淘宝自然也开始重视推荐算法;二是当年淘宝双11交易额达到9.36亿的天文数字,这都是靠人工运营做出来的,阿里人很想知道还有没有进步空间。
淘宝赞助谷文栋搞ResysChina大会的目的非常明晰——那就是搜罗推荐人才。
本来,这次推荐大会最受期待的嘉宾是谷文栋请来的以色列人Yehuda Koren,此人在之前的奈非推荐大赛上击败项亮团队,获得全球第一名。
甚至可以这样说,这次大会之所以如此火爆,一半的原因都是Yehuda Koren会出席。
可惜Yehuda Koren这个人表达不行,现场效果一般般,反而是张栋在会上提出的4321模型反响热烈,后来被广泛引用。
黄建军就曾经说过:“推荐系统作为一个整体,包括UE/UI、数据、行业知识和算法,我比较信奉百度张栋的说法。”
王守崑也曾经在知乎里给人家安利张栋的框架。
那么张栋的4321模型是怎样的呢?
公式大抵如此:UI/UE占40% > 数据占30% > 知识占20% > 算法10%。
这个说法提出后,有一段时间内被解释为“算法无用论”,人们诧异于搞出百度凤巢的张栋怎么会提这样的观点。
在雷峰网向张栋求证了4321的说法,张栋说了这么一句话:“推荐引擎大战就好比奥运会百米赛跑,前面90%大家都能跑,剩下10%决定胜负。”
对推荐系统来说,10%算法是更珍贵的,因为这是做推荐系统的第一步,如果没有这个,后面90%的实现问题都没有机会解决。
这里接着说完第二届推荐大会的故事,在这次大会上,阿里的人向谷文栋提了个问题:
“以阿里的体量搞一个推荐引擎,至少需要两三百号人,而且都是价格不菲的顶级工程师,如果再考虑试错成本,这个投入值得吗?毕竟阿里现在双11已经很猛了,真的有必要再搞推荐引擎吗?”
谷文栋正面没有回答,而是反问了阿里的人两个问题:“一、你们相不相信阿里业务还会爆炸增长?二、你们认不认可数据驱动的价值观?”
后来的事情证明了阿里的选择:IBM出来的袁泉被谷文栋鼓动去了阿里,并且受到重用,袁泉开创了淘宝推荐算法。
2013年双11期间,淘宝光是靠推荐引导的交易额就达到56.8亿。
与之相对照的,当当技术总监王洪涛那时候也在搞推荐,可惜李国庆俞渝内乱太严重,公司的技术革新也处在矛盾对立中,于是一步落后步步落后,从此与推荐无缘。
事实上,阿里面临的问题也是现在很多互联网公司面临的问题——大公司在行业已经占据很大份额,是不是还有必要搞推荐这么昂贵的东西?
有些东西虽然正确,但到底值不值得,这真是一件不好抉择的事情。这就好比美国经济已经傲视全球,是不是还有必要搞高铁和特高压输电?
历史进程给大国家、大公司、大人物的机会窗口,其实都是很有限的,抉择甚至大于努力。
参加完推荐大会的张栋,也同样面临着是否留在百度的抉择。
张栋做起凤巢之后,在百度立下大功,也应该获得奖励晋升。
一位凤巢前成员曾经告诉雷峰网,他们当时认为:“张栋做不了百度CTO,做百度的首席科学家还是可以的吧。”
不过,李彦宏显然没有同意这个要求,而是打了个大大的折扣任命他做凤巢的首席科学家。(百度的隐秘故事可以参见科技史新书《沸腾新十年》,加下方小编微信可抢购预售。)
事实上,到这个时候,凤巢团队的人已经不太满意了。毕竟老大上不去,下面的人也很难上的去。
为了安抚凤巢团队,李彦宏特设百度最高奖,既然给不了精神奖励,给些物质补偿还是必要的。
李彦宏将百万美金的奖励颁发给了凤巢团队。
可以这么说,这个奖一开始几乎就是为张栋团队所特设,后期需要奖励别人,就延续了下来。
但是兑现时又出了岔子,张栋后来发现这个奖是分4年兑现的,于是愤而离职,其团队内包括宿华在内的一批牛人也是那时候离开了百度。
2010年谷歌退出中国大陆留下巨大空白市场,百度在国内搜索引擎中一家独大,其他巨头也想来分一杯羹。
周鸿祎在360找来了两个团队来赛马,一支是董毅团队,另一支是张栋团队。
张栋对做搜索引擎可以说是驾轻就熟,而且在算法方面的积累和资源远远超过其他人,几乎是不可战胜的。
董毅是360老将,曾经一手做出360最核心的杀毒技术QVM人工智能引擎,帮助360在极短时间内击败各大国际杀毒巨头。
董毅团队的人后来这样向雷峰网回忆:“我们在搜索方面的经验和能力远远落后于张栋,没人、没钱、没资源,但是董毅这哥们脑袋真特么灵活,他一开始就定下来一条路:不比算法,比想法。”
那“比想法”是怎么做的呢?
董毅当时的搜索团队只有8个人,不可能像张栋那样搞机器学习,但他非常懂杀毒。
他就专门搞了一个程序放在用户电脑上,记录用户搜索日志,用户点击,用户访问了哪些网页,然后把这些数据建成一个大的数据库,并且进行排序,转化成索引。
这样做的效果就是,当用户下次搜索的时候,在没有网址导航的情况下,之前搜的网页会排的最靠前,给用户带去了极佳的用户体验。
360搜索上线一周就超过了搜搜、搜狗,后来最多时占据了国内35%的市场份额。
周鸿祎果断裁掉张栋团队。
不过,张栋团队的成员们也不算倒霉,他们都被张栋推荐给了宿华。
2013年宿华在晨兴资本张斐的介绍下认识人人网出来的程一笑,两人一拍即合,将GIF快手改造成基于推荐的短视频社区。
张栋推荐过来的人,很多都成为了快手的早期员工,所以快手短视频早期才能在推荐算法方面爆发出惊人的战斗力。
2014年,张一鸣打算收购快手,但是宿华太贵,只好转头收购了一家叫图吧的公司。
张一鸣
图吧的创始人是从猫扑出来的,她的名字叫张楠。
张楠之前每天在微博上给女儿写一段话配一张图,因为听闻微博超过3万条就会删除多余微博,于是创业做起了图吧。
图吧会根据用户浏览记录分析用户兴趣,算是有点推荐的影子。
张一鸣后来对雷峰网回忆了决策收购的场景:
“那天我和陈林从图吧公司回来路上,陈林说快手太贵了。那时候快手已经接受了1000万美金投资,如果要收购至少需要几千万美金。我们就讨论说,还是别收快手,收张楠团队吧,让他们进来尝试下这个方向。”
后来大家都知道,张楠成为了抖音的创始人。不过这已经是几年后的事情了,张楠当时完全无法替代宿华,因为字节很长时间的大窘境就是没有好的推荐引擎,抖音崛起有不少的功劳在推荐引擎身上。
从字节创立第一天起,张一鸣就在为找技术负责人这件事发愁。
早年在酷讯时期,张一鸣就常年潜水于ResysChina社区,他是见过高峰的人,所以也渴望高峰,但是公司早期太小,实在难容大佛,以至于张一鸣养成了这样的挖人习惯——即当时没挖成,之后一两年还是给人打电话约吃饭,然后问工作情况。
当时,张一鸣曾经找过亚马逊推荐团队出来的林承仁,想要收掉林承仁的无觅团队(该团队不少亚马逊工程师),不过对方创业兴致正浓被婉言拒绝。一年后,林承仁因为做出现象级产品无秘名声大振,之后就转向陌生人社交赛道,直到多年后才又回到个性化方向,这已是后话。
还有一次,张一鸣好不容易挖来百度技术委员会主席廖若雪负责技术,可惜廖若雪只干了一个月觉得没戏就走人,张一鸣只好又重头开始。
2014年,张一鸣终于请到百度大搜副总监杨震原吃饭,在这次饭局上,张一鸣没有谈技术,而是大谈对产品的理解,他跳出互联网产品的角度,从产业的维度谈起对信息分发的理解。
张一鸣对产品的理解让杨震原佩服的五体投地,他后来私下表示,张一鸣的理解超过了他见过的所有人,所以他才愿意到头条来试一试。
杨震原加入字节,直接带动大量百度人相继加入,其中就包括朱文佳等人。
杨震原
朱文佳是杨震原一手培养起来的推荐天才,在百度时候已经是架构师,到字节后长期负责算法工作,和项亮一起算是杨震原手下的推荐双璧。
在抖音崛起的过程中,朱文佳就是那个向上的转折点。
2016年末,张楠做起抖音后,经过强运营确实在微博上小火一把,但是之后就陷入了增长瓶颈,而且这时候出现了更大的危机——内容严重同质化,如此长时间下去用户一定会流失。
张一鸣找到杨震原,要求调朱文佳去负责抖音推荐,却遭到了拒绝,因为他此时正支撑着今日头条的DAU和广告营收。
张一鸣从战略的角度看到了抖音的重要性,于是三番五次找杨震原聊天,最后终于将他说服。
朱文佳负责抖音算法后,抖音迅速焕发出强大的生命力,进入用户爆发期。
这里还有一个例子可以旁证推荐引擎对于短视频社区的关键性:
Musically创始人阳陆育曾经告诉雷峰网(公众号:雷峰网),抖音和Musically产品上非常相似,但是推荐算法做得内容泛化更好,他如果不把Musically卖给字节,至少还需两年时间才能追的上,那时候肯定已经晚了。
2018年抖音海外版Tik Tok合并Musically,之后三年下载量成世界第一。在产品出海这件事上,字节终于为中国互联网打了一场胜仗。
时间再次回到2012年,回到谷文栋办的最后一届ResysChina推荐引擎大会上。
这次的大会时Hulu赞助的,会场在清华科技园紫光国际交流中心,地方大很多,本来预备的200人席位远远容纳不下想要参会的观众。
谷文栋不得不在宣传栏里写下“为了保证良好的讨论氛围,优先考虑团队报名”这个要求。
大会的演讲嘉宾非常豪华,谷文栋甚至请到了Facebook核心的华人推荐算法leader石言心。
石言心
当时Facebook正是牛气冲天之时,挖了大量谷歌、亚马逊的核心算法人才,准备大举进军推荐领域,对外其实是相当保守的。
站在企业的角度来看,这也完全可以理解,因为当时谷歌和亚马逊等国外巨头也整天盯着Facebook,非常想要知道Facebook的具体执行策略。
石言心在这种情况下能够参加ResysChina推荐引擎大会,并且分享的主题就是“Facebook的推荐系统”,这对于国内推荐人进行前沿探索起到重要作用。
石言心讲完后,其他人也都倾其所有。
百度的刘其文讲了“百度推荐系统的探索过程”,腾讯广点通的王益讲了“推荐系统实践”,Hulu的郑华和项亮也做了分享。
没错,这位项亮正是谷文栋一起创办ResysChina的好友,此时的他已经是Hulu推荐算法负责人。
前文一直在刻意忽略项亮,并不是他不重要,而是因为他作为中国推荐引擎的关键人物,值得重笔讲述。
石言心和项亮正好代表了中国推荐算法的两个阶段:一、跨国大公司中的华人华侨群体将推荐算法带向中国;二、中国自己培养的人才长成后是对外竞争的关键力量。
项亮在推荐引擎圈成名非常早。
项亮
早年奈非为了改善电影推荐系统算法,于是悬赏一百万美元办了场推荐大赛,吸引了全世界186个国家的数万支队伍参赛。
当时项亮刚刚从中科大毕业进入中科院自动化所,其导师杨青就大力支持他参赛。
比赛开始后,项亮的模型和当时以色列Yehuda Koren团队的模型在很多重要指标上都不相伯仲,双方都远远领先其他团队。
这时候,以色列团队开始拉拢四个排名靠前的团队搞模型融合,获得了非常好的效果。项亮也反应过来,开始跟其他的团队也进行合作。
这一比赛就比了三年,最终项亮虽然在成绩上和Yehuda Koren团队一样,但因为比对方晚提交了2小时20分钟,排名只能屈居第二。
经此一役,项亮在推荐算法上的能力得到大幅度提升,也成为国内推荐圈子的先锋人物。
在此之后,项亮进入阿北、徐易容、袁泉都曾经供职的IBM实习,并在这里和袁泉一起发过KDD论文。
在第二届ResysChina推荐大会上,项亮见到了CSDN总编刘江,刘江跟项亮说,国外已经有了讲推荐系统的专业书,国内还一本没有,他们图灵出版社希望能出版一本,这相当于在跟项亮约稿。
项亮做完博士论文不久,对这方面的研究还很有热情,于是答应下来,然后就开始写作《推荐系统实践》一书,这一写就写了半年。
在写书期间,项亮进入Hulu郑华手下任职,主要工作就是利用大数据做推荐系统,虽然遇到了Hulu全球副总裁张小沛这个好领导,但是Hulu这种长视频应用,并没有办法充分发挥推荐的作用。
这就来到著名的“借书事件”,这年头条刚创立不久,刚刚起步的张一鸣找正在巅峰的项亮要没出版的《推荐系统实践》书稿,项亮不给他,最后张一鸣只能自己边学边写,搞了个渣渣推荐引擎。
2013年,项亮、郑华跟随张小沛跳槽宜信大数据中心,做出了姨搜和反欺诈图谱;11月,谷文栋加入宜信担任创新中心副总经理;一年后,豆瓣洪强宁也加入宜信。
宜信一时间成为算法人才高地,可惜它仍然没有足够的用户场景释放这些推荐人才的创新力。
2017年项亮离开宜信加入快手,虽然得到了宿华本人的足够重视,但非常不适应快手的企业文化,而且,他当时最想做的视频理解项目也没有发挥空间,所以并没有待多久。
外界对快手有一种推测,宿华带进快手的清华派自视甚高,外部加入的人才往往会遇到非工作的麻烦。快手老员工朱蓝天在内网文章《谈谈快手的病》中也将“派系林立”列为大问题,不知项亮是否受到影响。另一位算法天才盖坤跳到快手还过得不错,其清华出身起了很大作用。与之相近的还有个例子,推荐引擎领域的另一条超级大鱼赵世奇离开百度加入了华为鸿蒙。
张一鸣没有在第一时间知道项亮离职这件事,以至于被快手抢了先机,但他并不打算放过这个机会,于是多次游说项亮,终于将其招至头条,颇有一种历尽坎坷,终归明主的感觉。
项亮归入字节跳动旗下,先是在AILab研究视频理解,之后担任推荐系统的负责人。
近两年字节跳动开始做TO B的火山引擎,最大卖点之一莫过于世界级的推荐系统,其背后的就是项亮。
头条快手之后,几乎所有内容社区都有了推荐这个必选项,知乎周源引入李大海主持内容泛化,小红书毛文超找到郄小虎进行推荐升级,头条产品的创始人黄河出来和李金波做了最右App,陈睿开始用推荐武装B站从二次元社区变成YouTube。
在这篇文章发布前,王守崑老师在电话中跟雷峰网说,建议技术创业者和媒体应该多关注下怎样将推荐技术与隐私保护结合,甚至提到了一个前沿概念“数据税”,即哪家厂商要用用户数据,就要额外付出成本。他自己目前也在和很多学者研究这些问题。
在很多推荐大神看来,推荐引擎的发展至今仍属早期,必然要经历暴露问题的阶段,从业者们只有从伦理规范角度做好管理,只有不断探索如何保护好用户隐私,才是推荐引擎技术长久发展之道。
自1994年中国接入互联网,到2009年之前的十余年里,中国互联网人最成功的创业模式几乎只有一种,那就是将国外(主要是美国)的互联网产品搬到国内,百度之于谷歌,阿里巴巴之于亚马逊,腾讯QQ之于ICQ,新浪微博之于推特,优酷之于YouTube,人人网之于Facebook,无不是如此。
但这并不是因为中国互联网人缺乏创新力,而是我们开眼看世界之时,人家已经有了几十年的发展经历,无论基础设施,还是用户认知,国际互联网生态都更加先进。
摸着美国过河,是那个时期中国草莽创业者肉眼可见的最佳路径,互联网行业也同样如此。
但是,学人者生,似人者死,中国互联网如果一直亦步亦趋,那永远都不会有出头之日,也只能被嘲笑是躲在防火墙后面的抄袭者。
中国互联网人必须得有自己的杀手锏,这把锏可以继承自师父,但必得经过数代人才的精心打磨,才能成为与残酷世界竞争的绝招。
现在看来,这杀手锏的名字就是推荐引擎,今天的中国互联网已经进入了推荐引擎大时代。
如果有一天,中国互联网真正追上乃至超越世界互联网,人们不应该忘记这件事是从哪些人开始的。
雷峰网