编者按:本文由张巨岩翻译自Quora。
Serkan Piantino,Facebook AI研究工程部主管,Facebook纽约部主任。曾是Bridgewater Assciates公司的投资合伙人。之前负责领导开发Newsfeed、Newsfeed排序算法、Timeline和Messenger的基础设施建设等。
Serkan Piantino 在 Quora 上对关于 Facebook AI 研究院的问题给了详细的解答,新智元整理如下:
有很多有趣的东西,但我会突出一些亮点,还有一些用途广泛的、令人兴奋的项目关键点。
首先,在感知方面,我们构建了能理解图片、视频、声音等等外界输入的系统。Facebook网站上也有一些示例,例如,我们构建了能够回答图片场景相关问题的系统,这里是我们近期在参加MSCOCO挑战赛时用于分割和标记物体的系统所生成的图片。
这类东西——完成了人类认知任务,如标记、对高维输入(像素、视频帧、音频样本等等)回答问题——近几年被广泛地使用,特别是使用了卷积神经网络这类技巧后。卷积神经网络是我的同事Yann LeCun很早以前发明的,后来因为GPU处理海量数据的强大能力而变得很实用。这很令人兴奋,因为它的进步速度十分快,而且这也开辟了以往没有的新产品领域——能够在Facebook上理解文本和意图的产品领域。
我们也开始逆向应用这些网络,让它们从一段文字描述中想象场景或图片,而不是从图片中总结出文字。以下是FAIRy Soumith Chintala和波士顿的indico Research的一些合作成果,它生成了AI自己想象出的卧室场景。
而且这些网络也被用于生成面部图像、专辑封面、花、中国汉字甚至还有二次元角色图像。
下一件我想突出的事情是我们赋予这些网络类似于人类记忆和推理的能力。Facebook M项目中一些自动化部分是依靠记忆网络的,这一工作是被FAIRy的Jason Weston发表出来。为了处理长对话,我们不得不理解每段文本的意思,而且为了我们以后也能查询这些内容,我们也需要存储和访问它们。这些记忆网络是在时间中学习如何创造并查询既定事实的一系列网络构建方法的一部分。如果说我们传统而无状态(stateless)的方法看起来像是在时间的推移中学习构建简单电路的话,那么这些网络看起来就像是完全的自主布线处理器(full, self-wiring processors)。我们也有一些关于这种网络读故事并随后回答问题的网络示例。
最后,我们从Facebook本身也学到很多东西。Facebook有15.5亿用户,他们之间的相互联系和对外部世界的发掘给了我们绝佳机会来研究人类。作为一名工程师,将系统扩展到整个Facebook社交图上并从中学习让我非常兴奋,而全球唯一能够做到这一点的地方就在这里。我们还有很远的路要走,但我们希望在工作(预测和理解Facebook社交关系图)中学到更多关于人们的东西。
这无论如何都不是所有的有趣研究,但是它们是我个人喜欢的一些亮点。
根据我们的经验,在FAIR的工程师首先应该具有一名强大的Facebook工程师所有的特点——如聪明、勤奋、适合我们文化、能将抽象想法转化为可用的电脑代码。有了这些,我还需要寻找:
有一些机器学习的基本背景,作为理解你周围其他语言的基础;
对相关领域的强烈兴趣。对你所从事的东西有强烈兴趣;
具有天生的好奇心——阅读文献,跟进科学进展
快速习得新研究工具(如CUDA,Torch)而不只是学习它们,还要从事改进它们的工作。
最重要的一个地方是建立这个领域的生态系统和创业氛围,而且创新是人们承受他们生涯中真实存在的风险并控制它们的能力。理想状态下,人们在“从创立一个企业并从头学起”到“加入能提供更多稳定性的大公司并帮助他们从以往的成功中学习”的过程中有很多选择。
在过去的几年里,我们看到了NYC的巨大成长,不仅仅是初创公司还有更大的机构,如Facebook NYC。结果是,这个生态系统变得越来越完整,而且我认为你也会在不同公司和创业领域(硅谷的标志)中看到一些和谐而积极的行动。
所以,总体来讲,我会说它正快速向硅谷,或者说是技术生态系统,这类的关系方向发展。
现在有很多神奇的产品,但现在大部分产品所具有的能力是很原始的。这些产品正用很多种方式转化为Facebook的产品,但是我们需要做更多才能将这些技术挖掘出来,进而将人们天马行空的想象转化为真实的产品。现在,一些AI公司太贪心科技研发以至于他们没有发布任何东西。
所以,接下来的5年里,很多我们在研究社区中讨论过的东西预计会变成更加普及和商品化的技术,也会有很多新初创公司(还有我们的团队)尽他们所能来用AI改善生活。
对于FAIR或者其他工程领域来说,我们不特别要求学士或硕士学位(甚至类似的大专学历)。总是有办法证明你所具有的、在招聘时值得我们注意的能力,虽然在计算机科学或机器学习方面的顶级项目中取得优异成绩是我们注意到世界上最好人才的常见方式(很显然)。
至于具体技能,见我之前的回答(Q2)。
我认为有一些结构方面的优势:
我们已经特别擅长硬件、软件、开发平台和基础设施的建设来加速团队工作效率;
我们有全球最大的跨文化、多模态、结构化、有组织的人们互动的数据库;
我们100%承诺会用5到10年时间来开拓AI领域,而且开源并发表我们所有的技术以供行业使用 。
在纽约,我们有繁荣的科技社群,还有很多其他产业。当产品的客户和开发者之间有高频率地接触时,一些很好的产品和创新成果会被研发出来,因此如果你想要在为数不多的亿万美元级的产业中有所作为的话,纽约是一个合适的选择。
在Facebook NYC,我们能首先目睹这一切。几乎我们所有的大型团队所关注的产品都因纽约(当地人、新闻和出版商)而获得利益——负责AI研究和移动设备基础设施的团队要么和当地产业有紧密合作,进而开发有关城市环境体验的产品,要么以东海岸丰富的人才为中心(如AI研究院或移动工程)。
如果我画一个色谱图,一端是小型个体研究项目,中间是很多研究人员或工程师的合作项目,另一端则是大规模团队项目和用于产品的系统,在这个色谱图中,我们会有很多项目同时进行。事实上,任何个体研究人员或工程师经常一次性参与很多项目的很多阶段。我们讨论过很多次的话题是,想法“传送带”将原型变为Facebook的产品,这也是现在FAIR的一个特色。
虽然这让管理者的工作变得很复杂,于是在Menlo Park、纽约和巴黎有了一些办公室,但是这对我们每一个参与的人来说是很兴奋的,也有成就感,因为有很多种不同的方式来推进科学。
这里是一些技巧:
团队结构很重要。分情况对待,远程团队中的单独个体感到受挫的频率以天为计算单位;需要远程管理的一小波人所组成的团队感到受挫的频率以周来计算;远离主管或其他机构领导的一个完整团队感到受挫的频率以月计算;一个完整的机构,还具有自主性、远见和决策制定有可能永远也不会感到受挫;
人们需要周期性“全面同步”,特别是在关键时期,例如做出了一些决定或某些计划被合并了。这些同步之间不能相隔太久,否则有可能存在风险,如团队成员做错事或没在相同的节奏上;
远程管理会感觉十分陌生而且具有强制性。你需要尝试拜访你的团队,再三确定他们是决定制定过程和组织变化过程的一部分,因为如果你不这样做,他们倾向于将这些看做是公司总部的强制命令(这会让人感受到封闭);
雇员旅行订票时不要有冗长的条条框框,鼓励他们经常旅行。他们比你了解应该何时到目的地更好。
强调他们的自主性,并保护它。如果他们感受到你的信任的话,他们会给你惊喜的。
好问题。经过与一些很厉害的工程师共同开发很多项目后,这里是我注意到的一些趋势:
软件工程师主要扩展的方式——还要记住在生产力方面可以有10或100的差距——是处理程序分块(chunking)。一个会思考和熟练写代码的工程师与一个在整个算法或系统的思考方面有经验的工程师相比,后者效率更高。为了真的将一些事情组块化,首先应该掌握它,因此最好的工程师不仅仅能从抽象角度来描述系统,他们准确地知道内部每一块是如何运作和相互影响的。
伟大的工程师都有第六感,这种第六感是关于何时何地来建立抽象部分。他们将代码看做是开发过程中最自然和最有灵活性的表达方式,而这一点不仅让他们在保持代码的可读性和简洁性方面很细心,而且也让系统因精心选择的抽象方式而更具力量和灵活性。
他们自己有很多工具。因此,解决问题更像是选择不同的工具,他们明白这一点,也在不断地扩大自己的工具库。
他们易于合作且很成熟。这个工作的很多部分是交流并成为可靠的队友,因而个性是十分重要的。伟大的工程师不需要是性格外向的人,他们不需要友善和易于相处,他们也不需要渴望成为管理者。但他们必须清楚如何用开放而相互尊敬的方式来与他人合作。
我观察到,一些公司在成长过程中感受到压力,不管是内部(来源于那些想要离开的职员)和外部(来源于那些如果公司要搬走,他们就不加入公司的候选人),而且在这些时候,租用一个共享空间并让这些人成立一间新办公室这一选择是很诱人的。
不幸的是,这保证了办公室在公司尴尬但很小阶段的成长过程中比较有用。这样的工程师将来的工作有可能都要通过远程团队来完成,这会导致低效率和受挫感的出现;也有可能办公室被强制专精某一产品或领域,这样的话,办公室后来很难有成长。
因此,我对公司的建议是等待,然后当你知道你可以冲刺为一个舒服的、可持续的规模时,谨慎地设立一家办公室。在Facebook NYC,我们用了4年时间从0成长为350。我们一直快速地雇佣人才、设立更多和更深的研究项目,让我们每一位早期工程师成为定义这家办公室的一部分,因为这家办公室就是围绕他们而建立的。这使得FBNY更像是一家大公司内部的快速成长的初创公司,而不是一个被遗忘的小型机构。
首先,让我指出一点,晶体管——整个数字和信息时代的基石——是在纽约的郊区被发明出来的。
总体来说,硅谷受益于以技术为中心的高密度和专业化机构,然后再加上健康的基础设施和将想法转化为产品和可持续企业的生态系统。
纽约的优势是多样性,技术同比增长为40%(考虑到招聘),再加上以这里为中心的过剩的其他产业。大型科技公司,如我们(Facebook)也在茁壮成长,因此创业的生态圈、资金的基础设施和对创意的培育在近几年中呈现了爆炸式增长。
我期待具有野心的创意——特别是那些能够解决世界性问题的想法,如健康护理、政府无障碍通行、教育等等——在接下来的10年里在这里成长,丰富这里的多样性,进而为这里的科技和创业精神产生巨大影响。
现在这一研究社群有很多兴奋的进展,因为一直有新的发现被公布,基准测试结果被不断刷新。但是你不需要发明一些新的东西来从事AI工作。你需要复制这些成功的工具都是开源的,而且很有可能你想要的网络在Github上是开放的,而且是预训练好并随时可用的。
查看一下代码;鼓捣一下模型看看会发生什么;在社群中问问题。这个领域需要更多的实践者,和更多的人来将这些发现变为有用的产品。
我必须指出,News Feed项目最初成立是在2006年,那时我还没有进入Facebook。这个故事也基本上传开了,因此如果你有兴趣的话,你应该能在Quora的其他问题中找到关于那些天的描述。
我在2007年才开始从事News Feed项目的工作,帮助重写了后端部分,开发了排序算法,领导了几年的团队。这是我生涯中最好的体验——我无法表达出这让我多么自豪:你关于人们如何和为什么相互联系的想法被采用,接着一路编译到C++中,让亿万计的人实时得到他们所关心的内容。
我们在FAIR用到了很多工具。主要有:
Lua(和Torch),用于原型制作、训练、调试、可视化等等;
CUDA,用于编写高性能模块,GPU优化模块;
C/C++用于低层的编写,Caffe用于产品;
Python、Matlab和一些其他工具用于一些专业的工作中;
非监督学习。
我们今天构建的几乎所有的东西都被我称为专业AI。我们有某个任务的足够样本,接着我们训练电脑在没有我们的情况下完成任务。在我们的AI示例中没有显示出来的一件事是我们在人力标记图片、标记视频数据集等等方面花费了多少精力才让机器得到了足够数据来学习完成某个任务。
人类真的不是这样学习的。我们能够通过看、感知和体验现实来理解世界并在世界中进行活动。如果我们想要造出类似通用AI的东西的话,我们要弄清楚如何从简单的观察中进行学习。换句话来说,我们要开发出一个不需要人类标记来“监督”的系统。
我不认为有人真正破解了这个问题,虽然有很多人尝试,而且我们的模型和电脑要想成功处理这类问题,有可能还要变强大10或100或1000倍。
当然,我们在评估中很珍惜研究所带来的影响,也珍惜产品所带来的影响。我们无法完美的测量这些,但我们有一些方式。如果你的产品有影响,它可能为很多用户服务,带来了很多互动或者作为一个平台吸引了很多使用者。如果你的研究有影响力,它可能会有很多次引用,在开源社区中有很多人使用它,或者在Facebook中有很多产品团队在尝试将其应用到产品中。
注重影响力真的是让Facebook取得如此成功的一个重要因素,这是我们在产品和研究中都在关注的东西。
我们最近的硬件设计就是这样做的,名为“Big Sur”。