雷锋网近日了解到——
哈尔滨工业大学刘挺教授 [1] 出任「云孚科技」首席科学家,其所带领的哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR) 已入股云孚科技,而 HIT-SCIR 的科研成果将主要通过云孚科技进行转化。
云孚科技为一家地处北京中关村的初创公司,由85后CEO张文斌 [2] 创立于2017年8月1日。继刘挺教授担任首席科学家及 HIT-SCIR [3] 入股后,云孚科技 [4] 将成为国内又一家有高校实验室深度参与的人工智能创业公司。
就此消息,我们向刘挺教授求得确认。刘挺教授向雷锋网介绍说,这件事情其实早在2017年10月就已经开始了,只是由于股权工商变更手续问题,所以一直没有对外界公布。
云孚科技,作为一家初创公司,刚刚成立半年时间,是什么使得在NLP领域鼎鼎大名的刘挺教授加盟并担任其首席科学家呢?哈工大SCIR与云孚科技今后将是什么关系?SCIR为什么要将其科研成果主要通过云孚科技进行转化?云孚科技是否会成为中国科技行业的下一只独角兽?……
带着这一系列的问题,雷锋网很荣幸采访到了刘挺教授以及云孚科技CEO 张文斌先生。
(左:云孚科技CEO 张文斌;右:哈工大刘挺教授)
[1] 刘挺,云孚科技首席科学家,哈尔滨工业大学教授,计算机学院社会计算与信息检索研究中心主任;哈工大人工智能与中文信息处理方向带头人,主要研究方向为自然语言处理和社会计算;国家“万人计划”科技创新领军人才;中国计算机学会理事、中国中文信息学会常务理事,多次担任国家863重点项目总体组专家、基金委会评专家;主持研制“语言技术平台LTP”、“大词林”等,被业界广泛使用;曾获国家科技进步二等奖、省科技进步一等奖、钱伟长中文信息处理科学技术一等奖等;2012-2017年NLP顶级会议论文数,世界排名第8(据剑桥大学统计)。
[2] 张文斌,云孚科技创始人&CEO,哈尔滨工业大学计算机专业本科和硕士毕业;2011年至2014年,担任腾讯研发工程师,参与研发了搜索广告平台、分布式深度学习框架、微信语义开放平台、微信公众号搜索等系统;随后从2014年6月到2017年7月,担任本邦科技CTO,3年时间帮助公司的人员和营收均增长10倍。2017年8月创立云孚科技并担任CEO。
[3] 哈工大社会计算与信息检索研究中心 (HIT-SCIR) 成立于2000年9月1日,隶属于计算机科学与技术学院。SCIR 有教师9人,包括刘挺、秦兵、车万翔等知名教授。其研究方向包括语言分析、人机对话、阅读理解、知识图谱、自动写作、情感分析和股票预测等方面。
已完成或正在承担的国家973课题、国家自然科学基金重点项目、国家863重点项目等重要课题20余项。近年来 HIT-SCIR 在ACL、SIGIR、IJCAI、EMNLP等顶级国际学术会议上发表60余篇论文,积极参与国内外技术评测,并取得优异成绩。研究成果“语言技术平台”获黑龙江省科技进步一等奖。
目前 HIT-SCIR 有20名余博士生,30余名硕士生,学生中曾有3人获百度奖学金,3人获微软学者奖学金等各类奖励。已毕业博士20余人,硕士毕业生120余人,主要分布在高等院校和大型互联网企业/人工智能企业中的研发部门,还有创业者20余人。
[4] 云孚科技(北京)有限公司致力成为全球领先的中文语义技术服务商,核心产品包括NLP工具包、知识图谱、舆情分析、对话系统、文本挖掘系统等,致力于以顶尖的语义技术助力企业智能升级。
创始人兼CEO张文斌先生是连续创业者,曾任腾讯微信AI研发、本邦科技CTO。
首席科学家刘挺教授是哈工大人工智能与中文信息处理方向带头人、中国计算机学会理事、中国中文信息学会常务理事,入选国家“万人计划”科技创新领军人才。
核心成员均来自BAT等顶尖互联网公司,毕业于哈工大、北大、北邮、IIT等知名高校。
公司已入选腾讯、百度、滴滴的技术供应商。
下面为雷锋网根据采访内容整理而成,在不改变原意的情况下略有改动。
雷锋网:刘老师能否介绍一下HIT-SCIR这么多年的技术积累,目前有哪些最新的重要研究成果?这些成果在研究和应用中有哪些意义?
刘挺:从1979年开展俄汉题录翻译算起,哈工大在中文信息处理方面已经做了近40年的研究。哈工大社会计算与信息检索研究中心创建于2000年9月1日,我们的研究方向是自然语言处理与社会计算,我们的目标是:“理解语言,认知社会”。
(HIT-SCIR实验室标语)
我们一直秉承顶天立地的原则,在国家科技项目的支持下,在与互联网/IT企业的长期密切合作中,逐步打造出一批核心技术,主要包括:
(1) 语言技术平台平台(LTP):如今多家大企业推出自己的自然语言处理基础开放平台,而哈工大是从2003年启动这项工作的,2006年开始对外共享。LTP集成了6项中文处理基础技术,其中最重要的是依存句法分析和语义依存分析技术。句法分析技术在2009年获得国际评测世界第1名,2017年获得世界第4名、亚洲第1名(面向49种语言,113家队伍参赛)。在过去的8年中,百度、腾讯、华为、讯飞等一批大企业先后购买了LTP的使用权。LTP获得2010年钱伟长科学技术奖,2016年黑龙江省科技进步奖。
(2)大词林(BigCilin):2014年,我们在以往研制的《同义词词林(扩展版)》的基础上,采用最新的关系抽取技术,动态地自动构建海量中文词语之间上下位关系、同义关系,目前大词林的词条超过千万,而且还在不断地扩充,是一个大规模的中文语言知识图谱。在过去的4年中,阿里、腾讯、讯飞、搜狗等企业先后购买了大词林的使用权。
其他重要成果包括:
(1)中文人机对话技术,涵盖任务型对话、知识型问答、闲聊和对话中的推荐技术等四个方面。我们在2016年推出了“笨笨”聊天机器人,并在SMP2017会议上,在华为公司的赞助下与讯飞公司联合组织了首届中文人机对话评测。
(2)文本情感分析技术,包括产品评论倾向性分析和情绪分析。
(3)基于社会媒体的预测技术,包括电影票房预测和股票涨跌预测。
(4)自动写作,当前的研究重点是议论文自动写作。
(笨笨聊天机器人,微信公众号:benbenrobot)
语言技术平台是中文信息处理的基础工具平台,大词林是基础语言知识平台,这两项成果偏基础,其他四项成果偏应用。人机对话是当前研究热点,其重要意义无须赘述。在社交媒体上广大网民发表大量的观点、评论,释放出海量的情绪,如果准确地识别这些主观信息,对于商家改进自己的产品,政府掌握和引导舆情,都具有十分重要的意义。我们认为大数据最关键的用途是预测,只有准确的预测才能辅助做出正确的决策,因此我们从2011年开始做基于社交媒体的预测技术研究,未来也会长期坚持这个方向。自动写作可以大幅度减轻以记者为代表的写作负荷,且机器比人更能够及时、全面地捕捉热点话题,并以不同字数、不同风格的文本呈现给读者,这方面的研究越来越引起人们的重视。
雷锋网:SCIR 在过去很多年中已经与国内外许多知名企业有了很深入的合作。那么这次哈工大SCIR与云孚科技合作的动因是什么?
刘挺:哈工大SCIR研究中心始终坚持产学研的科研原则,18年来我们持续与若干大企业开展合作,通过这些合作了解企业的真实需求,并将企业需求与国际学术前沿动态相结合确定我们的科研选题,又通过将科研成果嵌入企业的产品中实现成果的应用落地,并且在此过程中培养了研究生的实践能力和市场意识。未来,我们仍然会坚持产学研结合的原则,不断加强与大企业的合作。
在2015年以前,与我们合作的企业都是互联网和IT领域的大企业,他们具备很强的技术研发能力,只不过在自然语言处理技术的某些方面不如我们积累的时间长,所以需要我们的帮助。在合作中,彼此很容易相互理解,企业里的研发人员能够有效地提炼他们的问题,并消化吸收我们提供的核心技术。
但2016年以后,由于人工智能不断升温,引起了国内各行各业对自然语言处理技术的关注。来电或登门来寻求技术支持的公司来自银行、证券公司、航空公司、电网/热网、司法部门等等,这些行业的领导都意识到了人工智能的重要性,但往往对于人工智能在其所在行业里到底能够做什么,做到什么程度还没有非常清晰的认识,因此需要我们首先帮助他们做咨询工作,同时,这些行业里缺乏足够的人工智能技术人才,这使得我们的技术向他们转移遇到困难。由于我们研究中心作为教学科研单位,无法完成面向各行各业的咨询、培训和开发任务,所以,这两年我们委婉地回绝了来自各行各业的大量技术合作请求,这些企业感到失望,我们一方面感到抱歉,另一方面也为自己的技术不能顺利地变成生产力去支持这些企业的发展感到遗憾。
我们要想能够为这些非IT企业服务,就需要在我们与这些企业之间有一个愿意密切配合我们的人工智能类研发型企业。这个企业负责为客户提供咨询、培训服务,更重要的是把我们的核心技术面向各个行业的需求开发成产品和服务。只有这样,才能克服这两年我们的遇到的前所未有的技术需求过剩,而技术转化能力不足的问题。
在上述背景下,这两年我们一直在寻找一家初创公司来开展一种与以往不同的合作,我们掌握的几乎全部自主产权的技术都将通过这个公司向外输出,而这个企业也需要集中精力去做我们期望的成果转化。大企业或者已经有自己明确而稳定的业务方向的中小企业都不太可能配合我们去完成这个使命,而人工智能领域中的初创公司是我们重点寻找的对象。
云孚科技的创始人兼CEO张文斌先生是我实验室的硕士毕业生,他毕业后先在腾讯工作3年,又作为CTO创业3年并取得成功,2017年8月他创立云孚科技,有志于在人工智能领域做出一番事业,因此我们一拍即合,云孚正是我们这两年一直在寻找的密切合作伙伴,哈工大SCIR研究中心也成为了云孚的技术合伙人,持有云孚30%的股权。这一决定得到了哈工大校方的支持,哈工大资产公司代表校方在云孚科技间接持股,也就是说,哈工大SCIR与云孚科技不只是“合作关系”,而是“合伙关系”。
雷锋网:国内优秀的初创公司有很多,是什么吸引了刘老师选择并加入云孚科技?
刘挺:师生之间有天然的信任关系,校友与实验室之间在文化上同宗同源,这是我选择入股云孚公司,并愿意担任首席科学家的重要原因。
同时,张文斌在校期间就很突出,获得过哈尔滨工业大学优秀毕业生、特等奖学金、国家奖学金、ACM国际大学生程序设计竞赛亚洲区域赛银奖等奖励,曾任哈工大校ACM技术俱乐部负责人,他的综合素质非常高,各方面能力优异而均衡。创业者需要有强大的心理和身体条件,文斌精力过人,他在校期间是校学生会体育部副部长,也是篮球场上、足球场上的风云人物。
(云孚科技CEO,张文斌)
他毕业后先在腾讯工作了三年,包括搜搜、微信等部门,积累了大企业工作经验。然后他出任北京本邦科技CTO创业三年,协助他的师兄CEO刘桂平以“技术驱动营销”为使命,把本邦做得风生水起。既有互联网大企业工作经验,又有成功地参与创业的经验,这样的人是非常适合独立创业的。文斌1987年出生,刚过而立之年,正是精力充沛的年龄。他在性格上既有主见又从善如流,在工作风格上既有大志又脚踏实地,执行力极强。我和哈工大SCIR研究中心能够找到文斌这样的创业者一起合作,是不容易的事情,需要机缘,我很珍惜这样的机缘。
我虽然是文斌的老师,但云孚科技是以文斌为主导的创业公司,我只负责技术研发,公司的产品开发和商业运营完全按照文斌以及其他合伙人的规划去实施。
云孚科技的创业团队既有资深的语义技术背景,又有创业成功的经验和丰富的企业服务经验,同时执行力强、接地气,让我很有信心可以把语义技术产品化、商业化这件事做成。
雷锋网:刘老师和张总这次创业是怎么牵手到一块儿去的,能否介绍一下细节?
刘挺:文斌是我实验室的学生,他的技术能力出众又有较高的综合素质,所以我始终对他保持关注。
2017年8月份文斌作为CEO创立了云孚科技,定位做toB的业务,为企业提供技术解决方案。他没有拿投资,前期投入的都是自己的资金,但很快便组建起了一个小团队并实现了正向现金流,并与腾讯、百度、滴滴等知名企业达成了合作。他的胆识魄力、商业运作、团队管理、创业经验上的表现都得到了我的高度认可。
我实验室积累了很多NLP的技术,需要一家创业公司把它们真正产品化,以服务更多的企业,最大化这些技术的价值。而文斌也在积极探索把企业做大做强的路径。
张文斌:我虽然毕业6年了,但我跟实验室的很多毕业生一样都跟实验室保持着密切的联系,关注着实验室的发展,也经常在北京聚会见面。我对实验室在人才、技术、声誉等方面的积累高度认可,我认为只靠商业模式创新的时代已经过去了,技术在商业上的价值越来越高,我有意愿把母校的技术结合到自己的创业中,同时也为母校的科研成果产业化尽一点儿绵薄之力。
(张文斌与HIT-SCIR实验室研究人员,其中有刘挺、秦兵、车万翔等知名学者)
2017年十一长假,刘老师和我都没有休假,开始商讨合作事宜,在北京连续见面4次,迅速敲定各项合作事宜。在过去的四个月里,已经实际推进了多项技术的研发,最近股权工商变更手续完成,才正式向外界公布这一消息。
雷锋网:云孚的官网上写云孚科技是一家「中文语义技术服务商」。它跟市面上其它语义供应商(例如小i,出门问问)相比,侧重点哪里不一样?
张文斌:云孚科技依托HIT-SCIR在NLP领域18年的技术积累,几乎覆盖了NLP全栈的技术,无论在语义技术的深度还是广度上,一般创业公司都很难匹敌。基于深厚的语义技术积累,云孚科技可以为合作伙伴提供更为优异的解决方案。
云孚科技目前专注于做底层的语义技术服务商,希望发挥好自己的长处,为企业客户提供语义动力引擎。小i主要做智能客服的业务,出门问问则专注to C的智能软硬件产品。云孚科技与这些公司在产品和定位上均存在较大差异。
雷锋网:请问张总,云孚科技的核心愿景是什么呢?能否详细解释一下?
张文斌:云孚科技的愿景是成为全球领先的语义技术服务商,基于顶尖的语义技术为各行业打造智能行业解决方案,助力企业在人工智能时代实现智能升级。
自然语言处理是人工智能皇冠上的明珠,微软执行副总裁沈向洋博士在2017年中国计算机大会上讲:懂语言者得天下。在人工智能从感知智能向认知智能发展的过程中,自然语言处理必将得到企业界和学术界更多的关注。语义技术是当前自然语言处理技术最重要的突破口,也是支撑各行业自然语言处理应用的关键。云孚科技以语义技术为核心技术,面向行业提供智能解决方案,这是我们公司的基本定位。语义技术服务商将帮助企业提升内部信息、数据的挖掘深度和加工效率,以及从外界获取信息和发布信息的能力。
语义技术是中文信息处理领域的关键技术。中文信息处理经历了几个阶段,从输入输出(激光照排、拼音输入、汉字识别、语音合成、语音识别),到内容处理(文本检索、机器翻译),再到互联网时代的搜索引擎。在每个阶段,中国的企业家和学者都通过艰苦的努力把中文技术做到了世界领先,用国人自己研发的产品占领了中文市场,前辈的成就是非常令人骄傲,令人钦佩的。如今,语义处理的时代已经来临,语义技术在于市场结合的过程中逐步走向成熟,在这个技术阶段,一定会涌现出一批优秀的企业,在这个时代担负历史责任,使中国在语义处理方面不但不落后于英文,甚至能够反超。云孚科技愿意成为这样的拥有强大核心技术、敏锐的市场洞察力和历史使命感的企业,顺应潮流,有所作为,做出应有的贡献。
雷锋网:目前国内有许多人工智能相关的公司,请问云孚科技的竞争优势是什么?
刘挺:作为云孚的技术合伙人,HIT-SCIR既有的技术实力、技术声誉将为云孚提供有力的支撑,尤其是在云孚的起步阶段。
张文斌:云孚是初创公司,但又不是单纯地通过商业模式创新,而是在有着近18年技术积淀的实验室为依托的创业公司。地处北京中关村的85后企鹅系人工智能创业概念 和 地处边陲的中国著名工科大学深厚技术积累的释放、转化,这两个要素将在云孚有机地整合在一起,从而迸发出足够的势能、动能,这将构成云孚的核心竞争力。
与其他众多优秀的人工智能创业企业不同,云孚科技愿意与投资界保持沟通,建立联系,但暂不融资。在过去的几个月里,云孚快速实现了自身造血,并不断扩大盈利规模。我们希望完全按照我们的规划和意愿,不受资本市场影响,先扎扎实实地做一段时间,以后在合适的时机再融资。所以,接地气的自身造血能力,是云孚的核心竞争力之一,不走炒作概念烧钱的路线,但同时不拒绝在真需要钱的时候获得资本市场的支持。
刘挺: 有不少投资人与我联系,我的响应不够积极,背后就是文斌说的这个原因。不过,我们还是非常乐于与投资界接触,慢慢寻找真正志同道合的投资人。
雷锋网:HIT-SCIR与云孚科技今后将如何合作?能否详细说明下。
张文斌:HIT-SCIR身处学校,继续负责前沿语义技术的探索,云孚科技负责语义技术的产品化、商业化以及在垂直领域的深度定制和优化,双方将合力打造出一系列好用的高水准的语义技术产品,帮助企业实现智能升级。
刘挺:从去年十一至今的四个月中,云孚科技已经与HIT-SCIR联手对语言技术平台(LTP)和大词林等基础技术和资源平台进行了工程化二次开发。哈工大语言技术平台每天接受来自网络用户的使用请求70余万次,要保证云服务的稳定,以便支撑中小企业商业用途的需要,需要云孚利用其工程开发的优势提高LTP的运行效率和稳定性。
除了一些只希望与高校合作,并希望得到哈工大基础研究成果的大企业外,来自中小互联网/IT企业的需求,尤其是对于产品和整体解决方案的需求,都由云孚科技响应,HIT-SCIR只提供核心技术。
雷锋网:张总能否介绍一下目前云孚科技在产品、技术、人才和资金等方面的现状?
张文斌:云孚科技目前主要积累了NLP工具包、知识图谱、舆情分析、对话系统、文本挖掘系统等语义技术产品。
(云孚目前的产品,图片来源于云孚官网)
公司于2017年8月1日成立,现有15人,80%为研发人员,核心成员均毕业于哈工大、北大、北邮、北科大、美国伊利诺伊理工大学等知名学府。虽然公司有哈工大SCIR研究中心的大力支持,但仍然需要更多优秀人才全职加盟,有意共同发展的同仁可以直接联系我。
公司的启动资金由我个人投入。公司目前已经签约数百万订单并实现正向现金流,所以并不急于融资。
雷锋网:刘老师您如何看待云孚科技的未来前景?
刘挺:云孚科技目前还处于初创期,以语义技术为依托,正在与各行业的企业客户广泛接触,同时以真实需求打磨自己的产品并探索大规模盈利的商业模式。战略目标清晰,又能够扎实落地。我非常看好云孚科技的前景,它必将成长为人工智能领域的独角兽。
云孚未来会逐步聚焦到某些特定行业中,为企业提供服务,也不排除在适当时机研发行业内通用产品,甚至是to C产品的可能性。
雷锋网:作为云孚科技的技术合伙人和首席科学家,您觉得语义技术服务这个领域的商业前景如何?
刘挺:人工智能时代已来,许多企业存在大量语义分析(自然语言处理,NLP)的需求。但人工智能技术门槛较高,人才稀缺且成本很高,普通公司难以花费高昂的金钱和时间成本组建自己的语义分析团队,这就是语义技术服务的市场所在。语义技术服务商为企业提供知识图谱、文本挖掘等各类专业的语义技术服务,免去企业自己构建语义技术团队的高昂成本,帮助企业快速高效且低成本地解决各种语义分析的难题。
我们在看到语义技术服务领域迫切的商业需求和广阔的应用前景的同时,也必须指出要在商业上取得成功,需要作出艰苦的努力,因为通用的语义分析的作用有限,语义技术必须与行业结合,只有充分地获取和利用行业知识,充分地理解和融入行业中既有的业务模式,才能真正实现语义技术的落地,为行业创造新的价值,得到行业的认可。没有货真价实的核心技术,或者不愿意耐心细致地与行业结合,都无法取得商业上的成功。
雷锋网:此次合作,对于SCIR有什么重要的意义?
刘挺:我研究中心的研究方向是中文信息处理,这是一个应用型很强的方向,因此我们一方面发表顶级会议论文,比如,剑桥大学统计了2012-2017年世界自然语言处理领域顶级会议上发表论文的数量,我代表我们实验室排在世界第8位,另一方面积极地通过与企业的合作转化科研成果。
我本人在1995年和1998年两次到北大,有幸与王选老师见面,得到他的指点。这两次见面对我触动很大,我从那时起立志“以中文技术,助民族复兴”,而且一定走产学研结合,顶天立地的道路,换句话说,就是以王选老师为楷模,研发前沿的技术,并转化为产品,推动中文信息行业的发展。
技术与市场的结合是艰难的,我研究中心曾研发出多个超前的产品原型,比如2010年前后研制出“个性化新闻推荐系统”,但并没有能力推广应用。此次与云孚的合作,除了我上面谈到的响应各行各业关于自然语言处理的技术需求之外,也会通过对各类用户需求的观察,凝炼新的产品概念,去实现以往没有条件实现的一些规划,一些梦想。