“下一个发展趋势应该是NLP对话。”2016年吴悦从腾讯离开时如是说,而这也成为了他离职后创业的首选方向。
2006年,从中科大硕士毕业后的吴悦便加入了腾讯。2006年到2011年,在腾讯主要做存储系统研发方面,2011年到2016年专攻搜索技术。
对于为何一开始聚焦在NLP领域进行创业。追一科技创始人兼CEO吴悦解释道:“在腾讯既做过基础架构,又做过搜索推荐,当时我们就觉得NLP技术的商业价值非常大。搜索方面,孵化出了Google、百度等大公司,其实这些公司都属于 NLP 时代比较典型的搜索应用。推荐方面,孵化出了头条等,在这个基础上,我们判定下一个方向应该是NLP对话。”
就这样,创办追一科技之后,吴悦便主攻NLP和深度学习方向,并相继推出对话与分析AI应用平台及AIForce数字员工产品族。其中,AIForce数字员工产品族就是处理营销、服务、运营等场景任务的智能机器人,也是追一的主要产品矩阵,其包括智能在线机器人Bot、智能语音机器人Call、智能助理机器人Pal、多模态数字人Face等。
在当时来看,这一系列产品的研发并非一件易事。所以自成立之初,追一就特别注重新技术的应用,对此,吴悦也特别强调道,2017年 Transformer 架构,以及2018年提出的Bert架构,我们都做了相关研究。比如围绕 Transformer 提出了 RoPE旋转位置编码技术。被Google、Meta、阿里、百川智能等国内外大模型厂商广泛采用。
当谈到2022年底爆火的生成式大模型时,吴悦深刻地感知到了原有的技术架构已不能顺应市场的变化,以及客户的需求,所以在今年年初,追一科技便尝试在大模型技术的基础上做研究,推出了博文领域大模型,并基于大模型的能力,对现有的软件产品进行重塑。
在大模型热潮中,追一没有选择通用大模型赛道,而是选择了领域大模型。究其原因,吴悦告诉AI科技评论,大模型的演进方向主要有两个分支:
一是沿着通用大模型的方向发展,需要不断打开大模型能力的天花板。比如 OpenAI 或者国内的一些大模型厂商是沿着这个方向发展的。
另一个分支是,围绕企业具体的业务场景的需求,定制化一个企业大模型。追一科技在今年年初推出的博文领域大模型属于第二个分支,就是面向企业的具体业务,比如营销、客服等场景,为企业定制一个专有大模型。
但是从目前来看,无论是通用模型还是领域模型,其挑战都非常大。通用大模型的难度主要是规模化的难度,包括参数量上规模、数据上规模和算力上规模带来的难度。而领域模型考验的则是直击客户业务痛点以及洞察客户需求的能力,但是由于业务整个链条比较长,所以这是一个非常大的挑战。
对此,吴悦表示认同,同时他也表示,大模型竞赛比拼的是综合实力,从客户的角度出发,他们在关注技术变化的同时,也会关注安全合规、成本等因素。而企业想要在这场科技革命中杀出重围,则需要具备核心技术能力,产品化的能力,专业服务的能力,各种业务咨询的能力。
“从技术角度看,大模型确实是一个比较重要的变量,但它不是唯一的变量。”吴悦补充道。
以下是AI科技评论和吴悦的对话:
混沌之时,GPT掀起AI新范式
AI科技评论:为什么选择从腾讯出来,自己创业?
吴悦:2006年,从中科大硕士毕业后就进入了腾讯。2006年到2011年,在腾讯主要做存储系统研发方面,2011年到2016年专攻搜索技术。
2016年选择出来创业,主要因为既做过基础架构,又做过搜索推荐等,当时我们就觉得NLP技术的商业价值非常大。搜索的话孵化出了Google、百度这样的大公司,其实这些公司都属于 NLP 时代比较典型的搜索应用。推荐的话,孵化出了头条等,在这个基础上,我们就判定下一个方向应该是对话,所以2016年出来创业时就做了对话机器人,主攻NLP方向。
AI科技评论:从NLP到深度学习再到大模型,您怎么看待三者的关系?
吴悦:有些概念需要重新厘定一下,NLP 属于自然语言处理,它是人工智能三大方向之一,也是最难的方向。深度学习是神经网络,属于人工智能的一个方法论。人工智能最早解决的是视觉、语音和 NLP 的问题。
大模型是沿着神经网络这个方向不断发展的,2012年2013年是深度学习的一个突破,2016 年 AlphaGo 出来,是强化学习的突破,2022 年底到2023 年,包括 ChatGPT 其实属于生成式大模型的突破,这些其实都属于神经网络的一个技术分支的不断发展的过程。
AI科技评论:在不同的技术节点,追一都做了什么?
吴悦:从公司成立到今天,有三个比较重要的时间节点。
第一个时间节点:2016 年创业时,我们把深度学习技术应用到对话机器人。因为之前的对话机器人大多是通过搜索或者一些规则的方式实现。当时我们就是先于其他公司,率先把深度学习技术应用到对话机器人中。这是第一个里程碑。
第二个时间节点:2017年提出的transformer架构,2018年提出的Bert架构,这些都属于大模型技术爆发前夜的阶段,当时我们就围绕transformer、Bert的架构,做了相关研究。比如围绕transformer 提出了 RoPE旋转位置编码技术。当时被Google、Meta、阿里、百川智能等国内外大模型厂商广泛采用。这是我们原创式的创新,也是作为一家AI创业公司为生成式大模型做得一个小贡献。当然在这个阶段,围绕Bert我们也研发出了ZOne大模型。
第三个时间节点:2022年年底GPT爆发后,我们推出了博文领域大模型,专注服务和营销领域。我们围绕四个理念打造博文领域大模型:贴合业务、合规可控、更具温度、普惠实用。
AI科技评论:ZOne模型和现在的模型概念有什么不同?
吴悦:ZOne主要是基于Bert路径,其属于表征式大模型的分支。其实大模型本质上是模型参数很大,基本上都是 10 亿起步,沿着这个方向衍生出了两个方向,一个是表征式大模型,典型的就是Bert。另一个就是生成式大模型,典型的就是Open AI的GPT路径。
AI科技评论:从早期的技术,到现在的GPT,中间在技术的选择上有什么挑战吗?
吴悦:2018年,这个时间节点其实是有点混沌的,当时就面临着到底是沿着表征式的方向走,还是生成式的方向走?其实都是不明确的,当时大家也都在探索阶段。直到2022年年底,2023年年初ChatGPT出来之后,大家感知到可能生成式更具有发展潜力,所以这个阶段大家都选择全面拥抱生成式大模型。当然表征式大模型在真正商业化落地过程中还是非常有作用的,所以这个方向我们也在延续做。
开源&闭源之争,开放式服务越来越多
AI科技评论:追一很早就开始做大模型研究了,当时主要是怎么考虑的?
吴悦:我们在确定做之前,背后是有一个逻辑支撑的。大模型出现后,它的应用方向或者它的发展方向,是有两个分支的。一是沿着通用大模型的方向发展,面向的是一些通用型的需求,比如终端用户的需求,这个过程需要不断打开大模型能力的天花板。典型的比如 OpenAI 或者国内的一些大模型厂商是沿着这个方向发展的。
另一个分支是,我们认为是围绕企业的需求,或者围绕着企业业务的具体场景的需求,定制化一个企业大模型。所以我们在今年年初推出的博文领域大模型属于第二个分支,也就是我们选择面向企业的具体业务,比如客服、营销等场景,为企业定制一个垂直领域大模型。
AI科技评论:所以可以理解为追一走的领域模型的路径,自研还是基于开源做微调?
吴悦:博文领域大模型的研发也是阶段性的。我们现在的方向是两条路并行走,因为我们的出发点是构建一个一体化的可落地的大模型。
从落地的角度来看,有两个选择,一是围绕着开源模型,在上面做知识注入,能力增强等。另外一个逻辑就是从底层向上构建一个一体化的大模型。
从当前阶段来看,第一个阶段落地会更快一些,第二个阶段要慢一些,因为完全自研,会涉及到投入,风险等问题,所以我们还是比较谨慎地看待这件事儿。(更多关于大模型行业的相关话题,欢迎添加微信 ericahss1224,互相交流,互通有无)
AI科技评论:在选择开源模型时,是并行都在用还是选一家?
吴悦:我们是并行都在用,重点在于知识注入层面,能力强化层面,需要做比较多专业性的工作。这样才能够把大模型的能力充分挖掘出来。
AI科技评论:您认为开源会不会成为主流模式?或者大部分企业其实更期待更多开源大模型的出现?
吴悦:我觉得沿着企业级方向,可能会越来越开放,沿着通用人工方向,可能还是会坚持闭源。
现在大家都在说开源模型,我觉得下一步的方向不仅仅是开源模型越来越多,可能会有更多开放式的服务出现,比如数据开源、算法开源、甚至很多基层框架都是可以开源的。
AI科技评论:通过半年多的实践,您认为做大模型的难点是什么?
吴悦:从客户的角度出发,以我们自身为例,我们服务的是中大型客户,这类企业往往会有两方面的考量:一是技术层面,二是业务层面。
从技术层面来看,中大型企业对大模型技术和产品的要求往往是非常严格的。比如安全方面,他们希望整体的数据是安全的,整体的对外提供的服务是合规的,另外还要保证大模型的输入输出是完全可控的。
从业务层面来看,真正要把大模型技术在客户的业务场景中做落地的话,其实是需要构建一个闭环的,他们要求的不仅是技术的能力,还包括如何把技术产品化,产品化完之后还需要做实施交付,这也会涉及到后续持续维护等专业服务,最重要的是,还要足够了解业务的需求,以及需求的洞察能力,这些能力其实都是非常重要的。(更多关于大模型行业的相关话题,欢迎添加微信 ericahss1224,互相交流,互通有无)
大模型落地,场景、成本及效果,缺一不可
AI科技评论:基于大模型的能力,追一的产品已经实现重塑了吗?
吴悦:正在逐步完成重塑中,要想全面落地到客户业务场景中去使用,明年年初能实现。我们现有的6款机器人产品已经是非常成熟的商业化产品,从2016年到现在已经服务了几百家头部客户,现在我们在尝试把大模型的能力融入到这6款产品中,贴合客户业务去做产品重塑,或者通过洞察客户业务的方式,通过大模型解决过去的产品没有解决的问题。
AI科技评论:从今年年初就开始做,为什么明年才能全面落地?
吴悦:要给客户做逐步推进,因为把大模型的能力加进来,大模型本身是有幻觉、黑盒或者一些其他不可控的表现,那就需要我们通过训练,自己做一个领域的强模型,帮客户避免这样的问题。
对于客户来说,过去的产品已经和他们的业务系统,做了比较深的绑定,一个大客户,每天的访问量能达到几百万甚至上千万,在大模型这个大的技术变革面前,他们是非常谨慎的。对于他们来说,业务的稳定是第一位的。所以还需要一个逐步灰度引入或者迁移的过程。
对于我们来说,首先我们要把顶层设计考虑清楚。就是到底应该怎么植入大模型,短、中、长期的规划是什么样的?时间计划是什么样的?规划性的工作其实我们已经做了大半年,基本做完了,接下来就是落地到客户业务场景中开展使用的工作。
AI科技评论:虽然落地难,但说服客户的成本是不是比以前低了?毕竟大家都知道大模型是能解决一些问题的。
吴悦:在这个过程中,我们说服客户是要分几个阶段的。第一个阶段,是让感兴趣的人愿意跟你聊这个话题。ChatGPT爆火,经过一些科普,我觉得只要是有大模型想法的客户,他就愿意跟你聊。所以第一阶段算是破冰了。
但是跟客户进一步聊的时候,他会问你的这套产品到底能给我带来什么?结合我的业务,到底能够帮我解决什么问题?和我现有的 AI 系统相比,到底能够带来多大收益?需要增加多少成本?这个问题我觉得是比较核心和关键的,所以这也是我们刚刚讲的点,就我们要去做调研,要做技术边界的定义,要做合理的计划,现在大多是在这个阶段。
AI科技评论:您怎么理解重塑?重塑是不是意味着要替换掉原来的底层架构?
吴悦:大模型是一项新技术,确实能够解决一些之前的技术所不能解决的问题。比如一句话多意图的问题,但是我们要进行大模型落地的话,其实也会引入一些新的问题,比如幻觉问题,可控生成问题,成本问题等,这些都是我们需要重点考虑的。好比电动车的技术虽然好,但大家都还会有里程的焦虑。
对于生成式大模型来说,我们觉得有两个焦虑,一是幻觉的焦虑,二是算力(成本)的焦虑。在这个技术体系里面,其实我们需要根据对客户需求的理解,以及对整个技术的设计选择合适的路径,看哪些问题适合用传统系统解决。哪一些适合用生成式大模型解决。
我们针对客户普遍关注的大模型的成本问题,提出了“增程”技术理念,具体来说,就是通过大小模型协同,共同支持客户需求,通过一个“增程器”组件,根据用户或者实际处理任务的不同,来做动态配置和组合,让大模型出现在最应该出现的地方,提升模型效果的同时,实现了性价比最大化。
AI科技评论:那对于客户关心的问题,怎么解决?毕竟还是逃不掉快速落地的问题?
吴悦:第一,比较重要的是要解决本地化部署的问题,所以博文领域大模型是要做本地化部署的,类似公有云和私有云的区别。
第二,解决成本的问题,因为我们开发的产品,在一些中大型企业中已经有了比较广泛和深入的应用。就像前面所说,如果全面换成大模型的访问,规模可能会从之前的上百万到上千万,成本是非常高的。
第三,到底能给客户带来多大的收益?这就需要对企业的业务有比较深入的洞察,能挖掘到业务的痛点,然后再提出一个既可以本地化部署,又成本可控的解决方案。这是我们发现或者所看到的一些点。
AI科技评论:在落地过程中,有没有自己的一套方法论?
吴悦:首先,之前的产品其实是广泛解决客户的问题,但在落地过程中,我们也发现这些产品和技术是存在一些短板。这些问题是不是就可以通过大模型解决?这是我们做大模型落地的一个重要抓手,因为我们知道大模型的能力边界。
然后,我们已经有了这样的产品落地,所以跟客户,特别是头部客户形成了一个很好的联动。在这个过程中,结合追一对大模型的理解和认知,加上和头部客户共同挖掘,哪些是之前我们没做到过的,没有提供过的服务,这时,我们会重点看能不能通过大模型能不能延展到一些新的场景,这是目前我们做大模型落地的方法。
跨越大模型发展平缓期,靠的是深入业务
AI科技评论:现在大模型进入到平缓期,您怎么看?
吴悦:大模型现在有两个发展方向,一是通用大模型,沿着通用的需求,沿着通用 AI 的方向发展;二是围绕着具体的应用场景出发,比如围绕企业某个场景做AI应用落地。目前,大模型技术确实已经到了应用阶段。所以大家都在关注怎么把这个技术去做落地了。
AI科技评论:现在国内做大模型的企业有三类:通用模型,领域模型,AI创新应用,您认为三者的难度分别体现在哪些方面?
吴悦:首先,三者难度是不一样的。通用大模型是规模化上的难度,包括参数量上规模、数据上规模和算力上规模带来的难度。
应用层,如果是简单的AI创新应用,那么应用层相对独立,基于通用大模型,也足以满足。如果是复杂的AI创新应用,例如追一在做的服务和营销领域的软件产品,那么领域模型和应用层是很难分割的,他们之间是捆绑的迭代节奏,难度在于深入到客户的具体业务,深入了解具体场景和需求点,反推出大模型的能力需求,大模型的能力项和应用层产品功能一一对应。大模型的迭代带来产品的功能的不断丰富。
AI科技评论:如何提高竞争力,保持优势?
吴悦:竞争是一个综合方面的考量。从客户的角度看,其实客户关注的是技术如何落地,以及他们考虑的安全、合规、可控等等,当然也包括成本因素,有些客户可能也会关注,你能不能做好产品化的落地,提供相应的专业服务,然后和他们做业务的共创,所以客户是全面的考量。
从企业的角度看,我们认为做好一个企业,需要具备核心技术能力,产品化的能力,专业服务的能力,各种业务咨询的能力。目前,从技术角度看,大模型确实是一个比较重要的变量,但它不是唯一的变量。
(雷峰网(公众号:雷峰网)雷峰网雷峰网)