外界提起即构科技时,往往会打上“技术宅”“理工男”的标签。与即构科技CEO林友尧交谈时,你会很快意识到,这股“技术宅”的浓厚气质究竟从何而来。谈起技术,他如数家珍,项目的细节小到一处参数,毫秒级的突破如何诞生,全都娓娓道来。
联合创始人蒋宁波告诉我们,“yy(林友尧)是很爱学习的人,新事物、新技术他都要亲自研究。”即构早期对接了不少直播平台类客户,林友尧会亲自去测试的直播间里转一圈看看效果,有时还得给负责测试的同事刷两个火箭,“不然有点不好意思”。
这种亲力亲为,在即构科技成立的第七年,仍然在延续。不久前即构科技推出了可实时捕捉面部表情的Avatar技术,他迅速把微信状态换成了Avatar技术给自己生成的虚拟形象。
谈技术是如鱼得水,但技术以外的世界,对于即构这群“技术宅”来说,就算不上多舒适了。谈起做To B业务的“痛苦”,林友尧笑称,早年间对接客户的时候,“恨不得自己写算了”。
“坦白讲,我也更愿意说我们只是写代码。其实就那么几个接口,多看看文档,多踹两脚就能用起来了,但有时客户就是会掉坑。”
做To B有千难万险,数年前接受采访时,林友尧将进入To B领域形容为“闯进原始森林”。但再难再险也总得拼力一试,他和团队很早笃定了一个道理:如果只谈技术,恐怕很难长远,想要在行业里长期立足,得是技术+服务。
从早期纯程序员的班底,到成功孵化出服务团队、理清服务团队的组成,即构科技花了三四年时间,林友尧也逐渐梳理出在To B这片丛林里的生存之路。
文章开头所提到的Avatar技术,是即构科技新推出的“元宇宙智能互动引擎”中的新产品Metaworld的一项核心组件。
即构与元宇宙的渊源,用林友尧的话来说是“不谋而合”,但元宇宙的兴起,也正好成为了即构的一场技术能力大考。
林友尧告诉我们,这款产品的雏形诞生于2019年,当时被命名为“互动智能”——彼时,“元宇宙”的概念尚未像今天这样盛行。
为什么会想到要做“互动智能”?这与即构自身以及AI+音视频技术的发展密不可分:即构从2015年开始,借着连麦、直播、音视频通话的能力,切入到实时互动赛道。到2019年之后,他们注意到人工智能技术工程化逐步成熟并在众多场景中落地开花,语音视频的前后处理算法和能力也得到了广度与深度兼具的发展。
与此同时,数字人、虚拟客服这类内容的呈现,包括网友们熟知的二次元歌姬演唱会,多年来仍以离线生产的方式在行进,以实时互动方式实现的案例偏少。
能否给用户带来更多元化的内容和玩法,增强线上的实时互动,多做一些可玩性更强的输出?即构开始投入大量资源和人力,专门研究AI、音效处理、视觉处理、大规模线上人机交互和数据同步等多种算法和技术,寻求线上互动的能力突破。
2021年初,元宇宙概念兴起,与林友尧的想法不谋而合。
“元宇宙概念的出圈本身也代表着各行业技术储备到了一定规模,足够支撑行业去想象未来的虚拟空间会如何呈现。电子游戏几十年的发展摸清了3D空间打造、物理交互反馈以及如何带给人更强的沉浸感。同时线上社交领域的RTC技术足够支撑更加高质量的音视频传输、在实时的场景下去做到接近现实世界的视听体验效果。”林友尧在ZEGO元宇宙智能互动引擎发布会上说道。
尽管即构科技已在音视频领域深耕多年,但元宇宙的流行速度之快,仍然给他们带来了不小的挑战。
林友尧告诉雷峰网,“原来可能元宇宙的建模生产周期,要长达1-2个季度,但现在客户想要一两个月,甚至一两个星期就上线,这对我们这种平台型的厂商,要求很高。”
细化到元宇宙产品中的各个技术难点,也反复考验着即构的技术积累。例如更低的时延,更高的并发能力,渲染效果要与实时互动给出的指令同步等;又例如AI识别真人虚拟人生成表情时,需要有近60种表情参数来驱动虚拟人脸上的每一块肌肉,渲染难度倍增,又该如何在用户的手机上复现……
简单来说,元宇宙中的一花一草,一颦一笑,各方面的精巧程度都远胜从前,同时还要考虑到如此庞大复杂的内容,能否在水平参差不齐的终端上顺利运行,能否承载住超高流量的冲击。
林友尧透露,早在做元宇宙之前,即构已经把云游戏的延迟降到了70毫秒,“这不是一个算法就能搞定,是我们在工程上一点点抠出来的。”
他直言,当中做工程化的经历有过不少痛苦,但即构的班底经历过QQ这种超大规模海量服务的锤炼,经历过千人网课、万人语聊以及大量直播、游戏等场景的打磨,“在元宇宙里面,可以把我们的技术充分地展现出来。”
谈起通过场景打磨技术,林友尧娓娓道来:以万人语聊场景为例,“这不是简单地把所有的声音接入进来,会嘈杂得没法听,手机流量会突然暴涨,硬件的性能有可能承受不了而发热,要考虑发言的权重如何设置,服务线怎么择路……这些都在我们的规划路径里面。”
和技术“死磕”固然重要,但对即构而言,在To B世界,生产流程、资源调配上的问题,那些技术以外的沼泽地,才是真正的挑战所在。
线上KTV实时合唱,是即构做过的解决方案中,较受欢迎的一种。要知道两个人面对面合唱都未必能合上拍子,更何况当时线上的延迟超过100毫秒,人耳对于50毫秒以上的延迟就会有比较明显的感知,线上合唱难度可想而知。而即构将这一场景的延迟攻克到70毫秒左右,让实时合唱的可操作性再上一层楼。
但即构很快也发现,实现这种毫秒级的攻克,其实没有完全解决客户的燃眉之急,线上KTV除了技术问题,原来还有版权问题。
林友尧向雷峰网(公众号:雷峰网)回忆,许多选择这一解决方案的客户都是创业公司,采购的歌曲数量不多,但是版权方动辄开出一年百万的天价版权费,这对创业公司来说根本无法接受。最后即构通过集采的方式,替创业者们与版权方协商歌曲版权的打包售卖,尽可能摊薄版权费用,线上KTV方案也才顺利落地。
“这些事情,不是纯闭关修炼几个月,攻克一个算法或者工程、做出细节就行,是涉及到社会工程学、合作协同的方方面面。”
做To B的日子往往不会顺风顺水,总有意想不到的痛苦出现。这些痛苦有时来自于客户内部的意见不统一:“(客户的)老板有想法,但验收可能是他手下的团队来做,最终再回到老板手里来买单。”
有时,这些痛苦来自于与客户沟通的琐碎小事:“客户有时会嫌弃我们接口不好用,其实已经做得明明白白了,多踹几次,多看几回,多读几遍文档,也能用起来,可他们就是会掉坑。”
林友尧笑称,“早期做一些很小的客户时,对方连发布流程都不太清楚,你跟他讲半天,有时候着急起来真是恨不得自己写(代码)算了。”
即构早期班底还是以程序员为主,对于他们来说,和客户打交道的日常,远没有写代码来得自在。但林友尧很清楚,技术若不能在实际业务场景中充分发挥作用,在客户手里产生价值,那么再强的黑科技也只是程序员的内部狂欢,必须要以“技术+服务”在行业内立足。
为此,即构科技花了大概三四年时间,从最初的纯程序员的角色构成,慢慢形成了“5种角色服务1个客户”,即架构师、交付工程师、产品专家、线上技术支持和销售代表等多种角色共同服务。
并且,即构也会做大量的准备工作,例如详细的日志和诊断工具,共同分析梳理,避免客户在版本发布后出现问题。
同时,即构也慢慢摸索出了自己的客户策略。对于做大客户还是做中小客户,林友尧认为,没有一个确定的答案,即构更愿意走一种平台化的路线,对客户来者不拒。
在面对大客户时,即构会考虑满足他们的诉求,但绝不是为客户单独定制解决方案,而是将客户需求主动抽象提炼出来,沉淀到产品主体,产品始终只有一个主版本在进行迭代。
而从行业角度来看,眼前的音视频领域,不仅有即构这样的玩家,也有大厂试图将自身的音视频业务经验,沉淀为解决方案对外输出——这种想做“降维打击”的大厂,会让创业公司们无路可走吗?
但在林友尧眼中,部分大厂输出自研音视频技术,最适合采购这类技术方案的企业,极有可能原本就是大厂在音视频领域的竞争对手,在既定的竞合关系之下,这批企业未必愿意买大厂的账。
另一方面,即构这类初创公司将To B业务视为生命线,愿意全身心投入,但大厂本就要抽调大量精力来保障内部业务的正常运行,这时还能投入多少人力物力服务外部客户、开拓新受众?大厂自然可以调动大量资源和团队来攻打一个垂直赛道,但为了一条并不开阔的赛道,值得吗?
“这一点,大厂也会有考量,有考量我们就有生存的机会。从创业的角度看,无非是夹缝中求生存,困境中求发展。”
离开腾讯、创办即构,走上To B,这个过程曾经被林友尧形容为:从一棵什么都有的大树,来到一片原始森林。
某种程度上来说,To B世界确实也如热带雨林一般,有着极为复杂的生态系统,危险遍布却又生机无限。阳光和雨水的差异让雨林天然生成了庞大的层状结构,不同种类的植物都能在其中觅得自己的容身之所。即构也逐渐在To B这片丛林中,找到了自己的定位、方向与生存之道。