编者按:2023年 8 月 14 日,由GAIR研究院、雷峰网、世界科技出版社、科特勒咨询集团联合主办的第七届GAIR全球人工智能与机器人大会,在新加坡乌节大酒店拉开帷幕。过去一段时间,ChatGPT将人工智能推向热潮。据统计,目前国内已经有100余家大模型,这也成为本次大会探讨的主要议题之一。
根据大会安排,峰会首日进行到下午16时,以“大模型时代的超级基建”为主题的圆桌论坛,在云启资本合伙人陈昱主持下正式开启。
参与本次圆桌论坛的嘉宾有:
尤洋:新加坡国立大学校长青年教授,潞晨科技创始人
季昕华:UCloud董事长
星爵:Ziliz 创始人兼 CEO
围绕大模型基础设施建设面临的挑战、如何降低大模型训练成本等话题,参会嘉宾进行了热烈讨论。
关于挑战,尤洋认为,通信基础设施非常重要。过去,挖矿等一些非AI需求的GPU就没有很好的高速互联。季昕华认为主要大模型的训练主要面临资金、算力、工程等方面的挑战。星爵则强调了数据方面的问题。
对业内非常关心的成本问题,尤洋表示,大模型训练的一个巨大负担是训练计算量太大。同时,他也给出了相应的解决方式;季昕华详细解释了优刻得如何通过降低电费、化购买为租用等五个方面帮助客户降本增效;星爵则从数据层面给出了相应得方案。
圆桌结尾,电脑报创始人陈宗周发表了总结感言,他对各位嘉宾的演讲和工作成果都给予了盛赞。陈老师还特别提到,很多讲者已经把事业做得非常庞大,但依然非常谦逊,中间更是有不少人是年轻一代的榜样。
最后,在大家的掌声中,大模型时代的超级基建圆桌论坛环节正式结束,大会首日活动也由此画上圆满句号。
以下是圆桌讨论部分内容,雷峰网(公众号:雷峰网)根据现场速记做了不改原意的缩写。
陈昱:谢谢雷峰网举办这么好的一个活动。大家都知道,今年AI是一个最热的话题,但是AI的应用离不开底层基础设施支撑。所以,我们今天有幸邀请了三位大咖,来讨论一下基础大模型的一些相关问题。首先,第一个问题是,在当前的技术水平下面,大模型的基础设施建设会有什么挑战?
尤洋:我个人觉得,首先,通信的基础设施非常重要。比如说,我们把大模型划分到了很多GPU服务器,把它划分成很多块,本质上其实我们最终都是要汇总的。划分多少次,最终至少需要汇总多少次。这种情况下,我们也看到,在GPT3出现以前,英伟达在2019年就收购了Mellanox。当然我相信英伟达应该还是有很好的前瞻性。收购Mellanox的目的就是为了打造高速网络。这也引申出了另外一个问题,之前很多非AI的GPU 之所以很难用来训练大模型的,往往就是因为没有很好的高速互联。
季昕华:在国内,我们服务了五六十家做大模型的公司。主要有哪些挑战呢?一是资金门槛,需要大量的资金投入做大模型;二是算力门槛,现在大部分公司都没有足够的卡来做支撑;三是工程问题,就是整个卡之间的网络链接、数据存储性能问题,以及整个训练过程掉卡问题。这些问题都会使得整个训练周期会变得非常长。另外,安全问题也是蛮突出的,这些问题都会影响到大模型的训练以及未来应用。
星爵:我们一般会说 AI有三个技术支柱,就是算法、算力和数据。我们现在已经到了一个时代,新一代的算法对算力和数据都有更高要求。刚才两位都提到了芯片、算力这方面的基础设施,我想强调下数据层面的问题。世界上有 80%以上的数据都这种非结构化的数据:不管是文本、图片、视频,还是人的对话和行为都属于非结构化的数据。而在过去十多年,非结构化数据的管理能力主要由谷歌、微软等大公司掌握。新AI时代对数据管理的要求也会变得更大,如何更好地做好智能的数据基建是一个很大的挑战。
陈昱:数据的确是一个非常重要的话题,那下面这两个问题其实是和数据相关的。第一个问题是怎么看待数据的安全和隐私问题。我知道季总以前也是黑客出身,应该也非常 SQL injection ,那大模型时代很容易延展到 prompt injection。季总怎么看这方面问题。
季昕华:我们认为整个大模型有四个方面的安全挑战。
第一,大模型是把数据和程序结合在一起的,而在传统的计算机里面,程序和数据是分开的。但是在大模型里面,数据有可能是程序的一个执行命令,这方面,目前也没有太多人研究。我们最近在分析这件事,比如,让一个 agent 去执行一个命令的时候,这个命令本身可能是一段文字。所以,文字和程序之间可以被套用,存在很大的风险。特别是,如果大模型未来操纵整个人类的世界,风险可能会更大。
第二,是数据劫持问题,通过 promote 进行劫持,这方面不少人都在做研究。这里,对于场景的劫持会更严重一些。 第三,大模型的输出目前是童言无忌的,没有做权限的隔离,这里的风险是非常大的。
第四,是所有的输入数据都有可能会被它所记录,造成隐私的泄露。
陈昱:星爵有什么观点吗?我不知道数据和隐私会不会在向量数据库里面做管理?还是这是应用层的一个问题。
星爵:从我们现在看到的应用来讲,向量数据其实已经做了一层类似的数据加密。可以把整个的这个神经网络看作一个encode。比如说,在数据进入我们向量数据库以前,会有一个 transformation 的过程,把图片、视频、文本等向量化,向量化本身的话会用一个大模型的方式去提取一个embedding。这个过程基本上是不太可逆的,否则计算量太大。从这个层面来讲,向量数据库已经实现了一定程度的数据脱敏。
陈昱:接下来,这个问题是跟钱相关的。大家都知道大模型就是无论是训练还是使用,其实都是非常费钱。无论底层的云,尤教授的软件,还是向量数据库,都有很大的成本优化空间。这里,我就想请各位谈一下怎么去帮大家省钱的。
尤洋:站在我们角度看,主要是训练计算量太大,解决的有效方式主要有三个角度:一是不改变硬件条件下试试能否加速收敛;二是,针对下层软件,在不改变模型结果前提下,能否提供更好的基础设施;三是能否进行模型优化。所以,我们主要还是在软件层面上看能不能使它的训练的更高效、更快,从而去降低成本。
季昕华:我们现在主要通过五个方面帮助客户降本增效。一是降低电费。不论做训练还是推理,电费大约占总成本的15%左右,优刻得乌兰察布数据中心能够把电费单价从1块钱/度降低到3毛钱/度;二是化购买为租用。由于训练一般分阶段,因此公司可以选择租用模式。比起购买,租用会极大降低使用者的成本;三是通过网络带宽和存储带宽来提高使用者的训练效率;四是通过压缩模型等手段,来降低推理成本。毕竟,未来推理成本可能会远大于训练成本;五是通过一体机的模式,即私有部署的模式推进私有化大模型。
星爵:就降低成本而言,从向量数据库角度,非结构化数据管理方面来看,主要包括三方面:第一,要有更好的算法,这意味着能更好地发发挥硬件效果;第二,要更聪明地利用个体存储;第三,要比以往有更强的有效利用硬件的能力。
陈昱:感谢各位嘉宾的时间,谢谢大家。