近两年,芯片设计产业上云的趋势越来越明显。
“芯片的制程越来越先进,对公司IT基础设施的要求也更高。项目前期可以算清楚算力和存储的需求,但如果项目过程中有一些变更,可能会突然需要很多算力。”AI芯片公司燧原科技IT负责人Vincent感触颇深,“为了应对突发的算力需求,我们想借助云计算的能力,也找主流云厂商都聊过,但很难做最终决定。”
这边芯片公司迟迟没有决定,那边的云计算厂商还没明白,芯片设计公司为什么不将芯片仿真环节部署在云上?
腾讯云HPC芯片仿真上云架构师Cedric在与行业客户沟通后,了解到接触客户前的想法,“芯片设计公司对数据的安全非常敏感,要先解决客户最关心的问题。”
芯片设计这个传统的行业,在面对芯片设计越来越复杂,产品迭代速度加快的挑战下,正主动寻求借助云计算的能力更快设计出更好的芯片。云计算提供商,也恰好在探索与更多传统行业的结合,推动数字化的发展。包含芯片设计在内的高性能计算(HPC)就是腾讯云近两年一个重要的方向。
于是,芯片设计公司和云计算提供商一拍即合,开始将芯片仿真验证也搬到了云上。
但摆在双方眼前的问题,除了技术的挑战,还有多方的磨合以及行业认知等诸多挑战。
好在方法总比问题多,腾讯云、速石科技、燧原科技共同合作,用存算分离混合云架构成功实现业内首个先进制程大芯片仿真上云,让众多想要在云上设计芯片的公司又多了几分信心。
也指明了,芯片设计上云的趋势势不可挡。
芯片公司上云的最大顾虑——数据安全
“我们不会借用云计算的能力设计芯片,芯片设计公司的核心资产就是芯片设计的代码和知识产权,如果将其放在云上,相当于我们的核心资产放在了别人那里,安全性是我最大的担忧。”这是一家初创公司CEO和雷峰网(公众号:雷峰网)交流时对芯片设计上云的看法,这其实也代表了许多有超过十年从业经验的芯片老兵对芯片设计上云的担忧。
芯片老兵们的担忧不无道理,但同样现实的问题是,芯片设计的复杂度越来越高,市场的需求越来越多样且变化越来越快,想要用更短时间设计出更好的芯片,借用云的弹性优势是个好选择。
芯片设计分为前端设计和后端设计两大部分。无论是前端还是后端设计,为了保证设计出的芯片符合设计的目标性能和功能,仿真验证必不可少。有数据显示,部分芯片设计验证所耗费的时间通常高达整个芯片设计周期的70%。
这就意味着,想要加速芯片设计,缩短仿真验证的时间成为关键,而想要缩短仿真验证时间,算力的支撑又是关键。
芯片设计的前端和后端对算力的需求不同,前端是单线程、高并发、原数据密集式的小文件为主,后端的设计仿真是多线程、大文件。并且,设计的芯片制程越先进对算力的需求越高,成熟制程和先进制程节点对算力需求差别可以达到指数级。
这就给芯片设计公司的IT基础设施带来了敏捷性、成本、运维等方面的挑战。所谓的敏捷性,就是企业的IT部门越来越难以依赖经验建设合适的基础设施,超前部署算力资源会带来巨大的成本负担,算力不足又难以快速满足突发的、波动的负载。
“开发大芯片难免遇到意外情况,比如,突然遇到一个需要紧急修复的问题,就需要大量的算力作为支撑。这种意外的增量,有时候难以预测,云计算的弹性计算能力,能够帮助我们应对这种突发状况。”燧原科技项目负责人Eli表示,“云计算能让我们最快1个小时就部署好我们所需的全部资源。”
与之形成鲜明对比的是,如果芯片设计公司自己建设IT基础设施,需要8-12周的时间,在疫情和缺芯的时候,这个周期也随之拉长。
除了周期问题,成本也是芯片设计上云的重要考量。
“从纯财务的角度仅仅对比买服务器和上云的成本,均摊到每个月,上云成本会更高一些。但从综合成本的角度,我们节省的时间、人力、机房及运维成本,加上效率的提升,上云更有优势。”Vincent表示,“我们对算力有迫切的需求,即便如此我们也只能大胆假设,小心求证。”
2018年开始就率先在国内推广芯片设计上云的速石科技,在接触了大量芯片公司后对此也深有体会,速石科技技术总监陈琳涛就说,“不同类型的公司对安全的要求所有不同,我们帮助客户选定场景、上云的逻辑,在燧原这个项目里,基于腾讯和速石共建的一站式芯片研发平台产品,使用的存算分离混合云这种部署方案,大大简化了上云场景选择和数据准备过程,非常适用于先进制程的公司。”
安全性一方面是对其设计代码和数据的安全的担忧,另一方面是对于整个芯片项目安全的担忧。
“我们与腾讯云和速石的合作,首先只选择了将仿真这一个点放在云上。” 燧原科技项目负责人Eli解释,“我们需要把整个项目的风险控制在可控的范围,这次把一个业务搬上云三方团队花了五六个月时间去实现。这是需要磨合的过程,通过一个项目起步,才能逐步扩大使用的规模。”
那设计大芯片的燧原科技是怎么迈出第一步拥抱云计算的?
存算分离混合云架构,芯片设计上云的定心丸
真要打动客户,还得拿出真正能解决客户问题的方案。
“基于安全性以及公司安全的考虑,燧原希望将所有的数据都放在本地,只有弹性计算的部分放在云上,并且中间数据不能存储。”Cedric说,“在燧原的启发和建议下,我们和速石一起,快速响应,最终给出了存算分离的混合云解决方案。”
腾讯云联合速石科技给出的“存算分离”的混合云计算架构,能够在保障核心代码存储在本地的前提下,通过云端调度平台与本地计算集群打通,计算任务能够灵活选取本地或云端算力队列。这得益于混合云架构以及存算分离优势的结合。
在混合云的架构下,可以按研发提交作业的实际情况选择最佳的算力队列,对内存敏感型任务选择大内存云主机队列,对计算敏感型选择裸金属物理机队列,满足研发设计仿真过程中的弹性资源作业需求,缩短研发仿真周期。同时,速石平台的云原生调度器能不改变用户的使用习惯,让使用者无感地调用云资源,对资源的调用更加便捷,减少上云的学习成本。
“存算分离的方案在其它行业也有,但做法是在同一个自治域内优化存储成本和计算效率。我们给燧原的方案是在两个自治域,也就是混合云中一部分在云上,一部分在云下,云下的管理权限属于燧原,能够充分保证数据的安全性,云上的部分是腾讯云与速石一起做。”Cedric介绍。
“有了存算分离的混合云方案,芯片设计公司减少了数据流转步骤,统一了数据安全访问策略,在不改变原先数据使用规范和要求的前提下,满足了用户的安全需求,对芯片设计上云起起到了积极推动的作用。”陈琳涛也同时指出,
“此次存算分离解决方案,对混合云建设架构要求很高,对网络的时延、带宽的吞吐率和效率都有更高要求,这对合作的三方都是挑战,但我们基础腾讯云的IaaS,以API的方式调用腾讯云的资源,充分发挥我们的技术能力,搭建PaaS,共同实现了目标。”
特别是针对芯片设计客户最关心的安全问题,腾讯云通过一系列的安全技术和措施来赢得客户的信任和降低对安全问题的担忧。
Cedric还提到:“终端层面,腾讯云零信任安全的iOA的方案保障各地的研发工程师可以无缝地体验一致的仿真环境,同时确保终端安全。
传输层面,腾讯和燧原使用超大的带宽的专线保障,确保整个传输通道的安全可信。”
云上,虽然混合云的架构下云上没有数据,但腾讯云的主机安全保障整个计算环境是安全授信,能够确保整个计算过程不会有入侵、数据泄露、勒索病毒等问题。
Vincent表示,存算分离的混合云方案,确实降低了我们对数据安全的担忧,这次三方和合作是一个非常好的尝试。
这也是一次充满挑战,但结果喜人的尝试。雷峰网了解到,腾讯云和速石科技历时6个月,前后投入超过50人天,进行了为期1个多月压力和稳定性测试。最终,燧原此次仿真上云,总体任务并发量通过云端弹性同步提高,缩短仿真周期30%-50%,节省了可观的IT投入的综合效益。
燧原对于这次的尝试也十分满意。Eli说:“这次三方的合作,不仅让我们享受到了腾讯云弹性的优势,也充分利用了速石平台对业务场景的优化和CAD能力,加快了整个项目的研发进度,实现了成本的节省,找到了上云一个好的突破口和尝试的方向。接下来我们更多的团队也会考虑上云。”
芯片设计上云势不可挡
解决客户最大的担忧,还能带来成本优势之后,芯片设计上云的趋势更加明确。
“最近我们和许多芯片客户推广存算分离的混合云方案,很多客户听了之后非常感兴趣,并且,已经有几家客户同样采用这个方案落地。” 速石科技大客户经理邓雄伟透露。
存算分离混合云的方案很好,但其他情况的芯片客户也有全云的方案选择。
腾讯云高性能计算行业高级经理Kevin说,“已经有线下IDC资产的芯片公司,要利用已有的资产,对安全也有更多的顾虑,这时候存算分离的混合云方案比较合适。但对于一些小型的初创公司,没有线下IDC的存量资产,或者对安全顾虑较少的公司会更拥抱云计算,这时候我们首推全云的方案,这样成本更低,效率更高。”
当下,无论是更适合混合云方案还是适合全云方案的公司都在积极了解芯片设计上云。
陈琳涛指出,“我们接触最多的有两类公司,一类是少于100人的初创公司,这类公司在3000多家中国芯片设计公司中占比超过八成,他们在扩张业务的过程中,有很强的算力需求,需要大量IT或者我们这种研发云平台能力支撑公司的业务轻量级快速扩张。另一类就是像燧原这样有自建IDC,设计大型芯片的公司,他们对资本的使用率有很高要求,在探寻混合云的方式。这两类客户在推进的时候都非常有效。”
“芯片设计公司上云最近两三年是蓬勃发展的阶段,就像是五六年前世界500强上云的趋势一样,芯片设计公司上云也会经历这样的过程。”陈琳涛认为。
身处数字化的浪潮中,传统且成熟的芯片行业也正在迎来上云的浪潮中,芯片设计全流程上云是可以预见的趋势,同时也可以看到,整个芯片产业链也都在拥抱上云。
Kevin还提到,高性能计算领域是一个可见的巨大潜力的蓝海,除了芯片仿真,腾讯也会持续加大投入,布局更多比如云渲染、生命科学等多个高性能计算赛道。
在这样的趋势下,为什么不试试去云上设计芯片呢?