一年前,李彦宏曾发表演讲称,云计算、大数据、人工智能正逐渐走向“三位一体”。他指出,深度学习赋予人工智能实用价值。这一年来,不少公司都在抢滩AI与云计算结合市场,物联网时代的到来也为此加了一把火。
才云科技(Caicloud)创始人兼 CEO 张鑫博士认为,“容器技术正在迅速发展成为云计算领域的新货币,并向着软件交付的事实标准大步迈进。”作为云计算的一部分,有些人试图将AI与容器云相结合。
才云科技是一家深耕容器集群管理的创业公司,现在他们想为自己贴上“深度学习容器云公司标签”。今年以来,才云动作不小。在3月的发布会上,除了宣布获得由经纬中国领投的4000万A轮融资,才云迭代了 CLaaS 2.0 容器云PaaS平台,并推出新产品—— TensorFlow As A Service(TaaS)深度学习平台。
才云科技(Caicloud)CEO张鑫
据了解,才云科技颇具谷歌气质。CEO 张鑫是前谷歌集群管理系统资深工程师,核心团队成员大多也是谷歌系,首席大数据科学家郑泽宇是前谷歌高级工程师,CTO 邓德源是前谷歌集群管理核心成员。2015年正值国内云计算、大数据处于风口浪尖之时,政策也频频利好高科技创业,在这个大背景下张鑫他们离职创业,将谷歌云服务集群技术带回国内,为国内企业提供开发维护服务。
具体来说,才云 Caicloud 平台依托于物理机,虚拟机,微软云,AWS 云平台,阿里云平台,创建了 Kubernetes 集群。Kubernetes 是谷歌基于十余年容器和集群管理方面的经验基础上开源的容器集群管理系统,本质上可看作是基于容器技术的 PaaS 平台。在多个 Kubernetes 集群之上,才云建立了 Caicloud CLaaS 容器集群管理平台。在 CLaaS 平台之上还有:分布式深度学习平台 TaaS,CI/CD 工具 Cyclone,以及 Cargo。
才云科技产品一览
显而易见,CLaaS与 TaaS 是拉动才云发展的两架马车,两者之间也能相互拉动。CLaaS 与 TaaS 的关系可以类比早期微软 Windows(CLaaS)和 Office(TaaS),Office 拉动了 Windows 的市场份额,同时 Windows 也为 Office 提供了独特的底层支持。
基石 Caicloud CLaaS
Caicloud CLaaS 是才云的基础产品。它是为企业客户提供容器云解决方案的 PaaS 平台,共包含4款产品:Cargo(镜像仓库)、CLaaS(跨集群管理)、Cyclone(持续交付)、TaaS 及针对企业的大数据智能分析服务。
谷歌是容器领域的摩天巨擘。业内人士称,容器已经成为了谷歌基础设施上运行的唯一实体。据了解,2005年谷歌就已经基于底层技术开发了一些应用,如搜索、视频、大数据应用等。这一套内部使用多年的集群管理核心系统叫 Borg,2014年谷歌开源的 Kubernetes 系统受 Borg 启发而诞生。张鑫深度参与了研发过程,在他看来,容器并不仅是一种工具,未来会成为满足业务需求的平台。因此从创业伊始,才云便选择了围绕技术的产品化和生态建设这条路。
近日微软宣布收购 Deis (专门开发 Kubernetes 容器管理技术的软件公司)。对此张鑫表示,谷歌、微软两巨头之所以青睐 Kubernetes 的原因在于看到了容器集群管理的价值,
“随着用户与市场的成熟,人们意识到容器本身只是一个底层技术,广大开发者和运维人员都不应该过多关注这个盒子。谷歌早在10年前就意识到真正的核心的技术是对海量这类‘盒子’的管理、调度、和掌控;与这个管理系统打交道才应该是开发、运维人员去管理其应用和服务的正确姿势。”
谷歌奉行 AI First 战略,深受熏陶的才云团队也很快意识到人工智能应用将有望成为企业云的杀手级应用。张鑫谈到才云 CAI 战略(Cloud+AI=CAI),他认为云是 AI 落地的最好方式,AI 是云的灵魂和战略布局,AI 理念于云的提升作用可能更大于技术的效用。
因此,TaaS 诞生了。TaaS 是以 TensorFlow 为核心的分布式训练及模型托管系统,它结合了 Kubernetes 容器集群管理系统 与 TensorFlow 深度学习系统。
据雷锋网了解,Tensorflow 是现阶段主流深度学习框架之一,被广泛应用于国内外大型企业。但 Tensorflow 也存在某些缺陷。在单机特定应用场景里,即便使用目前最先进的 GPU 都无法满足其计算量的要求。而在集群环境下,TensorFlow 存在高门槛、难配置、难管理等问题。而才云通过在 Kubernetes 基础上,支持 GPU 和可视化的 UI 封装,使 GPU 在分布式系统中进行隔离,能对 GPU 进行更加灵活自由的调度使用, 从而提升深度学习任务的训练速度。
通过kubernetes在分布式环境中进行GPU隔离
TaaS界面
赵慧智是前惠普 Kubernetes 技术领域的 GPU 专家、现才云云开源高级工程师,他对雷锋网表示,才云AI方向其实有两个产品。其中之一是企业定制化人工智能解决方案,才云会针对不同公司的业务模式和需求,设计不同的应用模型。
另一个产品是 TaaS 深度学习私有云平台。这是考虑到用户(可能是机构也可能是个人)在使用 TensorFlow 设计模型时的时间成本及使用效率问题。若在一台机器上训练模型可能要几个月甚至一年的时间,时间成本高,而单个用户增加机器数量不经济也不实际。基于此痛点,才云提供通用型平台,用户可以托管模型,平台就能开始计算,无需整天监管。除借助计算资源外,TensorFlow 本身有着局限,存在部署、资源管理、监控、多用户、集群管理等问题,TaaS 可以解决上述问题。赵慧智提到才云为企业设计的定制化解决方案也是在这个平台上跑。
才云云开源高级工程师赵慧智
产品的最终目的是实践应用。才云告诉雷锋网,他们的目标用户是传统企业和互联网+转型中的大企业。而对于特定领域,比如金融等合规性门槛较高的领域,尚未有已落地的定制案例。才云表示最近刚赢得金融客户,目前还仍处于项目开发阶段,计划会有 200 个物理机节点上线。
为就一些通用解决方案来说,以营销活动为例,高峰会出现大量的瞬时访问量,却又缺乏弹性收缩机制,缺乏高可用和负载均衡。Caicloud 可以动态伸缩节点数量,支持资源水平扩展。同时混合云的部署方式能支持瞬时高并发,利用公有云资源满足资源需求;若出现对于运维要求很高,需要高效的大规模集群管理系统的情况,Caicloud 运维平台将由点及面,从日志收集到分析,应用监控到多级报警,从行为记录到权限控制,所有信息都由可视化方式呈现,提高运维效率。
赵慧智表示 CLaaS 的通用效用体现在两方面:
一方面能提高集群部署能力和管理能力,使监控和日志管理会更简单,能更全局性地把握部署;
另一方面也有着所有云平台都有的功能:节省用户的硬件资源,维护应用程序管理。
目前国家电网、锦江电商、通用集团等机构已采用 CLaaS 产品。锦江电商副总裁龚天乙提到了2个数字,锦江电商在与才云科技合作的大半年里,将95%以上的应用都迁移到了容器集群产品上,锦江的应用发布时间从小时级调到了分钟级。
而在谈到 TaaS 的应用时,赵慧智表示 TaaS 主要以业务为导向,不同的企业有着不同的业务,才云也会分析业务,提供不同的解决方案,涉及金融、安防、能源、教育等多领域。这里需要指出一点,TaaS 私有云于3月底才正式发布,公有云处于内测阶段,所以目前才云也无法提供真实的应用案例和客户使用效果。
前文也已提到,CLaaS 与 TaaS 之间存在相互拉动关系,这种良性关系不仅体现在技术端,也表现在产品交叉销售方面。两大产品的目标用户相同,若以 TaaS 服务切入企业,客户能够更直接地体验才云 PaaS 平台,了解平台的价值。这为接下来的销售提供铺垫,反之亦然。
最后,在雷锋网问到与客户合作过程中有什么困难时,赵慧智答道:
才云做的是从基础设施深入到业务层面的整合通用解决方案,那么就会面临一个问题:企业定制化需求,这需要双方大量沟通。对才云来说定制化服务其实是有一定挑战,我们会用通用方式、从底层数据模型中抽象出来去解决,例如模板化应用编排。