资讯 人工智能开发者
此为临时链接,仅用于文章预览,将在时失效

英伟达发布TensorRT 3可编程推理加速器,比起CPU能实现高达40倍吞吐率

作者:汪思颖 编辑:郭奕欣
2017/09/26 16:13

雷锋网 AI科技评论消息,北京时间9月26日,在英伟达GPU技术峰会上,英伟达创始人兼CEO黄仁勋正式发布TensorRT 3 神经网络推理加速器。据官方介绍,TensorRT 3能极大改善处理性能,削减从云到边缘设备(自动驾驶汽车、机器人等)的推理开销。TensorRT 3 是在Volta GPU 实现最优推理性能的关键,比起CPU它能实现高达40倍的吞吐量,时延在7ms之内。目前,对于英伟达开发者计划成员,现在有针对Tesla GPU (P4, P100, V100)和Jetson嵌入式平台的TensorRT 3提供免费下载。

关于TensorRT

据雷锋网了解,英伟达TensorRT 是一种高性能神经网络推理引擎,用于在生产环境中部署深度学习应用程序。应用有图像分类,分割和目标检测,提供的帧/秒速度比只有CPU的推理引擎高14倍。

TensorRT是世界上第一款可编程推理加速器,能加速现有和未来的网络架构,TensorRT可编译到广泛的目标CUDA GPU中,从120 TOPS到1 TOPS,从250瓦到低于1瓦。

它包含一个为优化在生产环境中部署的深度学习模型而创建的库,可获取经过训练的神经网络(通常使用 32 位或 16 位数据),并针对降低精度的 INT8 运算来优化这些网络。

为何TensorRT 3有着无可比拟的地位,他提到了以下几点:

英伟达发布TensorRT 3可编程推理加速器,比起CPU能实现高达40倍吞吐率

TensorRT 3新的亮点如下:

英伟达发布TensorRT 3可编程推理加速器,比起CPU能实现高达40倍吞吐率

雷锋网据黄仁勋现场介绍,

TensorRT3的性能非常卓越,运行在Volta上的TensorRT3在图像分类方面比最快的CPU还要快40倍,在语言翻译方面则要快140倍。

另外,现场他还提到,神经网络的响应时间或处理延时会对服务质量造成直接影响,运行在V100上的TensorRT在处理图像是可实现7ms的延时,在处理语音是延时不到200ms,这是标准云服务的理想目标,单靠CPU是无法实现的。

英伟达发布TensorRT 3可编程推理加速器,比起CPU能实现高达40倍吞吐率

TensorRT3能支持Caffe2、mxnet、PaddlePaddle、Pytorch、TensorFlow、theano、Chainer等所有的深度学习框架,将TensorRT 3和英伟达的GPU结合起来,能在所有的框架中进行超快速和高效的推理传输,支持图像和语言识别、自然语言处理、可视化搜索和个性化推荐等AI服务。

AI新纪元

另外,在演讲中,黄仁勋提到,现在已是计算新纪元,包括TensorRT在内的NVIDIA多个平台已被BAT等多家科技巨头采用:

另外,黄仁勋在现场正式发布全球首款自主机器处理器Xavier,这是迄今为止最复杂的片上系统,将于18年第一季度向早期接触的合作伙伴提供,在18年第四季度全面推出。这个处理器的发布将揭开人工智能时代新篇章。

英伟达发布TensorRT 3可编程推理加速器,比起CPU能实现高达40倍吞吐率

除了Xavier,他们也发布了一个虚拟机器人仿真环境Isaac Lab。谈及为何要创造这个自主机器系统,他提到,

教机器人与外部世界交互和执行复杂的任务一直是一个未解决的难题,但相信随着深度学习和AI的突破,这个问题最终必将得到解决。在机器人学习执行具体任务的过程中,他们可能会对周边的事物造成损坏,并且需要很长的训练周期。因此,需要创造一个可供机器人学习的虚拟世界——看起来像真实世界,并遵守物理学定律,机器人可以在其中超实时地学习。

在现场,他也强调,NVIDIA将会全力推进“统一架构”CUDA GPU计算。通过Inception计划,将支持1900家初创公司创建AI未来。

究竟NVIDIA能让AI跨进怎样的未来,拭目以待!

长按图片保存图片,分享给好友或朋友圈

英伟达发布TensorRT 3可编程推理加速器,比起CPU能实现高达40倍吞吐率

扫码查看文章

正在生成分享图...

取消
相关文章