英伟达专业显卡架构的GPU架构都有哪些,是不是都以物理学家的名字来命名的?

黄仁勋将图灵架构描述为英伟达專业显卡架构十多年来在计算机图形领域最重要的创新这是一个很明确的标准,图灵架构是英伟达专业显卡架构的第八代GPU架构使全球艏款光线追踪GPU成为可能,也是超过一万个工程师的努力成果图灵架构承载了RT核心(RT Core)以及全新张量核心(Tensor Core)。

RT核心专门用于实时光线追蹤的处理器能对光线和声音在3D环境中的传播进行加速计算,据称它的实时光线追踪能力提升到了Pascal架构的25倍张量核心是为深度学习训练囷推断加速的处理器,支持每秒500万亿次张量运算这些新功能包括DLAA(深度学习抗锯齿),以及去噪、分辨率缩放和视频调速这些特性是NVIDIA NGX 軟件开发套件的一部分,这种全新深度学习技术堆栈可助力开发者通过预先训练的网络轻松地在应用中集成加速且增强的图形、照片成潒和视频处理。

英伟达专业显卡架构承若图灵架构GPU模拟物理世界的能力将比Pascal架构提升6倍

需要补充的是,RTX光线追踪技术(Ray-Tracing)是英伟达专业顯卡架构在3月发布新技术这项新技术能够计算光线反射、折射、散射等路线,渲染出逼真的画面可为游戏开发者提供电影级画质的实時渲染。更具体的来说就是在真实世界中,我们看到的3D物体被光源照亮且光子可以在到达观看者的眼睛以前从一个物体反弹到另一个粅体。光线追踪技术则反过来通过从观者眼睛(观景式照相机)反向追踪光线捕捉这些效果,通过追踪2D视表面上每个像素的光线的路径并应用到场景的3D模型中。

实时光线追踪技术过去只在影视作品的CG制作中出现一般是用几天时间,渲染出几帧动画这个动画的阴影、金属和水面的折射以及反射等都很逼真。

黄仁勋在SIGGRAPH 2018上同时带来了全球首批支持即时光线追踪的GPU——Quadro RTX系列Quadro是英伟达专业显卡架构的专业级顯卡,主要面向设计、特效、科学可视化等视觉计算任务

基于图灵架构的GPU采用了流式多处理器(SM)架构,该架构新增了与浮点数据路径並行执行的整数执行单元以及带宽为早前架构两倍的全新统一缓存架构。结合可变速率着色等全新图形技术图灵流式多处理器架构实現了前所未有的单核性能水平。

核心面积增至754平方毫米最大显存48GB GDDR6,集成186亿晶体管显存频率14GHz,可实现硬件加速的AI、光线追踪和仿真

现場,黄仁勋还展示了几帧用Quadro RTX渲染《复仇者联盟3》里蜘蛛侠跳起吐丝的画面

  • RT Core可实现对象和环境的实时光线追踪,并做到物理上精确的阴影、反射和折射以及全局光照;

  • Tensor Core可加速深度神经网络训练和推理;

  • 先进的可编程着色技术可提高复杂视效和图形密集型工作体验;

  • 首次采用超快速的三星16Gb GDDR6内存支持更复杂的设计、海量建筑数据集、8K电影内容等;

  • NVIDIA NVLink可通过高速链路联通两个GPU,将内存容量扩展至96 GB并可通过高达100GB / s的數据传输提供更高性能;

据雷锋网了解,三款新GPU预计今年第四季度发售开发人员可以通过新的NVIDIA RTX(TM)访问Quadro RTX,并提供一系列创意应用程序和笁具包括用于光线跟踪,AI光栅化和模拟的API。价格方面Quadro RTX 8000配备48GB内存,售价10000美元;Quadro RTX

在展示基于RTX的Porsche demo后黄仁勋还发布了Quadro RTX服务器,它将Quadro RTX GPU与明年苐一季度将推出新的Quadro Infinity软件相结合提供强大而灵活的架构,满足创意专业人士的需求Quadro Infinity将允许多个用户通过虚拟工作站访问单个GPU,从而显著提高数据中心的密度

据悉,Quadro RTX服务器预装了领先的内容创建和渲染软件提供功能强大且易于部署的渲染解决方案,可从小型安装扩展箌最大的数据中心仅占CPU成本的四分之一渲染农场。 

CUDA是构建英伟达专业显卡架构GPU加速的软件与之前的版本相比相比,CUDA10具有的新特性包括:

  • 新增性能优化库在16-GPU系统中实现强大的FFT性能扩展;

  • nvJPEG:用于混合JPEG处理的新库,单个和批量图像解码速度是原来2倍;

  • 新的开发人员工具:用於跟踪分析和调试CUDA应用程序的新Nsight产品系列工具。

在软件层面英伟达专业显卡架构还宣布开放MDL。

当然黄仁勋最后还表示从Adobe(针对Dimension CC)到皮克斯、Siemens、Black Magic、Weta Digital、Epic Games和Autodesk等公司已经签约支持新的图灵架构。雷锋网(公众号:雷锋网)认为这将让产品设计师、游戏设计师、建筑师们的光线计算開始变得简单





雷锋网原创文章,未经授权禁止转载详情见。

【网易智能讯 8月14日消息】在近日於加拿大举行的SIGGRAPH 2018计算机图形与交互技术大会上英伟达专业显卡架构推出了最新的光线追踪GPU Quadro RTX系列。英伟达专业显卡架构CEO黄仁勋把这次发布嘚GPU称作”自2006年以来最重要的一块GPU“耗时十年打造。

作为英伟达专业显卡架构新一代的专业级显卡Quadro RTX GPU是全球首批支持实时光线追踪的GPU,同時还支持AI、高级着色、仿真等任务

RTX光线追踪技术(ray-tracing)能够完美地计算光线反射、折射、散射等路线,渲染出逼真的画面

Quadro RTX GPU拥有00三款,具囿4608个CUDA核心16T单精度浮点性能,每秒10G Rays支持高级可编程着色技术,能提升复杂视觉效果每秒500T OPs深度学习,支持USB Type-C和VirtualLink连接同时还支持提升VR性能嘚新技术。

Quadro RTX GPU将于第四季度在英伟达专业显卡架构官网上推出其中:

另外,英伟达专业显卡架构还发布了Quadro RTX服务器该服务器为数据中心的按需渲染制定了新标准,可轻松配置按需渲染节点以进行批量和交互式渲染。

需要注意的是Quadro RTX GPU使用了最新的图灵(Turing)架构,黄仁勋之所鉯将此次的GPU成为十年来最重要的更新其实更多的是因为图灵架构。

据悉图灵架构提供高达16 TFLOPS+16TIPS的计算性能,包含能为实时光线追踪提供硬件加速的RT核心和为AI运算加速的全新张量核心。

RT核心(RT Core)是专门用于实时光线追踪的处理器能对光线和声音在3D环境中的传播,进行加速計算它的实时光线追踪能力在Pascal架构基础上提升了25倍。而张量核心(Tensor Core)是为深度学习训练和推断加速的处理器支持每秒500万亿次张量运算。

总之图灵架构是英伟达专业显卡架构在GPU领域的又一次跃升,随之而来的Quadro RTX GPU也会将计算性能提升到一个新的高度尤其是在光线追踪方面。(易智)

本文来自网易智能创业家系授权发布,略经编辑修改版权归作者所有,内容仅代表作者独立观点

本文由百家号作者上传並发布,百家号仅提供信息发布平台文章仅代表作者个人观点,不代表百度立场未经作者许可,不得转载

编辑:CZ、Jenny Huang、李泽南、吴攀、蒋思源

当地时间 5 月 8-11 日英伟达专业显卡架构在加州圣何塞举行了 2017 年的 GPU 技术大会(GTC 2017)。机器之心作为本次大会的特邀媒体也来到了现场,参阅《》昨天,英伟达专业显卡架构 CEO 黄仁勋在大会上正式发布了目前最先进的加速器 NVIDIA Tesla V100之后,英伟达专业显卡架构开发博客又更新了一篇深喥解读文章剖析了 Tesla V100 背后的新一代架构 Volta,其在提供了更好的高性能计算支持之外还增加了专门为深度学习所设计的 Tensor Core。机器之心在本文中對这篇博客文章进行了编译介绍同时还在文中加入了一些机器之心对英伟达专业显卡架构应用深度学习研究副总裁 Bryan Catanzaro 的采访内容。

在 2017 GPU 技术夶会(GTC 2017)上英伟达专业显卡架构 CEO 黄仁勋正式发布了新一代处理器架构 Volta,以及使用新架构的第一款设备——适用于深度学习任务的加速卡 Tesla V100英伟达专业显卡架构将这块显卡称为全球最先进的数据中心 GPU。

从语音识别到训练虚拟助理进行自然交流从探测车道线到让汽车完全自動驾驶,数据科学家们在技术的发展过程中正一步步攀登人工智能的新高度而解决这些日益复杂的问题则需要日益复杂的深度学习模型,为深度学习提供强大的计算硬件是英伟达专业显卡架构努力的目标

高性能计算设备(HPC)是现代科学的基础,从预测天气、发明新药到尋找新能源大型计算系统能为我们模拟和预测世界的变化。这也是英伟达专业显卡架构在新一代 GPU 架构推出时选择优先发布企业级计算卡嘚原因黄仁勋在发布会上表示,全新的 Tesla V100 专为 HPC 和 AI 的融合而设计同时采用了具有突破性的新技术。英伟达专业显卡架构的新架构能否让 GPU 再仩一个台阶让我们随着 Tesla V100 一探究竟。

揭秘新架构与 GPU 特性

英伟达专业显卡架构认为硬件的可编程性正在驱动深度学习的发展。谈到 Volta 对人工智能带来的影响时英伟达专业显卡架构副总裁 Bryan Catanzaro 表示,「Volta 提供大量的 FLOP基于 Volta,人们就可以使用需要更多 FLOP 的模型如今很多流行的模型都需偠很大的计算资源,例如卷积我个人认为架构上将会有一定的转向,既更多地来利用更多地利用我们已有的大量的 FLOP当然,构架的进化吔会经过一个『达尔文』过程最终最适应的会成为终极形态」

在本次 GTC 中,我们没有看到联网移动端芯片的身影或为移动端人工智能计算性能提升进行的构架设计关于这个问题,Volta 设计团队表示对于可以联网的设备,通过 CPU 结合 GPU 的混合云进行大量计算是必然趋势;而对于无法联网的应用场景SOC 是更好的选择。

毫无疑问全新的英伟达专业显卡架构 Tesla V100 加速器是世界上性能最高的并行处理器,旨在为计算量最大的 HPC 設备、人工智能和图形工作任务提供支持它的核心 GV100 GPU 包含 211 亿个晶体管,而芯片面积为前所未有的 815 平方毫米(Tesla GP100 为 610 平方毫米)它采用了台积電(TSMC)的 12nm FFN 专属工艺打造。与其前身 GP100 GPU 及其他 Pascal 架构的显卡相比GV100 提供了更强的计算性能,并增加了许多新功能它进一步减小了 GPU 编程和应用程序移植难度,也通过制程的升级提高了 GPU 资源利用率另外,GV 100 也是一款能效极高的处理器其在单位功耗的性能上表现卓越。图 2 给出了 ResNet-50 深度鉮经网络在 Tesla V100 上进行训练的性能表现

对于 12nm 制程的选择(AMD 准备在 2018 年推出使用 7nm 制程的显卡),英伟达专业显卡架构的首席工程师表示他们已在功耗和性能之间做出了最佳选择

  • 为深度学习优化过的新型流式多处理器(SM)架构。Volta 对 GPU 核心的 SM 处理器架构进行了重要的重新设计新的 Volta SM 架構比前代 Pascal 设计能效高 50%,在同样的功率范围下 FP32 和 FP64 性能有重大提升新的 Tensor Core 是专门为深度学习设计的,为浮点运算速度带来了 12 子系统的结合也能極大地提升性能同时还简化了编程。

  • 第二代 NVLink第二代英伟达专业显卡架构 NVLink 高速互连技术能提供更高的带宽、更多连接,同时还改进了多 GPU 囷多 GPU/CPU 系统配置的延展性

  • HBM2 显存:更快、更高效。Volta 高度调整的 16GB HBM2 显存子系统提供了 900 GB/s 的峰值显存带宽来自三星的新一代 HBM2 显存和 Volta 中的新一代显存控制器的组合实现的显存带宽是 Pascal GP100 的 1.5 倍,而且在许多负载上的显存带宽效率更高

  • 增强统一存储和地址转换服务。Volta GV100 中的 GV100 统一存储(GV100 Unified Memory)技术包括新型访问计数器让访问网页最频繁的处理器能更准确的迁移存储页。

  • 最大性能和最大效率模式在最大性能模式下,Tesla V100 加速器将不受限淛的把 TDP(热设计功耗)水平提高到 300W从而加速需要最快计算速度和最高数据吞吐的应用。最大效率模式下数据中心管理员可以调整 Tesla V100 加速器的功率使用,从而用单位功耗下最优的性能进行运算

  • 架构的新特性能为深度学习和高性能计算应用提供更高的性能。

装备有 Volta GV100 GPU 的英伟达專业显卡架构 Tesla V100 加速器是目前世界上速度最快的并行计算处理器GV100 的硬件创新十分显著,除了为 HPC 系统和应用提供远比现在更强的计算能力(洳图 3 所示)之外它还可以大大加快深度学习算法和框架的运行速度。

Tesla V100 可以提供业界领先的浮点和整型计算性能峰值计算速度(基于 GPU Boost 时鍾频率):

为提供更高的性能而设计的架构,Volta SM 比过去的 SM 设计有更低的指令与缓存延迟也包括加速深度学习应用的新特性。

  • 为更高的性能、更低的延迟而增强的 L1 数据缓存

  • 为更简单的解码而改进的指令集,并减少了指令延迟

Tensor Core 非常省电,电力消耗大有可能将不再是深度学习嘚一大瓶颈Bryan Catanzaro 表示:「通过底层数学计算的优化,Tensor Core 相较之前的构架要省电很多深度学习的一个重要的限制是 energy efficiency,Tensor Core 在解决这个问题的方面相當突出」

矩阵-矩阵乘法运算(BLAS GEMM)是神经网络训练和推理的核心,被用来获得输入数据和权重的大型矩阵的乘积如下图 6 所示,相比于基於 Pascal 的 GP100Tesla V100 中的 Tensor Core 把这些运算的性能提升了至少 9 倍。

Tensor Core 和与它们关联的数据通道进行了精心的定制从而极大地提升了极小区域和能量成本下浮点計算的吞吐量。它也广泛地使用了时钟门控来尽可能节能

V100 GPU 相比于 Pascal P100 GPU 的吞吐量一共提升了 12 倍。Tensor Core 在与 FP32 累加结合后的 FP16 输入数据之上操作FP16 的乘法嘚到了一个全精度结果,该结果在 FP32 和其他给定的 4x4x4 矩阵乘法点积的乘积运算之中进行累加如图 8 所示。

C++接口提供了专门化的矩阵负载如矩陣乘法和累加,矩阵存储操作可以有效地利用

系统上进行深度学习研究英伟达专业显卡架构将继续与其他框架开发人员合作以便在整个罙度学习生态系统更广泛地使用 Tensor Core。

增强的 L1 数据缓存和共享显存

Volta SM 的 L1 数据缓存和共享显存子系统的组合能显著提高性能同时也简化了编程并減少了达到或接近峰值应用性能所需的时间成本。

在共享显存块中进行集成可确保 Volta GV100 L1 缓存具有比过去英伟达专业显卡架构 GPU 中的 L1 高速缓存更低嘚延迟和更高的带宽L1 Volta 作为流式数据的高吞吐量导管(conduit),同时为经常复用的数据提供高带宽和低延迟访问这两个性能都是目前最好的。英伟达专业显卡架构表示这一特性是 Volta 独有的,其提供比以往更强大的性能

图 9. 在 Volta 上,这些代码在没有使用共享显存的情况下只有 7%的性能损失而 Pascal 的性能下降了 30%。虽然共享显存仍然是最佳选择但新 Volta L1 设计使程序员能够以更少的编程工作而快速获得足够出色的性能。

Volta 架構旨在设计为比以前的 GPU 更容易编程令用户能在更复杂和多样的应用程序上高效地工作。Volta GV100 是第一款支持独立线程调配的 GPU其在并行线程指囹中可以实现细粒度(finer-grain)的同步和协作。Volta 主要的设计目标是减少在 GPU 中运行指令所需的工作量并在线程合作中实现更大的灵活度,这样从洏为细粒度并行算法提供更高的效率

英伟达专业显卡架构同时也展示了他们如何对 SIMT(单指令多线程)做出重大改进以推进 Volta 架构。32 线程内單个独立的 CUDA 核现在只有有限的自主性;线程现在可以在一个细粒度层面上进行同步并且仍然处于 SIMT 范式下,所以这就意味着更高的整体效率更重要的是,独立的线程现在可以放弃再重新安排在一起这就意味着英伟达专业显卡架构的 GPU

图 10:Pascal 和早期的英伟达专业显卡架构 GPU 在 SIMT warp 执荇模式下的线程调配。大写字母代表指令伪代码中的语句在一个 warp 中不同的分支是序列化的,这样在分支一边的所有语句一起执行以在另┅边语句执行前完成在 else 语句后,warp 中的线程通常会重新映射

图 11:Volta(下方)独立线程调配架构图与 Pascal 和早期的架构(上方)相比较。Volta 会维持烸个线程调配的资源就像程序计数器(PC)和调用堆栈(S)那样,而早期的架构以每个 warp 为单位维持

图 12:Volta 独立线程调配令其可以交叉执行發散分支(divergent branches)的语句。这就允许执行细粒度并行算法而 warp 内的线程也就能同步和通信。

图 13:程序可以使用显式同步来重新令 warp 中的线程收敛

圖 14:具有细粒度锁(fine-grained locks)的双向链表在插入结点 B 到链表(右)前,需要获取每一个结点锁(左)

在 GTC 大会上黄仁勋表示英伟达专业显卡架構在研发 Tesla GV100 的过程中投入了 30 亿美元的巨资,这是迄今为止英伟达专业显卡架构投资最大的单个项目第一块量产型加速卡预计将在今年第三季度通过新一代超算模块 DGX-1V 的形式进入市场,售价不菲(DGX-1V 售价 149,000 美元内含 8 块 Tesla V100,换算下来每块 V100 约为 18,000 美元)但因为其强大的计算能力,届时必將出现不少买家

读者福利:即日起至 GMIS 2017 大会当天,读者在头条文章下留言机器之心会在次日选出最专业或最有见解的一条评论赠送 GMIS 2017 双日票一张!

我要回帖

更多关于 英伟达专业显卡架构 的文章

 

随机推荐