amd显卡设置构架等于GPU?

解密真相 | NVIDIA新GPU架构为何命名Turing?解密真相 | NVIDIA新GPU架构为何命名Turing?影驰科技百家号图灵一个熟悉又陌生的名字我想大家在知道NVIDIA新一代显卡GPU架构以Turing(图灵)命名之前,对图灵本人知之甚少。计算机科学之父,人工智能之父,这是后人对他的敬称。纵观图灵传奇的一生,他不但以破译密码而名闻天下,在人工智能和计算机等领域也作出了重要贡献。著名传记电影《模仿游戏》,讲述的就是图灵的传奇人生。故事主要聚焦于图灵协助盟军破译德国密码系统“英格玛”,从而扭转二战战局的经历。二战中,图灵提出了只有用机器才能击败德军机器的思想,运用多台尼格玛机器构成了强大的设备,不断与德军进行智慧的博弈,最终带领团队破译了德军的Enigma密码。正因为Enigma密码的破译,德军的各种指挥文电、作战勤务等加密信息在不知不觉中已被盟军了如指掌,这一举动促使盟军一举粉碎了轴心国的野心,至少让二战提前结束了几年的时间。天才的命运总是悲情的,图灵的晚年生活因为其同性取向而被迫蒙上了一层阴影,并因为当时的法律而遭到英国政府的迫害。最终在1954年咬下含有剧毒的苹果自尽,结束了传奇而又悲情的一生。据坊间传言,苹果公司那咬过一口的苹果LOGO,便是其第一任CEO乔布斯为纪念图灵所构思设计。2009年,经过三万多英国民众的签名请愿,英国首相正式代表政府向图灵致歉。2013年,伊丽莎白女皇正式赦免了其“猥亵罪”等作为同性恋不公平的待遇,一个被历史亏待了的旷世奇才,终于得到了应有的公正评价。电影内戏如人生,电影外人生如戏,图灵的成就可不限于破译Enigma密码,在人工智能(AI)领域他同样称得上是真正的先驱。1950年,他提出了一种用于判定机器是否具有智能的试验方法,这便是著名的“图灵试验”,这一划时代理论为现代AI技术奠定了基础。如今,人工智能(AI)的发展日新月异,前不久还看过一篇新闻:“二战时图灵机破译的Enigma密码,现在AI仅需13分钟便可破译”。人工智能(AI)正在推动着史上最伟大的技术进步,而显卡作为计算机电脑的重要组成部分,NVIDIA已将其应用于计算机图形领域,打造了全新一代的GPU核心,Turing(图灵)作为计算机科学之父,人工智能之父,唯有他的名字能够与之匹配。Turing GPU,搭载Tensor Core,可提供超过100 TFLOPs的AI计算性能。Turing GPU可以实时运行强大的AI算法,打造难以置信的清晰明快、栩栩如生的画面和特效。影驰作为NVIDIA的AIC核心合作伙伴,同样也推出了三款搭载Turing GPU的显卡新品方案:分别为影驰 GeForce RTX 2080 Ti、影驰 GeForce RTX 2080、影驰 GeForce RTX 2070,主要以高端型号为主,让玩家能够更直观地感受划世代显卡AI技术带来的全新体验。影驰新一代显卡新品仍然延续了三个系列,它们分别是“一切只为性能”的名人堂系列,“无GAMER,不游戏”的GAMER系列以及“为普及而生”的将系列。目前影驰 GeForce RTX 2080 Ti大将和影驰 GeForce RTX 2080大将已经在天猫与京东同步开启预售,想要抢先体验新一代影驰显卡的小伙伴,可以前往预购!影驰 GeForce RTX 2080 Ti大将显卡,搭载全新Turing架构的TU102-300核心,拥有4352个流处理器,加速频率为1635MHz。该卡拥有11GB显存容量,显存位宽达352-bit,显存频率14Gbps,8+8-pin供电接口,DP 1.4*3/HDMI 2.0b/USB-C的输出接口,采用星爵三重火力散热器,电源需求与功耗分别为650W与250W。影驰 GeForce RTX 2080 Ti 大将显卡京东自营旗舰店预售地址:http://item.jd.com/8732412.html天猫影驰电脑硬件旗舰店预售地址:https://detail.tmall.com/item.htm?id=影驰 GeForce RTX 2080 大将显卡,搭载全新Turing架构的TU104-400核心,拥有2944个流处理器,加速频率为1800MHz。该卡拥有8GB显存容量,显存位宽达256-bit,显存频率14Gbps,8+6-pin供电接口,DP 1.4*3/HDMI 2.0b/USB-C的输出接口,采用星爵三重火力散热器,电源需求与功耗分别为650W与215W。影驰 GeForce RTX 2080 大将显卡京东自营旗舰店预售地址:http://item.jd.com/8943365.html天猫影驰电脑硬件旗舰店预售地址:https://detail.tmall.com/item.htm?id=本文由百家号作者上传并发布,百家号仅提供信息发布平台。文章仅代表作者个人观点,不代表百度立场。未经作者许可,不得转载。影驰科技百家号最近更新:简介:玩家主场,尽情分享作者最新文章相关文章显卡只能玩游戏? 10年GPU通用计算回顾
09CPU与GPU的设计方向决定运算能力
● 揭秘GPU为何如此强大
近30年来,由Intel、IBM、SUN、AMD和富士通生产的通用CPU虽然有了很大发展,但性能提高速度却已经不能与上世纪八十年代末九十年代初相比。单线程处理性能在很大程度上受到了限制。这些限制一方面来自于通用计算程序中过低的指令级并行;另一方面来自于“功率墙(Power Wall)”——集成电路的功率消耗的物理限制。
而GPU的用途已经远远超出运行游戏,我们买到的显卡其实是一块高性能加速器。特别是现在NVIDIA和AMD的显卡产品都体现出了极高的浮点运算能力,双精度浮点运算中的衰减也越来越小。
举例说,在Folding@home项目中,一款中端显卡一天24小时可以计算10个左右的大分子蛋白质折叠,而一款酷睿2双核E7200处理器的一个核心在24小时内完成一个小分子包运算任务都非常困难。CPU和GPU在高密度多线程浮点运算中体现出的性耗比差异,相信大家已经非常清楚。在这一节,我们将着重分析GPU相对于CPU的架构优势。
● 两种架构设计方向不同
CPU和GPU架构差异很大,CPU功能模块很多,能适应复杂运算环境;GPU构成则相对简单,目前流处理器和显存控制器占据了绝大部分晶体管。CPU中大部分晶体管主要用于构建控制电路(比如分支预测等)和Cache,只有少部分的晶体管来完成实际的运算工作。
CPU和GPU逻辑架构对比
而GPU的控制相对简单,而且对Cache的需求小,所以大部分晶体管可以组成各类专用电路、多条流水线,使得GPU的计算速度有了突破性的飞跃,拥有了惊人的处理浮点运算的能力。现在CPU的技术进步正在慢于摩尔定律,而GPU(视频卡上的图形处理器)的运行速度已超过摩尔定律,每6个月其性能加倍。
CPU的架构是有利于X86指令集的串行架构,CPU从设计思路上适合尽可能快的完成一个任务;对于GPU来说,它的任务是在屏幕上合成显示数百万个像素的图像——也就是同时拥有几百万个任务需要并行处理,因此GPU被设计成可并行处理很多任务,而不是像CPU那样完成单任务。
CPU内部架构
当今CPU仅前端部分就非常复杂,指令解码、分支预测等部分消耗晶体管数量巨大。CPU的设计目标是不仅要有很高的吞吐量,还要有良好的应用环境兼容性,CPU所要面对的应用面远远超过了GPU。CPU是设计用来处理通用任务的处理、加工、运算以及系统核心控制等等的。CPU中包含的最基本部件有算术逻辑单元和控制单元,CPU微架构是为高效率处理数据相关性不大的计算类、复杂繁琐的非计算类的等工作而优化的,目的是在处理日常繁复的任务中应付自如。
GPU设计的宗旨是实现图形加速,现在最主要的是实现3D图形加速,因此它的设计基本上是为3D图形加速的相关运算来优化的,如z-buffering消隐,纹理映射(texture mapping),图形的坐标位置变换与光照计算(transforming & lighting)等等。这类计算的对象都是针对大量平行数据的,运算的数据量大。但是GPU面对的数据类型比较单一,单精度浮点占到其处理数据的绝大多数,直到GTX200和HD 4800系列显卡才对双精度运算提供了支持。
展开剩余36%
手机应用推荐
点击加载更多NVIDIA的Pascal架构GPU性能堪称爆表
出处: 超能网
&& 作者:张孟伟&&
&&&&除了8月中发布的GTX 950显卡之外,NVIDIA的Maxwell架构GPU差不多完成布局了,这一代还在用28nm工艺,下一代将直接进入FinFET工艺。Maxwell的继任者Pascal架构GP100已经流片,预计在明年Q1季度发布。它不仅会配备高达32GB的HBM2显存,Pascal GPU自身规模也非常恐怖,将有170亿个晶体管,差不多是GM200核心的2倍,不过核心面积会更小,性能则是杀手级的。&&&&今年的GTC大会上,NVIDIA老总黄仁勋公布了Pascal架构的部分细节,包括NVLink及3D显存,这个3D显存我们现在已经知道是指HBM2显存了。根据之前的分析,NVIDIA的Pascal GPU最多将会配备32GB容量的HBM2显存,带宽达到1024GB/s级别。&&&&另一方面,Pascal架构还会升级制程工艺,目前的Maxwell还是28nm工艺,但Pascal将会直接进入FinFET工艺,虽然此前有过三星14nm FinFET以及TSMC 16nm FinFET的分歧,不过现在看来NVIDIA选择TSMC 16nm FinFET(更可能的是高阶版的16nm FinFET Plus工艺)的可能性更大,毕竟三星的14nm工艺主要是用于移动SoC,适合低功耗,而TSMC在制造高性能GPU芯片上比三星经验更丰富。&&&&GPU工艺停滞了这么久的后果就是在16nm FinFET节点大爆发一次,Pacasl GPU规模惊人,Fudzilla得到的情报显示Pascal GPU的GP100核心晶体管数量将达到170亿个,而目前GM200核心的晶体管数量也只有80亿个,GM204核心更是只有52亿个,GP100差不多是GM200的2倍以及GM204核心的3倍规模。&&&&得益于更先进的工艺,在晶体管数量几近翻倍的同时,GP100的核心面积反而更小,也就是说低于600mm2,但能低到多少就不清楚了。&&&&如此庞大的规模将带来更强劲的性能,Fudzilla原文的形容是“杀手级”性能,虽然晶体管规模翻倍不代表性能翻倍,但16nm FinFET工艺势以及HBM2高带宽带来的优使得Pascal显卡性能大幅提升还是值得期待的。■
行车视线精品文章推荐当前位置: &
> 显卡和GPU是什么关系?
[已解决] 显卡和GPU是什么关系?
经常看评测,一会显卡,一会GPU,有点晕,谁能帮我解释一下
显卡是显示卡的简称。GPU是图形处理器。GPU的全称是Graphic Processing Unit,中文翻译为“图形处理器”。一般GPU就是焊接在显卡上的,所以GPU就是显卡上的核心零部件,这就是它们的关系。GPU和显卡是GPU寄生在显卡上的关系。GPU是显示卡的“心脏”,也就相当于CPU在电脑中的作用,它决定了该显卡的档次和大部分性能,现在还没有出现GPU插在主板上的,因为GPU功耗很高,背面电流过大,所以还是焊接更为可靠。
最简单的说,GPU是图形处理器,特地、专门负责计算机的图形计算和处理,是显卡的核心,属于显卡的一部分。但GPU不一定是在显卡上,现在很多CPU里面都集成有GPU。
你用的那是显卡,显卡上有个东西叫GPU
楼主你用过了吗?你咋知道这东西很好用,别忽悠群众哦!
沙花又木有鸟*—.—*#
好。。好。。。
嘿嘿,学习了
春天到了,该把大衣脱了穿马甲!
不是专家,所以····
楼主你也太活跃了吧?
此话当真?
没图没真相!
额额·····顶你
非常非常感谢!
问题太难了 ~~
楼上的说到点上了哦【图片】深入解析各代显卡架构之 变化!【gpu吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:5,435贴子:
深入解析各代显卡架构之 变化!收藏
说到架构 我想很多朋友 尤其是刚入门的新手 对这个带有抽象色彩的概念都不是很理解 虽然知道它的重要性 但始终都不了解 那么想深入了解的各位 就请关注吧!首先 我们都知道 衡量显卡好坏性能好坏的几点有:架构的先进度 做工 频率 位宽 带宽等等 那么说到架构 我们就拿现代的产品来作为重点讲述!从06年第一代"统一渲染架构"的诞生 所带来的性能突破让GPU的性能产生了翻天覆地的变化 那么我们就来先看看第一代的 G80架构的真面貌!在这之前 为了新手更容易理解什么是统一渲染架构 我先简单的对比下两代架构的区别 早期GPU的规格主要用管线(Shader,着色器)来形容,分为像素管线(Pixel Shader)和顶点管线(Vertex Shader)。被称“为分离式架构”但因为资源分配不平衡 大量资源被浪费所以出现了“统一渲染架构”。没有了PS VS 取而代之的是SP单元。传统显示芯片架构的缺点1. 游戏厂商无法按照需要设计游戏,必须向硬件性能妥协。2. 显示芯片的利用效率不高,运算单元被闲置的现象经常发生。第一代统一架构 G80:
金品公司为您提供专业的GPU产品,专业技术支持,价格优惠!厂家直接为您提供服务,三年免费质保,可提供上门安装调试服务
统一渲染架构,说白了就是使用全新的Shader模块(现在被称为流处理器)取代之前的顶点管线和像素管线,然后通过专用的控制单元来统一协调指令分配,按照游戏的负载来动态的调度顶点、几何、像素指令。
所以从理论上来讲,NVIDIA和AMD之前的GPU在统一渲染架构的设计原理上是一致的。第一代统一渲染架构,就是将像素、顶点、几何、物理等图形渲染指令统一了起来,按照比例和优先级交给流处理器处理。
但区别在于双方产品在指令分配方式上存在差异 NV走的是标量路线 因指令操作方式被称为“MIMD”(多指令流多数据流) 而ATI则采用的是传统的传统SIMD(单指令多数据)架构 但这一架构存在弊端 在后面我会为大家介绍
G80/G92拥有128个流处理器,这些流处理器分为8组TPC(线程处理器簇),每组16个SP(流处理器),这16个SP又分为两组SM(多核流处理器),SM是不可拆分的最小单元,是8核心设计。统一渲染架构的优点:1.动态分配运算单元,提升利用率2.并行处理,提高利用效率3.统一渲染架构还能够协调分配几何着色、物理着色等指令第二代 “统一架构” GTX200
首先来看看NVIDIA对于新一代GTX200核心的设计目标:性能翻倍:两倍于G80核心的性能; 优化架构:根据未来游戏的需要优化核心架构,植入更多的流处理器、扩大显存带宽,调整着色器和纹理的比率; 提高效能:提高GPU的“每瓦性能”,提高晶体管利用率; 改进DX10:加强DX10图形性能,比如几何着色和像素输出的效能; GPGPU:按照并行计算架构设计GPU,提高物理加速性能,优化GPU通过CUDA执行非图形运算的效能; 能源管理:尽可能的控制功耗,加入高级能源管理功能,最大限度降低空闲时的消耗
从上面的图中我们可以看出 GTX200将TPC数量从8个扩充至10个,而且在每个TPC内部,SM从2个增加到3个,SM依然是8核心设计。如此一来,GTX200核心的流处理器数量就是,8×3×10=240个,几乎是G80的两倍!
纹理单元部分,GTX200的每个TPC内部拥有8个TF,这样总共就是8×10=80个纹理单元。这里GTX200的纹理过滤单元和定址单元的数量是相等的,而G80的纹理定址单元只有纹理过滤单元的一半(事实上G92核心中TA和TF数量就相等了)。
● GTX200核心微架构改进
GTX200核心在流处理器、纹理单元数量上的扩充是很容易理解的,其实除了扩充规模之外,在架构的细微之处还有不少的改进,这些都有助于提高新核心在未来游戏或通用计算中的执行效能:1. 每个SM可执行线程上限提升:G80/G92核心每个SM(即不可拆分的8核心流处理器)最多可执行768条线程,而GTX200核心的每个SM提升至1024条,而且GTX200拥有更多的SM,芯片实力达到原来的2.5倍!2. 每个SM的指令寄存器翻倍:GTX200与G80核心在SM结构上基本相同的,但功能有所提升,在执行线程数增多的同时,NVIDIA还将每个SM中间的Local Memory容量翻倍(从16K到32K)。Local Memory用于存储SM即将执行的上千条指令,容量增大意味着可以存储更多的指令、超长的指令、或是各种复杂的混合式指令,这对于提高SM的执行效能大有裨益。还有一点更值得提醒的是 在GTX200 NV第一次引入了512bit显存控制器 从根本上解决了带宽问题 高带宽在DX10游戏和开高倍AA的情况下有着决定性作用!G80的6个ROPs和6个64Bit显存控制器GTX200核心的8个ROPs和8个64Bit显存控制器细节改进:● 改进几何着色性能● 纹理单元进一步增强,但所占比率下降● 光栅单元规模增大,高倍抗锯齿成为可能● 提高双指令执行(Dual-Issue)效率● 支持双精度64Bit浮点运算
面向通用计算领域:GF100如果说G80 GTX200在游戏方面发生了翻天覆地的变化 那么GF100带来不仅仅只是游戏方面的提高 更多的是面向通用计算领域 将GPU的全部能力展现的淋漓尽致 让我们来看看GF100都带来哪些变化GF100:NVIDIA声称Fermi GF100是一个全新架构并非没有道理。不但是通用计算方面,游戏方面它也发生了翻天覆地的变化,几乎每一个原有模块都进行了重组:有的砍掉了,有的转移了,有的增强了,还有新增的光栅引擎(Raster Engine)和多形体引擎(PolyMorph Engine)。光栅引擎严格来说光栅引擎并非全新硬件,只是此前所有光栅化处理硬件单元的组合,以流水线的方式执行边缘/三角形设定(Edge/Triangle Setup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作,每个时钟循环周期处理8个像素。GF100有四个光栅引擎,每组GPC分配一个,整个核心每周期可处理32个像素。多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(Viewport Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等五个方面的处理工作,DX11中最大的变化之一细分曲面单元(Tessellator)就在这里。GF100中有16个多形体引擎,每组SM一个,亦即每组GPC四个。多形体引擎绝非几何单元改头换面、增强15倍而已,它融合了之前的固定功能硬件单元,使之成为一个有机整体。虽然每一个多形体引擎都是简单的顺序设计,但16个作为一体就能像CPU那样进行乱序执行(OoO)了,也就是趋向于并行处理。NVIDIA还特地为这些多形体引擎设置了一个专用通信通道,让它们在任务处理中维持整体性。当然,这种变化复杂得要命,也消耗了NVIDIA工程师无数的精力、资源和时间。事实上可以这么说,多形体引擎正是GF100核心最大的变化所在,也是它无法在去年及时发布的最大原因。NVIDIA产品营销副总裁Ujesh Desai说过这么一句话:设计这么大的GPU实在是太TMD难了。其实,他指的并不是30亿个晶体管。这么做也是不得已而为之。考虑到细分曲面单元的几何复杂性,固定功能流水线已经不适用,整个流水线都需要重新平衡。通过多形体引擎的并行设计,几何硬件不再受任何固定单元流水线的局限,可以根据芯片尺寸弹性伸缩。和之前的GT200/G92以及AMD相比,GF100走上了另一条路,而且颇有要做CPU的架势。在每一组SM阵列里,纹理单元、一二级缓存、ROP单元和各个单元的频率也都完全不同于以往。每组SM里四个纹理单元,合伙使用12KB一级纹理缓存,并和整个芯片共享768KB二级缓存。每个纹理单元每周期可计算一个纹理寻址、拾取四个纹理采样,并支持DX11新的压缩纹理格式。ROP单元总共48个,分为六组,分别搭配一个64-bit显存通道。所有ROP单元和整个芯片共享768KB二级缓存(GT200里是独享)。除了ROP单元和二级缓存,几乎其他所有单元的频率都和Shader频率(NVIDIA暂称之为GPC频率)关联在一起:一级缓存和Sahder单元本身是全速,纹理单元、光栅引擎、多形体引擎则都是一半。对于GF100来说,想超频的话很多地方都要重新来过了。
以上讲述了NV显卡从第一代统一渲染架构到现在的整体变化过程 接下来 我们在看看ATI的变化
说到ATI的统一架构 那我们要回忆起当年的RV600 也就是2600PRO 2600XT 2900XT了 现在想想 仍然让我回味无穷!那么我们就来看看ATI的第一代统一架构RV600:虽然很多人对当时的RV600表现不是很满意 但如今的RV870所带来的成就 跟RV600也是息息相关的 所以RV600使我们不得不提。随着G80的推出 ATI也推出了自己相应的统一架构产品 虽然都是统一架构 但从细节方面讲还是有很多区别的 前面也提到ATI的GPU架构被称为"SIMD"架构 这是跟指令的分配方式有关 在这一点NV和ATI采用了不同理念设计 废话不多说 还是来介绍下RV600带来的架构上的变化R600核心还是采用了传统的SIMD架构,核心拥有64个Shader Units(又称Stream Processing Units),但它又在传统Shader基础上进行了该进,每个Shader内部包含了5个超标量ALU,因此AMD声称R600核心拥有64×5=320个流处理器。并且在每个SP当中除了5个ALU以外还有一个特殊处理单元来帮助SP完成复杂的函数操作R6XX采用了5D着色单元架构自从新一代的DX10显卡采用了统一的渲染架构,流处理器的数量就成衡量显卡性能的重要指标。2900XT拥有320个流处理器,是8800系列的2.5倍。2.512bit显存位宽2900XT拥有512bit的位宽,比DX9高出一倍,即使是8800系列最高也只有384bit。随着显卡位宽提高,显存带宽也得到了大幅提升。尽管2900XT的频率略低于8800系列,但凭借高位宽使其显存带宽仍高于8800系列。3.CFAA反锯齿技术ATI在新一代的DX10显卡中应用了新的CFAA技术,同倍数CFAA和8800系列的CSAA在画质上的差别不大,但经过仔细的对比,CFAA更胜一筹。4.Avivo HD音视频技术从名称中的“HD”字样我们可以看出,ATI的新一代Avivo技术除了视频引擎外还新增了音频引擎,其解码能力比NVIDIA的PureVideo更全面。512BIT显存控制器虽然ATI是首个引入512bit显存控制器的一方 但由于当时核心效率问题 导致512BIT控制器在性能提高方面并没有多大帮助
好吧 因为审核原因导致我的RV670没办法发出来那么我就在此简单的说下RV670的变化RV670:从架构方面讲 RV670和RV600几乎相同 但从细节方面来说又有不同之处RV670继续支持最高8倍的标准MSAA(Multisampling Anti-aliasing)。MSAA拥有相对更为广泛的适用性和优秀的画面品质,但其对显卡本地内存容量和GPU的计算能力要求均较高,即使这样,大多数用户还是会选择这种模式进行游戏,典型的设置是开启4倍MSAA,并同时开启16倍的各向异性过滤。
AMD RV670 GPU
正如前文提到,RV670除了保留R600强悍的3D加速架构并细微调节更新支持至DirectX 10.1之外。这款GPU的最大改进在于它使用55nm工艺制造!RV670是全球第一款55nm工艺的GPU芯片,AMD再一次在制造工艺上走到了NVIDIA前面。
R600和RV670的比较
55nm的优势是提高集成度并缩小核心面积,RV670内含6.6亿个晶体管,因内存控制器位宽减半而低于R600,其核心面积只有192平方毫米。
RV670的其他特点还有内置256bit位宽的内存控制器及符合PCI Express 2.0规范的I/O接口。其着色器和整个GPU运行频率同步,Radeon HD 3850的标准核心频率设定为670MHz,Radeon HD 3870则超过775MHz。
● 来自移动平台的先进技术PowerPlay
55nm制造工艺本身已经让RV670功耗相对降低,AMD还特别的在这款桌面及GPU引入了移动平台上的PowerPlay技术进一步降低显卡的整体功耗。
PowerPlay技术并不复杂,它的原理是动态频率调节,驱动程序将根据GPU的3D加速应用负载来自动控制GPU的实际运行频率,只有运行重负载3D程序时显卡系统才会全速运行。
gpu性能优越,通过国家权威认证! 通过国家3C质量认证!免费样机测试.gpu整机三年免费质保.
● 内置数字音频及领先的UVD
RV670相对R600的最后一个不同电视塔全面支持AMD高清视频解码技术UVD(Unified Video Decoder),之前只有RV630/RV610拥有的这项功能现在也在高性能GPU上得到实现。
UVD是VC-1和H.264全面的解决方案
一代王者RV770:相比起GT200来说,RV770的发布并没有太大的轰动,但RV770后来的表现却让人不得不去关注它!让我们来鉴赏下这曾经备受关注的王者。RV770:从上图我们可以看出RV770的SIMD阵列扩充为10组,是原来的RV670的2.5倍,流处理器数量也由320个增加到800个。而且每组SIMD还绑定了专属的缓存及纹理单元,寄存器的容量也有所增加,纹理单元相应增加到10组,总数达到40个。如此规格让人惊叹!了解了架构变化后我们就具体的研究下RV770带来的一些新特性业界提出每瓦性能以及每平方毫米性能的首款GPU目前整个IT行业都朝着节能方面着手,主要是因为显卡由于集成了大量的晶体管因而导致了高能耗低效率的惯有设计思路,同时还因为除了CPU之外,GPU已经成为了性能剩余最为突出的电脑配件之一,不断的提升显卡性能,已经远远超越了当今主流游戏所需要的硬件范畴。ATi则将GPU的设计思路由性能提升到节能+效益提升为主的转变。通过上图可以看到,X19XX系列以及HD29XX系列在功耗节能上几乎不能让人满意,但到了HD38XX系列甚至是HD48XX系列,ATi已经开始注重GPU的节能技术,这就是ATi提出的每瓦性能以及每平方毫米性能的概念,这在GPU上还是业界首创。
第二代Power On Demand节能技术RV770不仅拥有高效益的硬件规格,55nm技术亦已被ATi利用得炉火纯青的境界。RV770还通过第二代的Power On Demand节能技术,来实现与RV670相当的PowerPlay技术,RV770闲置待机时核心频率将直接下调到160MHz,显存频率更是直接下调到1000MHz附近,功耗和发热量都得到有效保证。业界第一款GDDR5显存的显卡由RV670开始,ATi一直坚持使用最顶尖的显存技术来满足GPU对于带宽的需求,对比起已经多代使用GDDR3颗粒的NVIDIA来说,勇敢的尝试带来的收效是让人满意的。由GDDR4到GDDR5的使用,GPU能够利用的带宽越来越大,也意味着在不提高GPU周边成本太大的情况下,保持让GPU发挥的更佳水准。举个例子,RV770使用了GDDR5显存,由于GDDR5的高频特性,因而在使用256Bit位宽的情况下,能够在性能上与512Bit GDDR3几乎相同的位宽。这样的好处是显而易见的,通过减少位宽,显卡上将可以使用更少的显存颗粒来节约一半以上的成本,同时,设计显卡PCB时候就能减少走线的复杂程度,形成一个对显卡成本更有效利用的良性循环。Direct 10.1球体光影效果ATi继续支持业界领先的DX10.1,相比DX10,DX10.1拥有更出色的光影互动,而且拥有更好的效能表现。
RV770相比RV670主要优化了上图的部分,相比RV770,渲染单元能够共享更大的二级缓存,并让显存读写缓存能够直接抽取二级缓存的数据,加速了核心与渲染单元直接的效率。同时,渲染单元还可以直接与显存控制器交换数据。下图则是单个渲染单元改进大图:
当明白了RV770主要改进点之后,我们不难发现,其实NVIDIA和ATi都使用了不同的方式来进行相同的事情,加大单个核心对于缓存读写大小的权限以及加大缓存,这样的好处是显而易见的:开启全屏抗锯齿以及各向异性将不会再损失更多的周期,因而效率更高,这也是首次在统一渲染架构的GPU上看到加大缓存改进措施。
RV870 “双核”造就王者!
在讲解RV870之前 我们先来看看AMD的产品目标:首颗支持DirectX 11的GPU; 提供最强DX9/10/10.1性能; 为最新的OpenCL 1.0和DirectCompute 11通用计算API提供优化支持; 在功耗不变的情况下实现规格和性能翻倍;支持3屏甚至6屏超大画面输出。-架构解析--自从DX10时代以来,ATI和NVIDIA双方的GPU架构就没有多大变化,NVIDIA的G9X和GT200都沿用了G80的MIMD(多指令多数据流)标量流处理器架构,而ATI则一直使用R600上面的SIMD(单指令多数据流)超标量流处理器架构。
RV870的核心架构与R600、RV670和RV770没有本质区别,它是一颗用新工艺制造的、用大量晶体管堆积而成的超高规格GPU。唯一遗憾的就是,RV870的显存控制器位宽没有翻倍,只是将GDDR5的显存频率进一步提升。因此HD5870的实际游戏性能不可能达到HD4890的两倍,只能是接近两倍。
RV870竟然是单芯片“双核心”GPU 细心的朋友应该会发现,此次RV870的核心架构图很有特点,那就是流处理器部分并不是完整的一块,而是被切割为左右对称的两半部分,与之关联的纹理单元及一级缓存也被一分为二:如果单独拿一半流处理器出来观察的话,就会发现它的结构与RV770几乎没有区别,RV870的一半就是RV770,其主要规格如下: 左右各10组SIMD阵列,每组SIMD绑定4个纹理单元及缓存; 每组SIMD阵列当中拥有16个线程处理器; 每个线程处理器中包括5个流处理器。
这样的结构与双核CPU十分相似,两颗“核心”各自独立,独享L1、共享L2和内存控制器等其他总线模块,而两颗“核心”之间则通过专用的数据共享及请求总线通信。那为什么不把流处理器想以前那样设计成为一个整体而要分为两个模块呢?AMD绘图芯片研发高级总监王启尚指出,RV870核心拥有规模空前的21.5亿个晶体管,芯片设计及制造难度都相当高,如果把最复杂的流处理器部分拆分为几个模块的话,复杂度就会大大降低,这就能极大的加快研发进度,并一定程度上提高芯片良品率。
当然RV870依然是一颗完整核心,流处理器部分的模块化设计并不会影响性能的发挥,因为GPU本身就是一颗拥有超多核心的处理器,它并不像CPU那样受到软件因素的制约。但如果两颗独立的GPU通过交火模式组成双核心显卡的话,显卡驱动和游戏优化就变得极为重要了。
RV870核心控制引擎 R870的图形架构可以拆分为以下几个模块,一个一个来看都有什么改进:Command Processor(指令处理器)
Graphics Engine(图形装配引擎)
Ultra-Threaded Dispatch Processor(超线程分配处理器)
Stream Processing Units(流处理器)
Texture Units(纹理单元)
Cache & Buffer(缓存及缓冲区)
Shader Export & Render Back-Ends(像素输出部分)
Memory Control(显存控制器)
Display Controllers(输出接口控制器)● Command Processor(指令处理器)
Command Processor负责从PCI-E总线发出或者接受指令流,让GPU在驱动程序给定的时间间隔中完成恒定数据流操作,此过程需要通过Parallel DMA Engine,调用系统内存或者是本地显存的相关资源。 ● Graphics Engine(图形装配引擎)
之前这个模块被称为Setup Engine,是GPU负责指令分配和安装的模块,主要负责给GPU内部各大模块将要执行的指令准备数据,我们将其称之为装配引擎。装配引擎之中有很多模块,包括Tessellator(镶嵌器)、Vertex Assembler(顶点装配器)、Geometry Assembler(几何装配器)、Rasterizer(光栅器)、Hierarchial-Z(多级Z缓冲模块)等。
RV870相比RV770,最主要的变化就是拥有两个光栅器和多级Z缓冲模块,而此前的GPU都只有一个。这可不是因为RV870本身是“双核”的关系,因为顶点装配器和几何装备器都只有一个。
装配过程:顶点数据装配完毕后,顶点三角形内插操作不再使用独立的硬件单元,而是交由流处理器处理,由DX11中新增的外壳着色器和域着色器替代,这两个着色器将辅助镶嵌器进行细分操作,生成新的顶点。
接下来三角形顶点的2D坐标信息经过Rasterizer(光栅器)之后就得到了像素信息,也就是得到了屏幕上每个点的数据信息。进行这部分操作的时候也经过扫面转换生成了每个点的Z轴信息,这些信息将被传输到Z轴缓冲之中,以备后用。
现在我们就可以理解为什么RV870要设计两个光栅器和多级Z缓冲模块了,因为DX11 Tessellator的关系,最终的模型将变得十分复杂,需要处理的指令数量很多,合理的分配任务并暂存数据很关键。RV870改进了连续存取缓存时的性能。
Hierarchical Z是一项非常智能的技术,在GPU完成坐标转换之后,Hierarchical Z会不断对比各个顶点的Z轴位置,一旦Hierarchical Z发现这个顶点不需要显示,将会直接将其剔除避免后续无效渲染,它将有效控制由Tessellator所带来的性能损失。
即便是在DX9或DX10应用中,双倍的Rasterizer和Hierarchical Z也能大幅提升GPU在高分辨率和多屏超高分辨率下的性能表现。 ● Ultra-Threaded Dispatch Processor(超线程分配处理器)
最后,所有的像素/顶点/几何/纹理/颜色等数据经过Interpolators(排序器)之后交给Shader进行处理,当然在此之前还有一项必备的工序,那就是数据的重新封装打包,以及指定相应的统一渲染单元运算,这部分任务由超线程分配处理器完成。
RV870流处理器规格特性解析继续将RV870的SIMD阵列放大,就可以看到其流处理器的微观架构了。RV870总共拥有320个Thread Processor(线程处理器),这是它不可分割的最小单元,相当于以前的Shader Unit,每个线程处理器内部又包含了5个功能各异的处理核心,因此RV870总共拥有1600个流处理器:在线程处理器内部,这5个流处理器是在Branch Unit(分歧执行单元)的控制下处理数据流和条件运算,在General Purpose Registers(通用寄存器)中存取或输出数据,但并不存放指令。与传统GPU ALU架构不同的是,这5个流处理器可以在动态流控制的支配下自由的处理任何组合形式的指令,诸如1+1+1+1+1、2+2+1、4+1等组合形式。宏观上RV870依然是SIMD(单指令多数据流)矢量架构,但在微观上可以称之为超标量架构(Superscalar),完美支持Co-issue(矢量指令和标量指令并行执行),单时钟周期可以进行5次MAD(Multiply-Add,乘加)运算。另外还可以看到,5个1D ALU其中有个“胖”一点的,它除了MAD之外还能够进行一些特殊(SIN、COS、LOG、EXP等函数)运算,在特殊条件下提高运算效率!
在流处理器部分,RV870加入了DX11新增的位操作类指令,并优化了Sum of Absolute Differences(SAD,误差绝对值求和)算法,指令执行速度提升12倍,此项指令可以在OpenCL底层执行。SAD算法应用最多的就是H.264/AVC编码的移动向量估算部分(约占整个AVC编码总时间的80%),如此一来使用RV870做视频编码类通用计算时,性能会大幅提升!
RV870的单精度浮点运算能力为2720GFLOPS,双精度浮点运算能力为单精度的1/5,也高达544GFLOPS。对手GTX285的单精度浮点运算能力为1063GFLOPS,但双精度下降为1/8,仅133GFLOPS,很难满足高精度的科学计算领域的需要。 第五章/第五节 纹理单元和缓存 ● 图形渲染部分:
RV870的纹理单元及一级缓存是与SIMD流处理器阵列绑定的,左右各10组SIMD阵列,每组SIMD绑定4个纹理单元及缓存。虽然RV870的流处理器及纹理单元数量全面翻倍,但是每组SIMD阵列所独享的数量却没有增多,但RV870对它做了一些改进。
纹理带宽提升:每秒可完成680亿次双线性过滤,2720亿次32bit纹理拾取 一级缓存:容量160KB,带宽1TB/s 二级缓存:容量512KB,带宽435GB/s 新的DX11特性:支持16kx16k纹理,新的BC6/7 HDR纹理压缩算法
除了DX11的新特性外,RV870在纹理单元部分的改进可以让所有游戏受益,它可以支持完美无角度的各向异性纹理过滤,而性能衰减幅度与之前的AF算法一致,通过理想的细节度调整确保更高的纹理贴图质量。● 通用计算部分:全芯片共享一个64KB的Global Data Share(公用数据缓存)
每个SIMD阵列共享32KB本地数据缓存,共20组,可弹性配置
纹理单元在通用计算中负责数据拾取,每组纹理单元(4个)共享8KB一级缓存,共20组
每个显存控制器绑定128KB二级缓存
支持DirectComput 11中的附加缓冲利用技术 更高频更节能的第四代GDDR5
RV770首次了GDDR5显存,但其威力尚未被完全释放出来,HD4870的显存频率只有900MHz(等效3600MHz),而且由于是第一代产品,GDDR5很多优秀的特性没能得到发挥,导致功耗与发热比较大。
GDDR5标准是在AMD的主导下建立的,在发现问题之后,AMD在RV790核心与RV740核心中改进了显存控制器,解决一些问题,从而使得GDDR5的功耗得到了很好的控制。RV870核心则再次改进了显存控制器,AMD称这已经是第三代GDDR5显存,此次GDDR5的频率被一举提升至1200MHz(等效4800MHz),真正达到了双倍于GDDR3的频率,与此同时功耗控制却做的相当出色,使得HD5870空闲时的功耗得以降至难以想象的27W! ● RV870为什么不使用384/512Bit显存控制器?
通过前文的介绍可以知道,在RV870内部几乎所有的硬性规格都翻了一倍,唯独显存控制器依然保持256Bit不变。要知道光有翻倍的流处理器和纹理单元,还不足以使得RV870的游戏性能相比RV770提升一倍,那为什么RV870不使用更高的384或者512Bit显存控制器呢?
AMD绘图芯片研发高级总监王启尚指出,由于GDDR5显存的频率是GDDR3的两倍,因此上代的HD4870和HD4890能够以256bit达到接近于512bit的显存带宽,超过100GB/s的显存带宽对于RV770/RV790核心来说有些富裕,因此玩家们超显存所带来的性能提升并不显著,超核心则能获得较大的提升。
对于RV870核心来说,由于流处理器、纹理、光栅全面翻倍,对于显存带宽的需求也水涨船高,此时第一代GDDR5的带宽有些捉襟见肘,所以AMD使用了频率更高的第三代GDDR5,此时150GB/s的带宽虽然还是满足不了RV870的胃口,但也不至于造成瓶颈,玩家们通过超核心和超显存都能获得较大幅度的性能提升,可以说核心规格和显存规格达到了一个比较平衡的比率。
如果使用512Bit显存控制器的话,自然也能获得性能提升,但是要付出很大的代价——512Bit控制器要占据不少晶体管,使得GPU核心面积大增,而且512Bit需要至少16颗显存,显存采购成本和PCB及供电设计难度都很大,可谓是牵一发而动全身,得不偿失。 ● GDDR5显存的主要特性及优势: 使用DDR3的8bit预取技术,实现相同带宽所需的内核频率减半;
采用双I/O总线,实现相同带宽所需的I/O频率减半;
额定电压从1.8V降至1.5V:功耗进一步下降;
数据和地址总线转位技术:信号质量高、功率消耗少;
智能的可编程I/O控制接口:简化PCB设计和成本;
数据遮盖技术:减轻数据总线压力;
关于GDDR5显存更详细的技术解析请看“剪不断理还乱!DDR1-3和GDDR1-5全解析”一文。● HD5870第三代GDDR5显存的特性: 错误侦测和校验:提高高频率下的传输效率,避免灾难性错误;
显存频率和温度补偿:在5GHz以上高频率下工作时更稳定可靠
电压和频率快速切换:允许通过降频和降压的手段大幅降低显存功耗与发热
完毕!!特发此贴 供本吧吧友们学习交流!!
此帖转自电脑吧
mark,谢谢,接下来做好功课慢慢品位
帮顶。。没找到SIMD的弊端。。。
留名,要认真研究一下
水哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈
大神看得不是很懂
好深奥 一脸懵逼啊
登录百度帐号

我要回帖

更多关于 显卡构架 的文章

 

随机推荐