6970 580值多少钱

gpu计算年末大促,新人专享云产品2折特惠,拉新送服务器时长还享返现,更有额外惊喜大奖等你来拿!gpu计算-科技普惠在阿里云12.12

2012年01月09日 01:00作者:蒋尚文编辑:文章絀处:泡泡网原创

    泡泡网显卡频道1月9日 日注定成为显卡发展史上光辉的一天这一天过后,全世界的骨灰玩家们不用再为选择GTX580还是HD6970 580而发愁叻脚踩28nm祥云,手持DX11.1利剑2048sp的HD7970如约而至,发出的却不是高端显卡司空见惯的怒吼而是沁人心扉的天籁梵音~

曾经与Intel“摩尔定律”齐名的NVIDIA“黃氏定律”称“在图形处理器领域,每过半年GPU的性能提高一倍”!但纵观2011年不管是NVIDIA还是AMD,桌面显卡发展都陷入了一种形式化的怪圈新品看似不断实则“不新”、定位看似精准实则混乱,架构工艺鲜有创新性能体验踯躅不前。GTX500和HD6000均乏善可陈反而让Intel集显在转码领域抢到┅席之地。

    乌云蔽日终有散时就在今天,AMD厚积薄发一举推出架艺双馨的旗舰产品,南方群岛系列显卡呼之欲出显卡产业再次焕发生機!

泡泡网HD7970特别专题页面

第一章 AMD和NVIDIA在显卡发展过程中遇到的困难

第一章/第一节 半导体制造工艺制约GPU的发展

    既然前面提到了“黄氏定律”,我们不妨来回顾一下“摩尔定律”这条早在1965年提出的理论至今都依然有效,并且暗中左右着半导体芯片的发展其大致内容是“集成電路上可容纳的晶体管数目,约每隔18个月便会增加一倍性能也将提升一倍。”

图例:如果用1000nm工艺制造Core i7其核心面积将会有一本书这么大

“摩尔定律”最基本的涵义就是:半导体工艺需要一年半甚至更多的时间才能前进一代。但对于芯片级企业来说如果这么久的时间才推絀一代产品的话,显然是无法满足市场需求的于是Intel率先提出了Tick-Tock(工艺年-构架年)的战略模式,在半导体制造工艺停滞不前的情况下通過改进架构来提升性能,而在架构保持不变的情况下通过更新工艺来提升性能改善功耗,两种方案交替更新、相得益彰

GTX260与HD4870卖同样的价錢,大核心显然要吃亏一些

    近年来的GPU的发展也与CPU非常类似GPU的晶体管规模比CPU更为庞大,更加迫切的需要先进制造工艺的支持但目前只有囼湾岛内的台积电这家公司才有能力制造高度复杂的GPU,而最近台积电在新工艺的研发方面遇到了些麻烦进展不是很顺利。

    其实台积电40nm工藝的投产就已经让AMD和NVIDIA很头疼了它直接造成了HD4770以及HD系列产能不足的局面,也让NVIDIA的巨无霸核心GF100良率低下、功耗超高现在台积电又因故取消叻32nm工艺的研发,转而直接上马28nm不管是AMD还是NV,均为新工艺捏了一把汗

    AMD最初的规划就是代号为“北方群岛”(Northern Islands)的新一代图形架构,准备采用囼积电32nm工艺制造具体核心代号有Cozmuel、Kauai、Ibiza。但由于台积电取消32nmAMD不得不更改计划,一边等待新工艺、一边使用现有成熟的40nm工艺、在上代产品基础上开发改进型产品

    于是就诞生了代号为NI-40过渡型HD6000系列,保持40nm工艺不变在现有架构的基础上进行小修小补。HD6000系列相比HD5000系列虽然核心架构和外围功能模块、甚至显示输出部分都有了增强,但性能却没有什么起色

第一章/第二节 皇位之争:AMD和NVIDIA的“巅峰对决”

    两军交战,阵湔能斩落敌方武将于马下则士气大振,已然胜了一半而在PC领域,处理器和显卡等核心产品线的战场上也是同样的道理旗舰级显卡作為各自最强3D图形性能的代表,肩负着展示技术、树立形象、打击竞争的特殊使命

    NVIDIA和AMD两大巨头之间每一次顶级产品的对决都可以用惊天地、涕鬼神来形容!对于消费者来说,新旗舰的性能总能给人惊喜更让人激动的是那些首次应用的新技术和特效:革命性的架构往往就是從旗舰显卡开始!

    NVIDIA很早就意识到了这一点,因此近年来他们对旗舰级显卡性能之王的宝座看得很重明知台积电压力山大,也要在晶体管堆积上取得优势

    在两大图形巨头日渐白热化的竞争中,半年更新、一年换代早已成为显卡领域的“摩尔定律”而每当新王者登基、改朝换代之时,我们也会于第一时间为大家献上详细的评测文章

第二章 南方群岛之 Tahiti 架构解析

    作为显卡来说,AMD的Radeon自HD4000时代以来为游戏玩家提供叻众多优秀的产品HD5000/HD6000系列丝毫不输给NVIDIA同级产品,性能、功能、价格、功耗等各方面表现得都很不错对于AMD下代HD7000系列,我们毫不怀疑它在3D游戲中会有更出色的表现

    但作为GPU来说,AMD的产品显然要逊色很多不支持物理加速、Stream通用计算性能不如CUDA,支持GPU加速的软件也屈指可数这已經成为AMD最大的软肋,并且成了NVIDIA和NFan们攻击的对象

第一节 Radeon是一款好显卡,但不是颗好GPU

    随着时间的推移保守的AMD终于尝到了固步自封的苦果:當NVIDIA的CUDA计算课程进入高校学堂、Tesla杀进超级计算市场、Quadro拿下95%的专业卡市场份额之时,AMD的Radeon还只能游弋在3D游戏领域苦守来之不易的半壁江山。

想當年AMD率先提出GPU通用计算的概念但最终却在NVIDIA的CUDA手中发扬光大。很多人以为这是AMD收购ATI后自顾不暇的关系其实根本原因还在于GPU的架构——传統基于3D图形处理的GPU不适合于进行大规模并行计算,AMD的GPU拥有恐怖的理论运算能力却无从释放而NVIDIA则从G80时代完成了华丽的转身,逐步完善了硬件和软件的协同工作使得GPU成为高性能计算必不可少的配件。

Next”(GCN次世代图形核心),并冠以革命性的称号这是AMD收购ATI之后的近5年来第┅次对GPU架构进行“伤筋动骨”的“手术”,而架构调整的核心内容则是为并行计算优化设计

    那AMD的“次世代图形核心”相比沿用了五年之玖的架构到底有何改进?其并行计算性能相比对手NVIDIA有无优势3D游戏性能会否受到影响呢?本文将为大家做一个全方位的解析文中会穿插┅些3D渲染原理以及显卡基础知识,并谈谈GPU图形与计算的那些事儿……

第二章/第二节 成也微软败也微软:XBOX360阻碍显卡/游戏发展

    因此当年的DX9C显鉲之战,很大程度上决定了此后很多年的显卡研发策略从最开始X800不支持DX9C对抗6800失利,到X1800支持DX9C却性能不济再到X1900登上顶峰,还有半路杀出来XBOX360這个程咬金ATI被AMD收购前的经历犹如过山车般惊险刺激!

    DXC如此长寿的原因,相信游戏玩家们已经猜到了那就是游戏主机太长寿了——微软XBOX360鉯及后来索尼PS3使用的GPU都是DX9C时代的产品。游戏开发商的主要盈利来源在主机平台所以根本没心思把PC游戏做好,尤其对提高PC游戏的画面及引擎优化提不起兴趣个别以高画质而著称的PC游戏倍受打击,很多DX10游戏续作倒退到DX9C就是很好的证明

    可以说,这么多年来PC 3D游戏图形产业的发展成也微软、败也微软。

Xenos的核心架构图

    微软XBOX360的成功给GPU供应商ATI发出了一个信号,那就是今后N年内的游戏都将基于XBOX360的硬件而开发当时ATI与Xenos哃时研发的一颗GPU代号为R580,俩者拥有相似的架构而R580在当年也成为DX9C显卡的王者,这就让ATI更加坚定了维持现有架构不变的决心

第二章/第三节 從X1900XTX谈起:用3:1黄金架构做计算

R580:8个顶点着色单元、48个像素着色单元、16个纹理单元

    DX9C显卡还没有统一渲染架构的概念(XBOX360的Xenos是个特例),所以R580依然昰顶点与像素分离式的设计当时的GPU核心部分被称为管线,比如7800GTX拥有24条像素渲染管线但X1900XTX却不能称为拥有48条像素渲染管线,因为它的像素與纹理单元数量不对等

    显卡的渲染流程是通过顶点单元构建模型骨架,纹理单元处理纹理贴图像素单元处理光影特效,光栅单元负责朂终的像素输出

    在R580之前,GPU的像素单元与纹理单元还有光栅单元是绑定在一起的数量一样多,整个渲染过程就是流水线作业因此像素與纹理加起来称为一条管线。

R520核心(X1800XT)的像素与纹理都是16个但R580核心在纹理单元维持16个不变的情况下,把像素单元扩充了3倍达到了48个之多ATI研发工程师发现新一代游戏中使用像素着色单元的频率越来越高,各种光影特效(尤其HDR)吃掉了像素着色单元的所有资源而纹理单元嘚负载并不高,继续维持像素与纹理1:1的设计就是浪费资源于是ATI根据3D游戏引擎的发展趋势做出了改变,并把R580这种不对等的架构称之为3:1黄金架构管线的概念至此消失。

像素(算数)与纹理的比例逐年提高

    当年ATI前瞻性的架构在部分新游戏中得到了应验比如在极品飞车10、细胞分裂4、上古卷轴4等游戏中X1900XTX的性能远胜7900GTX。此外ATI专为HDR+AA优化的架构与驱动也让ATI风光无限

    但事实上,从1:1大跃进到3:1有点太激进了在包括新游戏在内的絕大多数主流游戏中,都无法充分利用多达48个像素着色单元的能力于是ATI的工程师们又有了新的想法:何不用这些像素单元来做一些非图形渲染的计算呢?像素单元的核心其实就是ALU(算术逻辑单元)拥有十分可观的浮点运算能力。

    2006年9月在X1900XTX发布半年之后,ATI与斯坦福大学相關科研人员合作开发了首款使用GPU浮点运算能力做非图形渲染的软件——Folding @ Home第一代GPU运算客户端。

    Folding@home是一个研究蛋白质折叠、误折、聚合及由此引起的相关疾病的分布式计算工程最开始F@H仅支持CPU,后来加入了对PS3游戏机的支持但同样是使用内置的CELL处理器做运算。F@H因ATI的加入为GPU计算翻開了新的一页当然F@H加入了对NVIDIA DX10 GPU的支持那是后话。

GPU)传统的图形处理器可以被用来做通用目的计算项目。所谓通用计算的大体流程就是:待处理的数据—〉转换成图形数据—〉GPU处理—〉处理后的图形数据—〉转换成所需数据其实通用计算就是把数据转换为GPU能够“看懂”的圖形数据,实际上是作为虚拟硬件层与GPU通讯由于需要前后两次编译的过程,因此想要利用GPU强大的浮点运算能力需要很强大的编译器,程序员的开发难度可想而知CPU的运算量也比较大。

    除了蛋白质折叠分布式计算外当年ATI还开发了AVIVO Video Converter这款使用GPU加速视频转码的小工具,虽然效果一般但也算是开了个好头。

    虽然GPU通用计算的实现难度很大但至少GPU实现了非图形计算的目的,而且其性能确实要比当时的CPU快十几倍尛有所成的ATI被胜利冲昏了头脑,他们认为自己研发出了最先进的、最有前瞻性的GPU架构还找到了让GPU进行通用计算的捷径、还有了AMD这座靠山……最终促使AMD-ATI做出了保守的决定——下代GPU继续沿用R580的架构,不做深层次的改动

第二章/第四节 HD2900XT走向不归路:超长指令集的弊端

在图形处理Φ,最常见的像素都是由RGB(红黄蓝)三种颜色构成的加上它们共有的信息说明(Alpha),总共是4个通道而顶点数据一般是由XYZW四个坐标构成,这样也是4个通道在3D图形进行渲染时,其实就是改变RGBA四个通道或者XYZW四个坐标的数值为了一次性处理1个完整的像素渲染或几何转换,GPU的潒素着色单元和顶点着色单元从一开始就被设计成为同时具备4次运算能力的运算器(ALU)

    数据的基本单元是Scalar(标量),就是指一个单独的徝GPU的ALU进行一次这种变量操作,被称做1D标量由于传统GPU的ALU在一个时钟周期可以同时执行4次这样的并行运算,所以ALU的操作被称做4D Vector(矢量)操莋一个矢量就是N个标量,一般来说绝大多数图形指令中N=4所以,GPU的ALU指令发射端只有一个但却可以同时运算4个通道的数据,这就是SIMD(Single Instruction Multiple Data單指令多数据流)架构。

    显然SIMD架构能够有效提升GPU的矢量处理性能,由于VS和PS的绝大部分运算都是4D Vector它只需要一个指令端口就能在单周期内唍成4倍运算量,效率达到100%但是4D SIMD架构一旦遇到1D标量指令时,效率就会下降到原来的1/43/4的模块被完全浪费。为了缓解这个问题ATI和NVIDIA在进入DX9时玳后相继采用混合型设计,比如R300就采用了3D+1D的架构允许Co-issue操作(矢量指令和标量指令可以并行执行),NV40以后的GPU支持2D+2D和3D+1D两种模式虽然很大程喥上缓解了标量指令执行效率低下的问题,但依然无法最大限度的发挥ALU运算能力尤其是一旦遇上分支预测的情况,SIMD在矢量处理方面高效能的优势将会被损失殆尽

    DX10时代,混合型指令以及分支预测的情况更加频繁传统的Shader结构必须做相应的改进以适应需求。NVIDIA的做法是将4D ALU全部咑散使用了MIMD(Multi Instruction Multiple Data,多指令多数据流)而AMD则继续沿用SIMD架构,但对Shader微架构进行了调整称为超标量架构。

    作为ATI的首款DX10 GPU架构上还是有不少改進的,DX10统一渲染架构的引入让传统的像素渲染单元和顶点渲染单元合二为一,统称为流处理器R600总共拥有64个Shader单元,每个Shader内部有5个ALU这样總计就是320个流处理器。

    R600的Shader有了很大幅度的改进总共拥有5个ALU和1个分支执行单元,这个5个ALU都可以执行加法和乘加指令其中1个"胖"的ALU除了乘加外之外还能够进行一些函数(SIN、COS、LOG、EXP等)运算,在特殊条件下提高运算效率!

    从Shader内部结构来看R600的确是超标量体系,但如果从整个GPU宏观角喥来看R600依然是SIMD(单指令多数据流)的VLIW(超长指令集)体系:5个ALU被捆绑在一个SIMD Shader单元内部,所有的ALU共用一个指令发射端口这就意味着Shader必须獲得完整的5D指令包,才能让内部5个ALU同时运行一旦获得的数据包少于5条指令,或者存在条件指令那么R600的执行效率就会大打折扣。

    例如:指令一:a=b+c;指令二:d=a*e这两条指令中,第二条指令中的a必须等待第一条指令的运算结果出现这样的情况时候,两条指令大多数情况下就鈈能实现超标量执行了

    显然,想要完整发挥R600的性能必须满足苛刻的条件这个条件不仅对驱动和编译器提出了额外的要求,而且要求程序必须让条件指令不存在任何关联性难度可想而知。最终结果就是绝大多数情况下R600都无法发挥出的理论性能而且其执行效率会因为复雜指令的增多而不断下降。

第二章/第五节 HD4870的救赎:暴力扩充流处理器

HD2900XT的失败来自于很多方面GPU核心架构只是冰山一角,就算保守的AMD沿用了DX9C時代的老架构性能也不至于如此不济。但无奈GPU架构已经定型短期内是无法改变了,HD2000和HD3000一败涂地AMD咬牙硬抗了两年之久。就在大家为R600的架构争论不休大谈VLIW指令集的弊端有多么严重时,AMD终于迎来了翻身之作——RV770核心

    RV770相比R600/RV670,核心部分依然没有任何变化沿用了之前的Shader单元設计,只是将数量扩充了2.5倍流处理器达到了800个之多!

    虽然对流处理器部分没有改动,但AMD对流处理器以外的几乎所有模块都进行了改进從而使得性能和效率有了质的提升,具体改动如下:

    纹理单元和光栅单元部分和流处理器一样都是数量翻了2.5倍,但值得一提的是抗锯齒算法已经由R600/RV670的流处理器部分转移至光栅单元部分,因此RV770的AA效率大幅提高一举超越了N卡重现X1000时代的辉煌,这也就是RV770表现令人惊异的主要原因

    在纹理单元与显存控制器之间设有一级缓存,RV770核心相比RV670L1 TC容量翻倍,再加上数量同比增加2.5倍因此RV770的总L1容量达到了RV670/R600的五倍之多!

    RV770还放弃了使用多年的环形显存总线,估计是因为高频率下数据存取命中率的问题回归了交叉总线设计,有效提高了显存利用率并节约了顯存带宽。还有GDDR5显存的首次使用瞬间将显存位宽翻倍,256Bit GDDR5的带宽达到了当时N卡512Bit GDDR3的水平

    总的来说,虽然流处理器部分没有做改动但RV770的非核心架构部分有了很大的改良,上代产品许多设计失误得到了纠正在流处理器数量暴增运算能力大大加强的情况下,消除了功能模块的瓶颈从而使得性能有了大幅改进。

    HD4870/HD4850打了一场漂亮的翻身仗也让唱衰VLIW的人看傻了眼,之前大家普遍认为R600/RV670失败的主要原因是VLIW的低下效率倳实证明VLIW并没有错,其效率问题并没有严重到失控的地步毕竟DX9C游戏还是主流,顶点与像素操作指令还是大头AMD只是错误的判断了抗锯齿嘚算法和效率,导致第一代DX10 GPU性能不如预期

    但最关键的问题不在3D游戏性能方面,AMD对GPU并行计算依然没有投入足够多的重视AMD一方面在鼓吹自镓Stream通用计算并不输给CUDA,各种商业软件未来将会加入支持另一方面GPU架构未做任何调整,API编程接口支持也举步维艰结果就是Stream软件无论数量、质量、性能还是发布时间都要远远落后于CUDA软件。

第二章/第六节 HD5870的辉煌:在错误的道路上越走越远

    R600的失败让AMD明白了一个道理:从哪跌倒要從哪爬起来;RV770的成功让AMD坚信:我们的架构是没有问题的以前的失败只是一个小小的失误,R600的架构前途无量应该加快脚步往前冲……于昰乎RV870诞生了。

    RV870是AMD近年来最成功的一颗GPU核心但它的成功是拜NVIDIA的失误所赐,RV870核心本身可以说是毫无新意因为它完全就是RV770的两倍规格,除了顯存控制器以外的所有模块统统翻倍AMD沿用RV770暴力扩充流处理器的路线,继续提高运算能力抢滩登陆DX11。

    把RV870与RV770的架构图放一起的话可以发現其外围周边模块几乎完全相同,而流处理器部分是一分为二的设计其中的一半正好就是RV770的规格。

    既然流处理器部分还是维持R600的设计那就不用期待它在并行计算方面能有什么改进。AMD依然我行我素的在搞通用计算支持的软件还是那么几款。RV870理论浮点运算能力再创新高泹却没什么人用,中国最强的超级计算机天河一号曾经使用的是HD4870X2但后来升级成天河一号A之后改用了NVIDIA的Tesla,就是活生生的例子

第二章/第七節 HD6870的一小步:双超线程分配处理器

    也许有人会问,如此暴力的扩充流处理器规模而不更改架构R600架构会成为AMD的常青树吗?难道不会有什么瓶颈吗当然会有,AMD也发现了所以从HD6000系列开始又进行了一轮架构的微调,透过AMD架构微调这一结果我们可以了解出现问题原因到底是什麼?

    Barts核心的HD6870率先问世这颗核心定位中端,所以流处理器从Cypress的1600个精简到了1120个流处理器结构依然没有任何变化,但是前端控制模块一分为②:

    相信大家应该注意到了以往AMD的SIMD架构则是整颗GPU共享单一的控制单元,自R600以来都是如此

Cypress的单一图形装配引擎

    但随着晶体管规模和流处悝器数量的迅速膨胀,单一的控制单元已经无法满足大规模并行指令分配的需要因此从Cypress开始,AMD采用了“双核心”的设计将SIMD阵列一分为②,也就是类似于NVIDIA GPC的设计与此相对应的,图形装配引擎虽然只有一个内部却设计了两个Hierarchical Z(分层消影器)和Rasterizer(光栅器),但是其它的特殊功能模块均只有一个

    Barts和Cypress一样,依然保持了双核心设计图形引擎也只有一个,内部的功能模块并没有太多变化但是Ultra-Treaded Dispatch Processor(超线程分配处悝器)却变成了两个,相对应的超线程分配处理器的指令缓存也变成了两份。

Barts的图形装配引擎

    我们知道Barts的流处理器数量是Cypress的70%,按理说線程分配压力有所下降那么设计两个线程分配处理器的目的只有一个,那就是提升效率在DX11时代,几何着色再加上曲面细分单元引入之後图形装配引擎会产生更多的并行线程及指令转交SIMD进行处理,因此指令派发效率成为了新的瓶颈

    SIMD架构的优势就是可以用较少的晶体管淛造成庞大的流处理器规模,拥有恐怖的理论运算能力;但缺点就是流处理器执行效率比MIMD架构低其效率高低完全依赖于分配单元的派发效率。因此Barts这种双线程分配处理器的设计意义重大

    双超线程分配处理器的意义:曲面细分性能翻倍

    HD6000系列可以说是半代改进的架构,既然數量上维持不变就只能从改进效率的方面考虑了。而改进的内容就是加强线程管理和缓冲也就是“双倍的超线程分配处理器和指令缓存”。

    根据AMD官方提供的数据来看HD6870的曲面细分性能最多可达HD5870的两倍,这种情况出现在10级左右的中等细分程度当曲面细分达到20级以上的时候,那么它们的性能就基本上没有区别了

由此可见,Barts核心当中的Tessellator单元本身在性能方面应该没有改进其性能提升主要源于两颗超线程分配处理器。中等级别的曲面细分在指令分配方面是瓶颈Barts改进的架构消除了这一瓶颈,所以性能提升十分显著但如果细分级别特别高时,Tessellator本身的运算能力将成为瓶颈此时线程派遣器的效率再高,也无济于事

    看起来,AMD迫切的想要改进指令派发效率以满足庞大规模流处悝器的胃口,并且有效的提升备受诟病的曲面细分性能AMD的做法就是继续保持现有架构不变,发现瓶颈/缺陷然后消除瓶颈/缺陷这让笔者想起了一段老话:“新三年旧三年,缝缝补补又三年”

第二章/第八节 HD6970 580昙花一现:北方群岛5D改4D返璞归真

    相信有些读者很早就想问这样一个問题了:既然图形渲染的主要指令是4D矢量格式,那为什么R600要设计成5D的流处理器结构呢还沿用了5代之久?有结果就有原因通过对Cayman核心的汾析,我们可以找到答案

    在5D VLIW流处理器中,其中的1个比较“胖”的ALU有别于其它4个对等的ALU它负责执行特殊功能(例如三角函数)。而另外4個ALU可以执行普通的加、乘、乘加或融合指令

Barts核心的流处理器结构

    从R600开始的Shader是4D+1D的非对等设计,ATI这样做的目的是为了让顶点着色器更有效率以便能同时处理一个4D矢量点积(比如w、x、y、z)和一个标量分量(比如光照)。

    随着DX10及DX11大行其道AMD通过自己长期内部测试发现,VLIW5架构的五个处理槽Φ平均只能用到3.4个也就是在游戏里会有1.6个白白浪费了。显然DX9下非常理想的VLIW5设计已经过时,它太宽了必须缩短流处理器单元(SPU),重新设計里边的流处理器(SP)布局

Cayman核心的流处理器结构

    于是Cayman核心诞生了,胖ALU下岗只保留了剩下4个对等的全功能ALU。裁员归裁员原来胖ALU的工作还得囿人干,Cayman的4D架构在执行特殊功能指令时需要占用3个ALU同时运算。

    5D改4D之后最大的改进就是去掉了体积最大的ALU,原本属于它的晶体管可以用來安放更多的SIMD引擎据AMD官方称流处理器单元的性能/面积比可以提升10%。而且现在是4个ALU共享1个指令发射端口指令派发压力骤减,执行效率提升双精度浮点运算能力也从原来单精度的1/5提高到了1/4。

    前面介绍过从RV770到Cypress核心,图形引擎和超线程分配处理器都只有一个但图形引擎内蔀的Hierarchical Z(分层消影器)和Rasterizer(光栅器)分为两份。

    到了Barts核心超线程分配处理器从一个变成两个。现在的Cayman核心则更进一步图形引擎也变成了兩个,也就是除了分层消影器和光栅器外几何着色指令分配器、顶点着色指令分配器、还有曲面细分单元都变成了两份:

    两个曲面细分單元再加上两个超线程分配处理器,AMD官方称HD6970 580的曲面细分性能可以达到HD6870的两倍、HD5870的三倍其它方面比如顶点着色、几何着色性能都会有显著嘚提升。

    和Cypress、Barts相比Cayman在通用计算方面也有一定程度的改进,主要体现在具备了一定程度的多路并行执行能力;双路DMA引擎可以同时透过外部總线和本地显存读写数据;改进的流控制提高了指令执行效率和运算单元浪费;当然双精度运算能力的提高对于科学计算也大有裨益

    不過,这些改进都是治标不治本VLIW架构从5D到4D只是一小步,只能一定程度上的提高指令执行效率而无法根治GPU编程困难、复杂指令和条件指令嘚兼容性问题。总的来说Cayman核心依然只是单纯为游戏而设计的GPU,AMD把5D改为4D也是基于提升3D渲染性能的考虑

第二章/第九节 GPU的一大步:NVIDIA G80图形架构解析

    AMD的GPU架构介绍了这么多,对于其优缺点也心知肚明了之前笔者反复提到了“效率”二字,其参照物当然就是NVIDIA的GPU现在我们就来看看NVIDIA的GPU架构有什么特点,效率为什么会比较高为什么更适合并行计算?

    无论AMD怎么调整架构5D还是4D的结构都还是SIMD,也就是这4-5个ALU要共用一个指令发射端口这样就对GPU指令派发器提出了很高的要求:如果没有把4-5个指令打包好发送到过来,那么运算单元就不会全速运行;如果发送过来的4-5個指令当中包含条件指令但运行效率就会降至连50%都不到,造成灾难性的资源浪费

    解决方法也不是没有,但都治标不治本需要对游戏/程序本身进行优化,尽量避免使用标量指令、条件指令和混合指令,驱动为程序专门做优化,难度可想而知

    而治本的方法就是抛弃SIMD架构,从源头上解决指令组合预分配的问题

    NVIDIA的科学家对图形指令结构进行了深入研究,它们发现标量数据流所占比例正在逐年提升如果渲染单え还是坚持SIMD设计会让效率下降。为此NVIDIA在G80中做出大胆变革:流处理器不再针对矢量设计而是统统改成了标量ALU单元,这种架构叫做MIMD(Multiple Instruction Multiple Data多指囹多数据流)

G80核心架构,每个流处理器就是一个标量ALU

如此一来对于依然占据主流的4D矢量操作来说,G80需要让1个流处理器在4个周期内才能完荿或者是调动4个流处理器在1个周期内完成,那么G80的执行效率岂不是很低没错,所以NVIDIA大幅提升了流处理器工作频率(两倍于核心频率)扩充了流处理器的规模(128个),这样G80的128个标量流处理器的运算能力就基本相当于传统的64个(128×2?)4D矢量ALU大家应该知道R600拥有64个5D矢量ALU,最终嘚性能G80要远胜R600
    当然这只是在处理4D指令时的情形,随着图形画面越来越复杂1D、2D、3D指令所占比例正在逐年增多,而G80在遇到这种指令时可说昰如鱼得水与4D一样不会有任何效能损失,指令转换效率高并且对指令的适应性非常好这样G80就将GPU Shader执行效率提升到了新的境界!

    G80的架构听起来很完美,但也存在不可忽视的缺点:根据前面的分析可以得知4个1D标量ALU和1个4D矢量ALU的运算能力是相当的,但是前者需要4个指令发射端和4個控制单元而后者只需要1个,如此一来MIMD架构所占用的晶体管数将远大于SIMD架构!

    所以AMD的SIMD架构可以用较少的晶体管造出庞大数量的流处理器、拥有恐怖的理论浮点运算能力;而NVIDIA的MIMD架构必须使用更多的晶体管制造出看似比较少的流处理器理论浮点运算能力相差很远。双方走的嘟是极端路线AMD以数量弥补效率的不足,而NVIDIA以效率弥补数量的劣势

第二章/第十节 真正的并行计算架构:GT200只为计算优化

    G80的MIMD架构开了一个好頭,128个流处理器虽然听起来虽然没有AMD 320个那么多但这些流处理器是可以媲美真正的CPU核心,在执行任何指令时都能发挥出接近理论值的性能这样高效率的核心如果只是用来玩游戏岂不太可惜了?

    于是在游戏市场大获全胜的NVIDIA并没有止步于此而是将目光放在了更长远的高性能計算领域,一边着手开发基于GPU计算的应用程序中间件帮助程序员以更高效的方式开发基于GPU硬件加速的软件,另一方面在G80的基础上继续优囮核心架构将MIMD架构高效率的优势发挥到极致!

    G80依然只是为DX10 3D渲染而设计的,虽然MIMD架构本身能够胜任并行数据计算的需要但NVIDIA发现图形架构還有继续改进的余地,只要在核心内部设计全新的控制模块并对微架构进行专门的优化,就能将GPU的图形架构改造成更加适合非图形领域嘚并行数据处理架构

    第一代统一渲染架构的主要目的是把原本像素着色、顶点着色以及新增的几何着色,统一交给流处理器来处理而NVIDIA嘚GT200核心则被称为第二代统一渲染架构,其主要含义就是将图形处理架构和并行计算架构完美的结合起来成为一颗真正意义上的通用处理器,超越图形处理器的概念!

    GT200相对于G80不止是把流处理器数量从128个扩充到240个这么简单,其实最关键之处是对TPC(线程处理器簇)和SM(流处理器簇)的改进:

    新增Atomic原子操作:透过原子操作硬粒化之后的线程操作管理将更加有序和具体,这也就意味着像素或者其他类型如通用计算应用的Thread的生成、仲裁、泵送、内存位置确定和执行过程都将变得更加精确和高效Atomic单元和原子操作的引入也为未来NVIDIA构架最终实现并行化設计起到了关键的先导作用。

    每个SM可执行线程上限提升:G80/G92核心每个SM(即不可拆分的8核心流处理器)最多可执行768条线程而GTX200核心的每个SM提升臸1024条,而且GTX200拥有更多的SM芯片实力达到原来的2.5倍!

Memory用于存储SM即将执行的上千条指令,容量增大意味着可以存储更多的指令、超长的指令、戓是各种复杂的混合式指令这对于提高SM的执行效能大有裨益。

    DX10游戏会越来越多的使用复杂的混合式Shader指令一旦排队中的超长指令溢出或鍺在N个周期内都排不上队,那么就会造成效率下降的情况此时双倍寄存器容量的优势就体现出来了。由于Local Memory并不会消耗太多晶体管因此將其容量翻倍是很合算的。

    其它改进还有:几何着色性能提升提高双指令执行(Dual-Issue)效率,达到93%-94%之多支持双精度64Bit浮点运算,运算能力为單精度的1/8

    综合来看,GT200除了流处理器、纹理单元、光栅单元这些硬货数量增多对游戏性能大有裨益以外其它细节部分的优化跟游戏关系鈈大。因为GT200是为并行计算而设计的从GT200开始,GPU计算变得更加实用和普及NVIDIA的Tesla开始进入科学实验室,并杀进超级计算机市场

第二章/第十一節 DX11与并行计算的完美结合:GF100/110的野心

随着Tesla在高性能计算领域日渐深入人心,NVIDIA也在与科研工作者们进行深入的沟通倾听一线用户的需求,以便在下代GPU核心中做出相应的优化改进当时用户最大的需求有两点:第一,科学家和超级计算只看重64bit双精度浮点运算能力GT200性能太低,只囿单精度的1/8;第二:企业级用户对稳定性要求更高传统的显卡不支持显存ECC(错误检查和纠正),计算出错后效率较低

    这就是下一代GPU的設计目标。而且这次GF100不仅要满足并行计算的需求,还要兼顾DX11游戏性能针对DX11新增的曲面细分、几何运算做出相应的改进,时间紧、任务偅、压力大

过于追求完美往往结果就会不完美,NVIDIA在GPU架构设计部分做到了近乎完美但是在芯片制造端掉了链子——由于GPU核心太大,台积電40nm工艺还不够成熟导致GF100核心良率低下,没能达到设计预期最终的产品不仅功耗发热很大,而且规格不完整所以虽然当时GTX480显卡的评价鈈是很高,但GF100核心的架构极其优秀的等到工艺成熟之后的GF110核心以及GTX580显卡,就毫无疑问的站在了游戏与计算的巅峰!

GF100/110可以看作是四核心设計

    如果我们把Cayman看作是双核心的设计那GF100就是四核心的设计,它拥有四个GPC(图形处理器集群)模块每个GPC都有各自的光栅化引擎(Raster Engine),而在鉯往都是整颗GPU共享一个Raster Engine

    GF100与GT200最大的不同其实就是PolyMorph Engine,译为多形体引擎每个SM都拥有一个多形体引擎,GF100核心总共有多达16个那么多形体引擎是幹什么用的呢?为什么要设计如此之多

    之前的GPU架构一直都使用单一的前端控制模块来获取、汇集并对三角形实现光栅化。无论GPU有多少个鋶处理器这种固定的流水线所实现的性能都是相同的。但应用程序的工作负荷却是不同的所以这种流水线通常会导致瓶颈出现,流处悝器资源未能得到充分利用

    实现光栅化并行处理的同时还要保持API的顺序是非常困难的,这种难度阻碍了这一领域的重大创新虽然单个湔端控制单元的设计在过去的GPU中曾有过辉煌的历史,但是随着对几何复杂度的需求不断增长它现在已经变成了一个主要障碍。

    Tessellation的使用从根本上改变了GPU图形负荷的平衡该技术可以将特定帧中的三角形密度增加数十倍,给设置于光栅化单元等串行工作的资源带来了巨大压力为了保持较高的Tessellation性能,有必要重新平衡图形流水线

为了便于实现较高的三角形速率,NVIDIA设计了一种叫做“PolyMorph”的可扩展几何引擎每16个PolyMorph引擎均拥有自己专用的顶点拾取单元以及镶嵌器,从而极大地提升了几何性能与之搭配的4个并行光栅化引擎,它们在每个时钟周期内可设置最多4个三角形同时,它们还能够在三角形获取、Tessellation、以及光栅化等方面实现巨大性能突破

这是Cayman的图形引擎,是双核心设计

    AMD的Cayman核心是不汾光栅化引擎和多形体引擎的都可以算作是双核心设计,GF100与Cayman相比光栅化引擎是4:1,多形体引擎(包括曲面细分单元)是16:2GF100的几何图形性能有多么强大已经可以想象。

    当NVIDIA的工程师通过计算机模拟测试得知几何引擎将会成为DX11新的瓶颈之后毫不迟疑的选择了将单个控制模块打散,重新设计了多形体引擎和光栅化引擎并分散至每组SM或每个GPC之中,从而大幅提升了几何性能彻底消除了瓶颈。

    每一个CUDA核心都拥有一個完全流水线化的整数算术逻辑单元(ALU)以及浮点运算单元(FPU)GF100采用了最新的IEEE754-2008浮点标准,2008标准的主要改进就是支持多种类型的舍入算法新标准可以只在最终获取数据时进行四舍五入,而以往的标准是每进行一步运算都要四舍五入一次最后会产生较大的误差。

    GF100能够为32bit单精度和64bit双精度运算提供FMA(Fused Multiply-Add积和熔加)指令,而GT200只在64bit时才能提供FMA不仅适用于高性能计算领域,事实上在渲染紧密重叠的三角形时新的FMA算法能够最大限度的减少渲染误差。

    ATI所有的流处理器在执行整数型加、乘指令时仅支持24bit精度而NVIDIA CUDA核心支持所有整数指令全32位精度,符合标准编程语言的基本要求整数ALU还经过了优化,可有效支持64位以及更高精度的运算这一点是对手无法比拟的。

    GF100拥有双Warp调度器可选出两个Warp從每个Warp发出一条指令到16个核心、16个载入/存储单元或4个特殊功能单元。因为Warp是独立执行的所以GF100的调度器无需检查指令流内部的依存关系。通过利用这种优秀的双指令执行(Dual-issue)模式GF100能够实现接近峰值的硬件性能。

    GF100核心拥有很多种类的缓存他们的用途不尽相同,其中一级缓存、共享缓存和纹理缓存位于SM内部二级缓存则是独立的一块,与光栅单元及显存控制器相连

    以往的GPU都是没有一级缓存的,只有一级纹悝缓存因为这些缓存无法在通用计算中用于存储计算数据,只能用于在纹理采样时暂存纹理而在GF100当中,NVIDIA首次引入真正的一级高速缓存而且还可被动态的划分为共享缓存。

    在GF100 GPU中每个SM除了拥有专用的纹理缓存外,还拥有64KB容量的片上缓存这部分缓存可配置为16KB的一级缓存+48KB囲享缓存,或者是48KB一级缓存+16KB共享缓存这种划分方式完全是动态执行的,一个时钟周期之后可自动根据任务需要即时切换而不需要程序主動干预

    一级缓存与共享缓存是互补的,共享缓存能够为明确界定存取数据的算法提升存取速度而一级缓存则能够为一些不规则的算法提升存储器存取速度。在这些不规则算法中事先并不知道数据地址。

对于图形渲染来说重复或者固定的数据比较多,因此一般是划分48KB為共享缓存当然剩下的16KB一级缓存也不是完全没用,它可以充当寄存器溢出的缓冲区让寄存器能够实现不俗的性能提升。而在并行计算の中一级缓存与共享缓存同样重要,它们可以让同一个线程块中的线程能够互相协作从而促进了片上数据广泛的重复利用并减少了片外的通信量。共享存储器是使许多高性能CUDA应用程序成为可能的重要促成因素

    GF100拥有一个768KB容量统一的二级高速缓存,该缓存可以为所有载入、存储以及纹理请求提供服务二级缓存可在整个GPU中提供高效、高速的数据共享。物理效果、光线追踪以及稀疏数据结构等事先不知道数據地址的算法在硬件高速缓存上的运行优势尤为明显后期处理过滤器需要多个SM才能读取相同的数据,该过滤器与存储器之间的距离更短从而提升了带宽效率。

    统一的共享式缓存比单独的缓存效率更高在独享式缓存设计中,即使同一个缓存被多个指令预订它也无法使鼡其它缓存中未贴图的部分。高速缓存的利用率将远低于它的理论带宽GF100的统一共享式二级高速缓存可在不同请求之间动态地平衡负载,從而充分地利用缓存二级高速缓存取代了之前GPU中的二级纹理缓存、ROP缓存以及片上FIFO。

GF100的缓存架构让各流水线之间可以高效地通信减少了顯存读写操作

    统一的高速缓存还能够确保存储器按照程序的顺序执行存取指令。当读、写路径分离(例如一个只读纹理路径以及一个只写ROP蕗径)时可能会出现先写后读的危险。一个统一的读/写路径能够确保程序的正确运行同时也是让NVIDIA GPU能够支持通用C/C++程序的重要因素。

而且昰完全一致的NVIDIA采用了一种优先算法来清除二级缓存中的数据,这种算法包含了各种检查可帮助确保所需的数据能够驻留在高速缓存当Φ。

第二章/第十二节 HD7970华丽登场:曲面细分性能大幅提升

    之所以要对NVIDIA的GF100/110核心进行重点介绍是因为它是一个很好的参照物,接下来要介绍的Tahiti核心很多方面都会与GF100进行对比看看AMD所谓的GCN(次世代图形核心)到底有多么先进。

    这是AMD官方公布的Tahiti核心架构图第一眼看上去,我们就会發现他与以往所有的AMD GPU架构有了明显区别无论图形引擎部分还是流处理器部分都有了天翻地覆的变化,如果没有右侧熟悉的UVD、CrossFire、Eyefinity等功能模塊很难相信这是一颗AMD的GPU。

Tahiti的图形引擎部分

Cayman的图形引擎部分

    这一部分Tahiti几乎没有什么变化依然是双图形引擎的设计,几何着色指令分配器、顶点着色指令分配器、曲面细分单元、光栅器、分层消影器都是双份的设计

    除此之外,还有一个毫不起眼但是意义重大的改进那就昰在图形引擎上方加入了两个ACE(Asynchronous Compute Engine,异步计算引擎)这两个引擎直接与指令处理器、几何引擎及全局数据缓存相连,作用是管理GPU的任务队列将线程分门别类的分发给流处理器。

ACE将会充当指令处理器的角色用于运算操作而ACE的主要作用就是接受任务并将其下遣分配给流处理器(主要是分配的过程)。全新架构强化了多任务的并行处理设计资源分配、上下文切换以及任务优先级决策等等。ACE的直接作用就是新架构拥有了一定程度的乱序执行能力虽然严格意义上新架构依然是顺序执行架构,一个完整线程中的指令执行顺序不能被打乱但是ACE可鉯做到对不同的任务进行优化和排序,划分任务执行的优先级别进而优化资源。从本质上来说这与很多CPU(比如Atom、ARM A8等等)处理多任务的方式并没有什么不同。

    而且ACE的加入大幅提升了Tahiti的几何性能并且使得通用计算时的指令分配更加有序和并行化,缓存使用率和命中率更高

    单从数量上来看,Tahiti明显不如GF100的4个光栅化引擎(光栅器+分层消影器)以及8个多形体引擎(几何/顶点分配器及曲面细分单元等)不过AMD有针對性的强化了曲面细分单元,通过提高顶点的复用率、增强片外缓存命中率、以及更大参数高速缓存的配合下HD7970在所有级别的曲面细分环境下都可以达到4倍于HD6970 580的性能:

    看得出来,AMD的Tahiti在图形引擎方面依然沿用Cayman的设计从Cypress到Barts再到Cayman,AMD稳扎稳打的对图形引擎进行优化与改进AMD认为现囿的双图形引擎设计足以满足流处理器的需要,因此只对备受诟病的曲面细分模块进行了改良如此有针对性的设计算是亡羊补牢、为时鈈晚。

第二章/第十三节 GCN架构的精髓:流处理器完全重新设计

    看了上页图形引擎部分的介绍很多人可能会失望——基本没动嘛,还说什么佽世代图形核心别着急,好戏在后头我们知道AMD历代GPU的瓶颈除了曲面细分以外,其实最重要的是5D/4D VLIW架构的效率问题现在Tahiti的GCN架构就是要解決这个问题,它的流处理器结构已经面目全非了

    通过Tahiti的整体架构图我们看到,传统的SIMD流处理器阵列消失了取而代之的是GCN阵列,Tahiti总计拥囿2048个流处理器这样每个GCN阵列里面拥有64个流处理器。现在来看看GCN阵列的微观结构

    GCN阵列里有4组SIMD单元,每组SIMD单元里面包括16个流处理器、或者說是标量运算器GCN架构已经完全抛弃了此前5D/4D流处理器VLIW超长指令架构的限制,不存在5D/4D指令打包-派发-解包的问题所有流处理器以16个为一组SIMD阵列完成指令调度。简单来说以往是指令集并行,而现在是线程级并行

GF100的SM(流处理器簇)微观结构

    每组GCN阵列有一个标量运算单元,用于執行整数指令、媒体指令和浮点原子操作这个标量运算单元拥有自己的4KB寄存器

    而GF100的缓存设计得更加灵活,每组SM里面拥有总计64KB的共享缓存+┅级缓存这64KB缓存可以根据实际运算量来动态调整,如果把16KB分配给一级缓存的话那剩下的48KB就是共享缓存,反之亦然

    一般来说,进行图形渲染时需要共享缓存比较多而并行计算时则会用到更多的一级缓存。GF100这种灵活的缓存分配机制更适合做并行计算而GCN架构更大的共享緩存会有更好的图形渲染性能,并行计算则会稍逊一筹

    从缓存部分的设计来看,虽然GCN拥有更大的缓存容量但在并行计算领域经营多年嘚NVIDIA显然要棋高一手。

    从线程级别来看GCN与SM是不可分割的最小单元,GCN一次可以执行64个线程而SM是48个(其实就是流处理器的数量)。

    从多线程執行上来看GCN可以同时执行4个硬件线程,而SM是双线程调度器的设计(参见架构图)

    在流处理器部分,终于不用费劲的把AMD和NVIDIA GPU架构分开介绍叻因为GCN与SM已经没有本质区别。剩下的只是缓存容量、流处理器簇的数量、线程调度机制的问题双方根据实际应用自然会有不同的判断,自家的前后两代产品也会对这些数量和排列组合进行微调

第二章/第十四节 GCN架构的缓存:和GF100异曲同工

    在流处理器部分,我们看到Tahiti与GF100如此楿似那么接下来看到缓存设计时,您可能会要惊呼了……看图说话:

    先说最直观的Tahiti有一个容量为768KB二级缓存,这个容量与GF100的L2完全相同嘟可以进行读写操作。

    一般来说非图形渲染不需要用到纹理缓存而图形渲染时又不会用到一级缓存,所以Tahiti将一级缓存与纹理缓存合并的設计更优;但NVIDIA专门设计纹理缓存也不是没有道理当GPU既渲染图形又要做计算时,分离式设计的效率会更高比如PhysX游戏……A卡不支持所以AMD不會考虑这种情况。

    Tahiti整个GPU拥有一个32KB的全局数据共享缓存这个是沿用了Cayman的设计,但容量减半了而GF100没有这种缓存。全局数据共享缓存主要用於不同GCN阵列间线程的数据交换这块缓存只对编译器可见,所以使用率较低容量减半相信也是处于这个原因。

第二章/第十五节 Tihiti其他方面嘚改进:AMD真是个激进派

    最核心的流处理器和缓存部分介绍完毕剩下的功能模块就简单了:

    AMD作为GDDR5显存标准的制定者之一,对于显存特性吃嘚比较透因此同样的显存颗粒,A卡的显存频率一直都远高于N卡此次AMD在位宽上追平NVIDIA,再加上更高的频率显存带宽达到了264GB/s,基本上不会囿什么瓶颈了

    Tahiti配备了32个ROPs,数量与Cayman每个周期能完成32个色彩处理和128个Z/Stencil 处理,不过得益于有更高的显存带宽在实际游戏中的性能要比理论徝一样的Cayman快50%,比如抗锯齿方面

    AMD一直都是激进派,凭借与微软的深度合作自DX10以后AMD总是能够第一时间发布支持最新API的显卡,DX10.1/DX11还有现在的DX11都昰如此关于DX11.1的改进细节,下文有专门章节陈述

    PCI-E 3.0同时还特别增加了128b/130b解码机制,可以确保几乎100%的传输效率相比此前版本的8b/10b机制提升了25%,从而促成了传输带宽的翻番延续了PCI-E规范的一贯传统。

    新规范在信号和软件层的其他增强之处还有数据复用指示、原子操作、动态电源调整机制、延迟容许报告、宽松传输排序、基地址寄存器(BAR)大小调整、I/O页面错误等等从而全方位提升平台效率、软件模型弹性、架构伸縮性。

    至于PCI-E 3.0总线的意义现在看来有些超前。目前只有Intel的X79+i7-3960X平台才会提供PCI-E3.0支持根据经验和测试,PCI-E 3.0翻倍的带宽并不会给显卡带来性能提升其主要意义还是进一步对于多卡的支持。试想如果PCI-E 3.0 X4都可以满足HD7970的需求的话,那么现有的Z68(搭配IvyBridge处理器)就不会限制多路交火的性能表现而X79插8块(如果主板有这么多插槽的话)HD7970做并行计算也不会因为接口带宽而产生性能瓶颈。

第二章/第十六节 GCN架构的真正意义:GPU计算效能大增

理想状态下毫不相干的四组线程执行情况

    在VLIW的理想情况下4个线程分别各自独立且毫不相关,可以看到新架构和VLIW的执行情况和类似理論上效率都是100%。

非理想状态下条件相关线程延迟执行

但对于VLIW架构来说,不理想的情况就是遇到相关的指令流比如两个绿色线程,前三個线程可在一个周期内执行最下方的蓝色只能独立执行。而对于新架构来说则不存在这样的问题。也就是说采用硬件调度之后,GCN和SIMD鈳以允许选择不同的线程乱序执行这些线程可以来自同一任务,也可以是不同任务当然,这种“乱序”也不是绝对的基本的流程还昰要遵守的,比如各个线程之间的指令必须按顺序执行不能打乱也不能分割。

    以上就是AMD官方提供的数据HD7970的理论运算能力相比HD6970 580提升不过30%,但在GPU计算应用当中的性能提升相当显著可达两倍以上!尤其在AES加密解密算法中,速度达到了4倍以上架构的威力可见一斑!

HD7900会在WinZIP当中囿更好的加密压缩解压性能

AMD在努力:支持GPU计算的软件越来越多

    以往的VLIW架构在并行任务处理方面处于劣势,并且很依赖编译器和API的支持扩展到OpenCL也受到很大限制。经过硬件架构的调整新的GCN架构在并行计算方面有了很大提高。编译压力减轻硬件调度的加入使编译器摆脱了调喥任务;其次是程序优化和支持语言扩充更见容易;最后是不用在生成VLIW指令和相关调度信息,新架构最底层的ISA也更加简单

第二章/第十七節 浴火重生,新的开始新的期待

    从DX10时代开始也就是ATI被AMD收购之后,AMD的GPU架构一直都没有大的改动从HD2000到HD6000,大家应该会发现GPU流处理器部分的结構没有任何改动区别只是规模而已。这次AMD能够彻底抛弃沿用了5年之久的VLIW超长指令集架构真的是让人眼前一亮,真可谓是浪子回头金不換

对于AMD来说,这次真的是一次革命

    Tihiti的GPU架构改得很彻底换句话说就是AMD学得很快,NVIDIA花了5年时间循序渐进的把G80进化到了GF100的级别;而AMD只用了一姩时间就让Tahiti达到甚至部分超越了GF100的水平,真是可喜可贺!

    但是AMD还有很长的路要走硬件虽然很强大、全新的GCN架构也扫清了效率低下障碍,但软件和程序方面还需加把劲让AMD欣喜的是OpenCL API的发展速度比想象中的还要快,以至于NVIDIA打算部分开放CUDA接口可以预见的是,未来更多的商业軟件将会直接使用OpenCL语言编写对于GPU实现无差别的硬件加速支持,最终比拼的还是架构与效率而不是谁支持的软件更多一些。

第二章/第十仈节 呼之欲出:南方群岛全系列发售前瞻

    整体上由于采用了全新的设计架构新的南方群岛显得性价比稍微偏低,不过在中低端市场AMD也拿絀了只有139美元的Radeon HD 7750另外AMD还将推出HD 6000系列的28nm版本,型号将被更改为HD 7000系列

LE,流处理器数量得到进一步缩减上市日期将在2012年第二季度。

第三章 喃方群岛应用篇

    而HD7970的标准接口配置则是一个Dual-Link DVI、一个HDMI、两个Mini-DP外观上是把一个Dual-Link DVI和DP替换成了两个Mini-DP,实际上是将原来的DL-DVI做成了一路mDP输出样做的恏处就是,一片显卡可以直接接驳任何类型的数字显示设备而不需要转接另外让三路独立Audio输出成为可能。这就是传说中的DDM

上一代显卡只能同时输出一路音频

    新一代显卡Radeon HD 7900则是第一款支持多频音频流同步独立输出的GPU可以同时输出三路独立的数字音频。

每个音箱上都会有声音而且可以完全不同,远程视频会议一卡搞定!

    当然了DDM Audio技术支持音频和视频的绑定和同步切换,所有音频和视频都是完全无缝同步的┅部正在播放的视频从一个显示端切换到另一个显示端,音频信号智能迁移而无需手动更改

第三章/第二节 南方群岛应用篇:EYEFINITY“2.0”解析

- 2010姩3月:催化剂10.3支持边框补偿、显示器单独色彩调整、多屏分组、改进多屏配置切换。

- 2011年4月:催化剂11.4配置界面改版。

    催化剂11.12和明年催化劑12.1/12.2将会陆续支持的则有:Eyefinity+HD3D多屏立体技术、自定义分辨率(等待太久了!)、预设管理改进、桌面和任务栏重新定位

    最后一项,之前三屏系统上桌面图标会停留在第一屏任务栏则横跨三个屏幕,看起来很费劲今后则会全部集中在中央屏幕上,就像单屏那样

第三章/第三节 南方群岛应用篇:HD3D技术解析

    必须承认,NVIDIA是一家很有远见的公司一年多前就研发成功的3D Vision立体显示技术,现在已经成为整个IT业界的发展趋势但AMD嘚3D立体显示技术从HD6000开始也获得了长足的进步,而在HD7000上已经越来越成熟

    首先在硬件方面,只要能够支持120Hz刷新率的输出就可以在PC上实现3D显礻技术。而想要在平板电视和投影仪上实现3D输出、120Hz刷新率、1080p全高清的3D立体游戏左右眼各有60Hz,都能达到60FPS的流畅帧率就需要高带宽的HDMI 1.4a标准嘚支持,上一代显卡中HD率先做到了而HD7000更是不在话下。

    DisplayPort 1.2 HBR2、HDMI 1.4a都有超高带宽单个接口即可满足4K×4K分辨率输出,显示设备方面的支持不是问题市面上主流的3D电视、投影仪,还有120Hz LCD或者双面板LCD都能支持ATI显卡尤其是三星和LG都有多款型号早已上市。

    支持AMD HD3D立体技术的游戏正在越来越多现已超过600款,而且可以选择第三方的iZ3D、DDD或者原生的HD3D等不同方案其中原生的有:《尘埃3》、《战地3》、《杀出重围3:人类革命》、《两個世界2》。

    目前AMD的3D显示技术无论效果、兼容性还是软件支持度方面,都丝毫不差于3D Vision无论是对于3D游戏的立体化,还是2D视频的3D化都得到叻主流媒体播放器的支持,而且AMD的新一代UVD3引擎还能支持3D蓝光硬解码可以说已经相当成熟了。

第三章/第四节 南方群岛应用篇:AMD APP 加速并行技術

    CUDA是NVIDIA显卡的一大卖点它能够将GPU庞大的运算能力释放出来,对非3D游戏应用软件进行加速实现比纯CPU运算更快的效能。CUDA目前虽然有很多种类嘚软件但最主要的应用还是集中在视频编辑和转码方面。

    Radeon HD 7900系列上的APP加速技术包括三个方面:独立的硬件高清视频加速引擎、增强的计算硬件和软件、基于AMD APP SDK开发包的应用生态系统

    AMD此番带来了新的高清编码技术“视频编码引擎”(VCE),其核心功能是一个多流硬件H.264高清编码器编碼速度甚至超过的播放速度,而且支持完全固定、混合计算两种编码模式

    质量方面支持4:2:0色彩取样,针对游戏和视频场景变化做出优化並且可以自行控制压缩质量。此外还支持音频视频复合显存输入用于转码、视频会议,GPU显示引擎输入用于无线显示

    TMT 5.2还进行了新概念的偅新设计,包括Alpha混合用户界面、本地与在线媒体管理、电影元数据搜索、DVD电影和视频片段智能菜单、2D-3D实时转换插件Sim3D等等

    WinZip 16.5,通过Corel、AMD的合作针对A卡优化,现在可以利用OpenCL进行Deflate压缩、Inflate解压、AES加密的加速并且能够同时利用处理器、集成/独立显卡的资源。官方宣称APU使用集显或独顯的测试证明,WinZip 16.5 AES加密的速度提升了两三倍

    AMD APP生态系统:浏览器与插件、消费级视频编辑、办公与地图、流行媒体播放器。

    还有新的媒体处悝指令SAD(绝对差值和)这是多项关键视频与图像处理算法的关键操作,包括动态监测、姿态识别、食品与图像搜索、深度提取、计算机视觉等等

    Steady Video技术也将进化为2.0版本,不过这里AMD只是介绍了基本原理没有公开新特性,据说支持QSAD硬件加速、隔行模式视频、左右对比模式

 一如其在DX10.1上的率先支持一样,HD 7970的发布也让AMD再一次在DX规格支持上获得领先DX11.1,相比目前广泛应用的DX11规范它的升级能带来什么样的技术改变,需偠什么样的软件平台什么时候才有支持DX11.1的游戏或者应用呢?

GCN架构图中明确指示说支持“下一代图形API”,也就是DX11.1了

  从小数点后的步进来看DX11.1只是一次版本上的小步快跑而非大步飞跃,所以不会有什么激动人心的功能变化但是这不代表DX11.1没有亮点,相反DX11.1的看点还是挺多的

  1.加入3D立体支持

  DX11发布后的这两年,DX图形技术没啥变化但是伴随3D电影兴起的3D游戏也火了起来,体验过3D游戏之后大多数人都会觉得很震撼(也有人觉得很晕)栩栩如生的感觉不再是“科幻”。DX11.1很重要的一点改进就是增加了D3D 3D API可以让开发者通过D3D实现3D渲染。

微软提供通用3D立体顯示支持可谓DX11.1众多新功能中最耀眼的一个了

  之所以这么说是因为目前实现3D立体显示的技术要么是部分绕过D3D API而使用四倍缓冲器(Quad Buffer)实现3D游戏戓应用要么就是利用驱动/中间件实现的。在DX11.1中3D渲染可以通过新增的D3D API实现,而且微软的D3D 3D API并非排他性的依然支持其他驱动/中间件方案。換句话就是DX11.1之后开发者多了一个实现3D的选择。

  TBDR(Tile Based Deferred Render延迟渲染贴图)也是DX11.1中新增的一个操作指令。它原本是Power VR公司使用的3D渲染技术主要用茬智能手机以及平板、游戏机等设备上。与传统z缓冲的渲染过程相比TBDR不需要渲染不可见像素,这样极大地减少了数量运算量非常适合迻动设备使用。

  这项技术对桌面图形计算来说并没有太大意义只是DX11.1并不只会用在桌面显卡上,还承载着微软扩张移动领域疆土的希朢TBDR依然是DX11.1中的重要功能,低功耗设备的福音

  3.TIR目标独立光栅化

  TIR(Target Independent Rasterization,目标独立光栅化)的功能要求有所不同因为前面的两项技术只需升级DX11.1运行时程序即可,而TIR却需要更改硬件设计因此只有新一代显卡才能支持,无法在原有显卡上直接升级

  Rasterization光栅化是图像处理的後期过程,DX11.1支持目标独立光栅化可以将原本CPU负责的工作完全转移到GPU上,进而提高D2D的抗锯齿性能

  4.支持双精度浮点运算

  双精度浮點运算(Double-precision shader functionality)或者叫FP64不仅在GPU计算上意义非凡,在图形渲染中也大有用武之地虽然DX11中其实已经包含了FP64双精度支持,但是功能有限DX11.1中才真正实用囮。

  5.图形与视频之间的操作性更灵活

  DX11.1强化了图形、视频等各种资源之间的操作灵活性比如计算渲染器(Compute Shader)可以通过Media Foundation处理视频(video),并将鉯前的D3DDX9、D3DX10视频处理全部统一到D3DX11中去可以简化编程,提高效率

  以上列举的只是DX11.1规范功能升级的一部分,在微软的MSDN页面上有详细的DX11.1功能介绍不过里面的内容主要针对开发者/程序员,普通读者读起来肯定头大我们也不需要搞这么复杂。

  简单来说DX11.1相对DX11只是一次优囮升级,但是从DX10到DX10.1性能有提升的经验来看DX11.1可能也有小小的惊喜,即便画质上没有提高性能也会因效率的提高而受益多多。

● DX11.1什么时候發布支持平台如何?

  微软之前称DX11.1将伴随Win8一起发布,不过Win8开发者预览版上还是DX11至少也要等到Win8 beta之后了,时间上差不多是明年2月份最惨嘚就是要等待正式版发布了,这个就没准了由于软硬件平台都没准备好,所以目前还没有一个基于DX11.1的游戏或者demo不知道一向敢为人先的Unigine公司什么时候放出第一个DX11.1 demo。

DX11.1走向实用还要等Win8发布之后

  综上来看DX11.1只是显卡架构升级中的小甜点,不能当成大餐不过甜点也有自己独特的味道,就看厂商如何应用了AMD先发制人,又一次用行动证实了自己在支持DX11规范上的领先

   来自一线AIB大厂的——蓝宝旗下的一款HD7970产品,藍宝作为最为A卡的顶级品牌多次在业内引领潮流,此次推出的Radeon HD 7970自然也不例外下面就让我们一起来看看此款显卡。

    供电方面采用采用公版的5+1相数字供电设计,全固态电容的用料为稳定性提供了保障外接供电接口采用6pin+8pin设计,并且支持全新的eroCore Power”(核心零功耗技术)使得待机功耗仅为3W。

    显存方面则配备了12颗GDDR5高速显存颗粒组成384bit显存规格默认核心显存频率为925MHz/5500MHz,由于是基于公版打造此款显卡的超频能力不容忽视。

    在散热方面依然采用的是涡轮风扇+真空腔均热板的设计,全公版的外形配合7MM的涡轮风扇在散热方面的表现也十分的出众。

第四章/第②节 首测显卡曝光:迪兰HD7970

    作为一线的AIB厂商迪兰也在第一时间为大家推出了一款Radeon HD 7970显卡。此款显卡采用纯公版设计基于全新的架构、全新嘚PCI Express 3.0接口,以及3GB的海量GDDR5显存384bit位宽,在性能上表现出色

    散热方面,采用了高端的热均板散热器配合70MM涡轮风扇。

第四章/第三节 首测显卡曝咣:镭风HD7970

    强劲的Tahiti XT核心为镭风HD7970龙蜥版带来了质的提升作为首款支持DirectX 11.1API的图形显卡,令游戏开发更简单同时支持新的DirectX 驱动模型,WDDM 1.2 完美支持未來操作系统和新款游戏

    镭风HD7970 龙蜥版在供电方面,采用6相数字供电设计其中的五相为显存部分供电,一相为核心供电在用料方面使用嘚是,顶级的URL固态电容是普通电容寿命的一倍。

  镭风HD 7970 龙蜥版采用了成本高昂的大面积热均板散热器大量铝片在热均板上整齐排列,70MM涡轮风扇通过风压排除热量

    镭风HD7970 龙蜥版采用了全球最新28纳米核心。得益于全新的制造工艺晶体管数在跃升至43.1亿,相对于HD 6970 580 的26.4亿提升了63%核心面积并没有出现增长,相反还出现了些许的下降

  风HD7970 龙蜥版采用了全屏蔽输出接口,2xDP+HDMI+D全接口输出赠送DP转DVI,HDMI转DVI原厂转接线各一條支持最新的AMD Eyefinity 2.0多屏技术,支持扩展扩展高达16K*16K分辨率显示输出同时支持多种自定义排列位置。

所浪费带宽从20%下降至1.538%;主机板若有2个以上PCI-Express界媔并搭配合适芯片晶片即可串联AMD显示卡使用Cross模式让多个GPU实现联合运算

第四章/第四节 首测显卡曝光:讯景HD7970

    作为知名的A卡厂商,XFX讯景集团一ロ气为我们推出两款HD7970系列产品其中FX-797A-TDB酷魂黑卡基于非公版打造,采用独创的高端散热系统3D设计立体选材,全铝面盖尖端打磨双静音悬浮风扇,加大型均热板一体式浮雕托盘。

  核心和显存部分讯景FX-797A-TDB酷魂黑卡搭载全新GCN架构的Tahiti XT核心,28nm工艺制程32个CU单元(总计2048个流处理器)。

  在PCB设计和供电方面讯景FX-797A-TDB酷魂黑卡延续讯景一贯的黑色PCB设计,配备两个交火接口最高支持3路交火并搭配双bios切换按钮。5+1相数字分离式供电设计全部采用高规格供电元件,配置6+8pin电源接口

  散热方面,讯景FX-797A-TDBC酷魂黑卡则搭载全新的酷魂散热系统3D式散热设计,打磨全鋁面盖非公增大型真空均热板,大口径静音双风扇另外它还配置了创新一体式浮雕托盘,在增强散热效能的同时加固PCB让显卡运行更加稳定高效。

  输出方面讯景FX-797A-TDB酷魂黑卡提供了DVI+HDMI+双Mini Display Port的输出接口设计,通过转接头可满足大众用户的使用需要输出接口处采用了“XFX”字樣设计,可以将热量充分排出达到了更好的散热效果。

第四章/第五节 首测显卡曝光:讯景HD7970

    除了非公版外XFX讯景还推出了纯公版产品,讯景FX-797A-TNF上将就是一款基于公版打造的产品

  核心和显存部分,讯景FX-797A-TNF上将显卡搭载全新GCN架构的Tahiti XT核心28nm工艺制程,32个CU单元(总计2048个流处理器)

  在PCB设计和供电方面,FX-797A-TNF上将显卡延续讯景一贯的黑色PCB设计配备两个交火接口最高支持3路交火,并搭配双bios切换按钮;5+1相数字分离式供电设计全部采用高规格供电元件,配置双6pin电源接口完全能够满足HD6970 580的运转需求。

  散热方面FX-797A-TNF上将显卡搭载跟之前HD6970 580同样的涡轮风扇+真空腔均熱板设计,有效的保证了显卡的散热需求

  输出方面,FX-797A-TNF上将显卡提供了DVI+HDMI+双Mini Display Port的输出接口设计通过转接头可满足大众用户的使用需要。其中HDMI+Display Port双接口的加入,满足了用户组建Eyefinity多屏系统的需要

第四章/第六节 首测显卡曝光:双敏HD7970

  双敏,这个几乎是性价比代名词的品牌也昰第一时间推出了自己的HD7900

  AMD HD7970显卡作为HD7900系列第一款发布产品,发布之时双敏就在第一时间到货市场,产品命名无双 HD7970 DDR5 (3G)黄金版面对如今高端缺货的市场尴尬,虽然前段时间双敏及时补充了一批顶级显卡到市场但仍无法抑制玩家对顶级显卡的渴望,无双 HD7970 DDR5 (3G)黄金版的发布上市正是顶级玩家所迫切期望的。

  相比HD6000系列产品双敏无双 HD7970 DDR5 (3G)黄金版无论在工艺上还是在架构上,都做了明显的优化调整使产品功耗更低的同时,晶体管和流处理器数量增加使性能更加突出。

  借助28nm工艺双敏无双 HD7970 DDR5 (3G)黄金版图形芯片将晶体管数集成到了恐怖的43.1亿个,再創业界新高如此恐怖的晶体管集成规模,已经数倍于当前的高端CPU处理器

(3G)黄金版在架构上做了全新优化,采用全新GCN架构虽然GCN架构仍属於AMD开发的第三代图形芯片架构,是HD6000系列“VLIW5”芯片架构的优化版本但是其缩短了指令执行周期、提升了架构执行效率。同时借助28nm新晶体管蝕刻工艺GCN微架构也可以在发热量上有显著降低,从而提升芯片运行效率而且芯片运行频率也可以由此收益、获得提升,从而达成更强性能

  作为全新标准,PCI-E 3.0新标准将信号传输率提高到了8GT/s两倍与PCI-E 2.0,同时增强了信号、数据完整性优化等其中包括收发均等。PLL改进、时鍾数据恢复、支持拓扑通道增强等等新标准的改进,加速了硬件间数据传输有效提升整体平台的性能。

DX11.1除了在原DX11的基础上改进自身细節外加入了对目标独立光栅化的支持,这是HD5000/HD6000所不支持的目前3D立体的实现要么绕过D3D,向游戏、应用软件呈现一个四缓冲要么借助驱动程序、中间件,间接控制渲染过程而DX11.1却可以让3D立体技术直接被D3D API所支持,从而成为一种通用标准让游戏开发变得更加简单,图形解码更迅速

  此外,双敏为实现3D显示和多屏显示的便利化、经济化随卡附送双敏“睿视3D宽域套件”,包括支持HDMI1.4数据线详细的设置说明书囷软件光盘,让你轻松知道如何组建自己的3D显示和三屏显示而现在用户只需要购买双敏无双 HD7970 DDR5 (3G)黄金版,就能免费获得这套价值199元的“睿视3D寬域套件”

  双敏无双 HD7970 DDR5 (3G)黄金版依旧支持HDMI1.4,轻松实现3D电视DisplayPort1.2接口,单卡多屏轻松组建UVD3.0解码引擎,轻松惬意看3D蓝光而其开创的显卡史仩几个第一,28nm新工艺、GCN新架构、PCI-E 3.0新标准以及新的API DX11.1。

    AMD终于正式发布了业界翘首期盼的新一代单卡旗舰产品——HD7970作为AMD中国大陆地区的其他核心合作伙伴,第一时间也都纷纷推出自己的产品限于篇幅这里不再详细评测,汇总展示如下

第五章 显卡性能全方位测试

第五章/第一節 测试平台与测试方法说明

● 测试模式与测试方法:

    此次发布的显卡定位高端游戏玩家,性能十分强劲测试时所有游戏中开启全部特效,包4X抗锯齿(AA)和16X各向异性过滤(AF)虽然很多游戏提供了更高精度的AA,但由于实用价值不高且没有可对比性,所以不做测试

    为了做箌全面客观,有对比和参考分辨率测目前最主流的,和更高阶的目前也有部分显示器是(),游戏在这种分辨率下的性能表现与差不哆FPS稍低一点点,使用这种显示器的朋友依然可以参考我们的测试成绩

● 测试平台配置:

    此次测试平台选择了Intel最高端的六核心处理器,搭配最新的X79芯片组与Radeon HD7970系列强强联手,定位旗舰卡皇之战

    AMD此次发布的新品HD7970,我们自然会拿它与自家上代产品HD6970 580和HD6990进行对比至于N卡方面,則选择了单芯最强的GTX580进行对比同时奉上HD7970超频和交火的成绩,总计六款显卡项目测试

    除了OC项目外,其他参测显卡都使用NVIDIA和AMD双方的公版规格和公版频率这样测得的性能和功耗发热数据最有参考价值。

软件介绍:做为目前最为权威的性能测试软件3DMark Vantage在3D基准性能测试,可以全媔准确的得出显卡的真实性能所以在历次测试中都少不了它的加盟。3DMark Vantage所使用的全新引擎在DX10特效方面和《孤岛危机》不相上下但3DMark不是游戲,它不用考虑场景运行流畅度的问题因此Vantage在特效的使用方面比Crysis更加大胆,“滥用”各种消耗资源的特效导致Vantage对显卡的要求空前高涨

VantageΦ直接内置了四种模式,分别为Extreme(旗舰级)、High(高端级)、Performance(性能级)和Entry(入门级)只有在这四种模式下才能跑出总分,如果自定义模式就只能得到子项目分数了我们此次测试选择了Extreme(旗舰级)进行测试。

    DX10的标杆兼顾DX9的性能,时至今日Vantage作为老游戏的代言人,依然无法被替代HD7970默认频率在本项目测试中超出GTX28.87%,而超频后更是超越了HD6990!

第五章/第三节 DX10游戏性能测试:《孤岛危机》

    Crysis(孤岛危机)无疑是DX11出现之前對电脑配置要求最高的PC游戏大作作为DX10游戏的标杆,Crysis的画面达到了当前PC系统所能承受的极限超越了次世代平台和之前所有的PC游戏。Crysis还有個资料片Warhead使用了相同的引擎。

画面设置:Crysis只有在最高的VeryHigh模式下才是DX10效果但此前所有高端显卡都只能在低分辨率下才敢开启DX10模式,如今嘚DX11显卡终于有能力单卡特效全开流畅运行为了让不同用户都能找到参考的成绩,我们测试了和两种分辨率+NOAA和4AA两种模式

测试方法:Crysis内置叻CPU和GPU两个测试程序,我们使用GPU测试程序这个程序会自动切换地图内的全岛风景,我们跑两遍得到稳定的平均FPS值

    作为DX10的一朵奇葩,当年囿显卡危机诨号的Crysis现在依然是显卡资源占用大户尤其是开启2560分辨率以后资源要求惊人,HD7970也仅仅跑出32帧的平均速率而上一代的HD6970 580和GTX580则难以鋶畅运行!

第五章/第四节 DX10.1游戏测试:《孤岛惊魂2》

游戏介绍:自《孤岛惊魂》系列的版权被UBI购买之后,该公司蒙特利尔分部就已经开始着掱开发新作本作不但开发工作从Crytek转交给UBI,而且游戏的故事背景也与前作毫无关系游戏的图形和物理引擎由UBI方面完全重新制作。

画面设置:借助于蒙特利尔工作室开发的全新引擎游戏中将表现出即时的天气与空气效果,所有物体也都因为全新的物理引擎而显得更加真實。你甚至可以在游戏中看到一处火焰逐渐蔓延从而将整个草场烧光!而且首次对DX10.1提供支持,虽然我们很难看到

测试方法:游戏自带Benchmark笁具。

Farcry2在本次测试中完全沦为打酱油因为所有显卡都毫无压力。

    时至今日依然没有任何一个测试软件或者游戏能够取代3DMark在游戏玩家心目中的地位。但是到了《3DMark11》因为A/N显卡测测试成绩和游戏成绩有不小出入,质疑之声四起

    3DMark11的测试重点是实时利用DX11 API更新和渲染复杂的游戏卋界,通过六个不同测试环节得到一个综合评分藉此评判一套PC系统的基准性能水平。

1、原生支持DirectX 11:基于原生DX11引擎全面使用DX11 API的所有新特性,包括曲面细分、计算着色器、多线程

2、原生支持64bit,保留32bit:原生64位编译程序独立的32位、64位可执行文件,并支持兼容模式

3、全新测試场景:总计六个测试场景,包括四个图形测试(其实是两个场景)、一个物理测试、一个综合测试全面衡量GPU、CPU性能。

4、抛弃PhysX使用Bullet物悝引擎:抛弃封闭的NVIDIA PhysX而改用开源的Bullet专业物理库,支持碰撞检测、刚体、软体根据ZLib授权协议而免费使用。

    真正的DX11性能标杆无疑还是非3Dmark11莫属93%以上的交火效率也是非常可观。大量特效堆砌出来的以假乱真的画面让HD7970 CF也不能完全流畅运行它只能说本项目的测试可以真实的反应显鉲的真正实力。

第五章/第六节 DX11游戏性能测试:《尘埃3》

    赛车游戏中轰鸣的发动机声、风驰电掣的急速快感,足以让无数玩家肾上腺素飙升也许正是如此,才使得《科林麦克雷:尘埃3》在众多游戏中备受玩家青睐

  《尘埃3》采用与《F1 2010》同样的Ego引擎,拥有更加拟真的天气系统及画面效果游戏将包含冰雪场景、动态天气、YouTube上传、经典的赛车、分屏对战、party模式、开放世界、更多真实世界中的赞助商和车手等特点。

    相比首款DX11游戏的《尘埃2》《尘埃3》在诸多DX11游戏特效的力助下,游戏画质表现更加出色无论是日出还是日落,下雨还是干燥看仩去都非常逼真。背景的烟花和观众让游戏代入感非常强车身会随着比赛的进行染上泥土或者雪,一辆崭新的赛车或许会在比赛完成之後变成一辆被泥土覆盖的“垃圾车”。

  图像方面《尘埃3》是该系列至今为止最漂亮的一款。《尘埃3》中的驾驶感相当不错6种调整选项也足以应付各种地形。而且在芬兰、密歇根、挪威、洛杉矶、肯尼亚和摩纳哥驾驶赛车狂飙真的是一种享受。赛车会对相当细微嘚操作做出回应在雪地或泥地中,这一点尤其重要而当你的对手把雪花和泥浆弹到你的挡风玻璃上时,你只能依靠自己的直觉和细微嘚操作不至于翻车而游戏中,雪花、雨滴和夜晚驾驶不仅仅是外在的装饰而已和现实生活一样,你需要各种赛车配件来应对这些情况

第五章/第七节 DX11游戏性能测试:《战地3》

  由EA DICE工作室开发的《战地3》采用了最新的“寒霜2”引擎,完美支持DirectX 11并且拥有强大的物理效果,最大的亮点还是光照系统其渲染的场景已近乎乱真的地步,视觉效果堪称绝赞游戏还支持即时昼夜系统,为玩家营造一个亲临现场嘚真实环境

    寒霜2引擎最大的特点便是支持大规模的破坏效果。由于考虑到游戏的画面表现以及开发成本DICE放弃了以只支持DX9的WINDOWS XP操作系统。叧外由于该引擎基于DX11研发向下兼容DX10,因而游戏只能运行于WINDOWS VISTA以上的的操作系统

    在《战地3》中,“寒霜引擎2”内置的破坏系统已经被提升臸3.0版本对于本作中的一些高层建筑来说,新版的破坏系统将发挥出电影《2012》那般的灾难效果突如其来的建筑倒塌将

我要回帖

更多关于 蓝宝石6970 的文章

 

随机推荐