EXCEL中依据产品要已出货数量翻译的数量去扣相应产品按交货期顺序对应的逐条订单数

今日笔记本导读
&&&&&&&&&买游戏本必读!移动版开普勒都有哪些
买游戏本必读!移动版开普勒都有哪些
日 00:15&出处:&【原创】 作者:吴琼(编辑) 编辑:吴琼(编辑)
CUDA暴增!移动版开普勒显著特征
Kepler最显著特性:CUDA数量暴增
&&& N卡在效率上领先于A卡是不争的事实,但流数量较少,浮点运算性能较低也是急需解决的问题。为此,在Kepler架构中,NVIDIA降低了控制逻辑单元和指令发射器的比例,用较少的逻辑单元去控制更多的CUDA核心,借此节省了不少用于逻辑控制单元的晶体管数量,同时借助先进的28nm制程,最终实现了CUDA数量质的飞跃。
&&& 也正因为此,我们不能再以CUDA核心数去判断Kepler与Fermi性能的孰优孰劣,这两个数字没有任何可比性。
&&& 图为桌面版Kepler S架构图,可以看到,之前Fermi架构下,一个SM单元拥有32个CUDA核心,而Kepler则拥有高达192个,并更名为S。
&&& 移动版Kepler在晶体管数量上虽然有所精简,但总体情况类似,CUDA核心数也是大幅增加的,动辄几百就不难理解了。
Kepler第二特征:大幅加强的核心/显存频率
&&& 从桌面版GeForce GTX 680来看,NVIDIA在Kepler架构中取消了“CUDA频率为GPU频率2倍”的特性,并对新的核心频率以及显存频率进行了大幅提升(分别达到了1GHz与6GHz,全面领先于Fermi)。而这样的特性对移动版来说或多或少也会适用。
Kepler性能表现:GT 640M等同于GTX 460M!
&&& 对来说,Kepler最大的意义莫过于效能的大幅改善。根据NVIDIA官方文档,在同等性能表现下,Kepler的TDP仅为Fermi的一半儿,这意味着笔记本在不损失图形性能的条件下,功耗可以更低,发热也更少,续航时间可以被得到延长,厚度、重量也会降低,更容易携带,配备Kepler的也会如雨后春笋般涌现。届时,笔记本将会达到更为完美的形态。
&&& 性能方面,根据notebookcheck网站放出的数据,基于Kepler架构的NVIDIA GeForce GT 640M的3DMark Vantage成绩为6631(P模式,GPU),而上一代的GeForce GTX 460M得分为6762.2,两者较为接近。看来NVIDIA之前给出的“GT 640M将拥有GTX 460M的性能”的说法确有此事。
提示:试试“← →”可以实现快速翻页
延伸阅读:&&&&&&&&
数字验证码:
热点评测 相关阅读 推荐文章 论坛热帖
新品 | 美图 | 美图 | 新品 | 美图 | 新品 | 开箱 |
图文精选推荐产品热门产品高清大图
· · · · · · · · · ·
汽车之家内容精选Fermi二代GF110显示核心特性解析
  GF110与GF100从表面上看似乎没有什么大的区别,架构没有任何改变,那么NVIDIA为什么当初的GTX480不做满512个CUDA核心?是因为留了一手打击对手还是因为工艺的原因?我想兴许两方面原因都可能有。  GF100芯片透视图    这次GTX580在半导体芯片的纹理过滤及内轴的压缩上进行了很大的优化,所以GTX580做满了fermi全架构产品。算法的改变以及工艺的优化是否能在性能获得了非常大的提升?这是我们拭目以待的,请关注后面的评测数据。    GF110核心规格:  -512个CUDA核心  -4个GPC(图形处理器集群)  -4个Raster Engine(光栅化引擎)  -16个SM(流处理器簇)  -16个PolyMorph Engine(多形体引擎)  -64个纹理单元  -48个光栅单元  -384bit GDDR5显存控制器  GF110被NVIDIA定义为CUDA计算与图形架构,在GF110上,NVIDIA引入了GPU图形处理器集群的全新概念,摈弃了过去的TPC概念。GF10由四组GPC构成,每组GPC内部包含了除了ROP单元以外的SM阵列、PolyMorph Engine等基本图形运算单元,可以将顶点、几何、光栅、纹理以及像素等处理资源进行有机整合。兴许我们可以将一组GPC看成是一个可以执行绝大部分指令的GPU核心,而GF110就是由四个这样的核心组成。  GF110关键词解析:多边形引擎  从以上的架构图等大家可以看出来,GF110与GF100在架构方面并没有本事上的区别。而在GTX480首测的时候,我们已经对GF100的架构作了详细讲解,所以今天,我想就几个点再次拎出来再给大家做一个简单的回顾。  GF100关键词之Raster Engine和Polymorph Engine  NVIDIA认为成熟的GT200架构已经无法适应大规模的tessellation计算,决定为DX11产品设计全新的图形架构。而并行化的Raster Engine和Polymorph Engine就是并行处理架构上的关键模块。    Polymorph Engine运算过程  顶点拾取、曲面细分、观察口转换、属性设置和流式输出是Polymorph Engine工作的五个阶段。任意阶段的运算都会被发送至一组SM。该SM将执行游戏的着色程序并将计算结果返回至Polymorph Engine的下一个阶段。所有阶段性计算完成之后,结果再传输给Raster Engine。    Raster Engine运算过程  每个Polymorph Engine都拥有专属的顶点获取单元以及tessellator,很大得提高了几何性能。另外,四个并行的Raster Engine与之遥相呼应,他们在每个时钟周期内设置最多四个三角形。  GF100关键词之创新SM阵列    在GF110中,一个GPC由四组SM阵列组成,每一组SM阵列具备32个流处理器、一个PolyMorph Engine多形体引擎、16个Store单元、四个SFU单元和纹理单元、两个Warp调度器和指令发送器、能配置为48KB Shared Memory+16KB L1缓存或者16KB Shared Memory+48KB L1缓存的共享内存/L1缓存。在AMD统一渲染架构的GPU中,类似SM等级的部件是SIMD Core,例如RV870拥有20个SIMD Core。  GF110关键词之纹理单元  在GF110中,每个SM配备了四个纹理单元,共计64个。和上一代GT200以及竞争对手Cypress的80个纹理单元想必,GF110的纹理单元数量不但没有提升,反而下降了。NVIDIA通过将纹理单元移植到SM中的设计来提升纹理单元的使用效率和时钟频率。一个纹理单元在一个时钟周期内能够计算一格纹理地址并获取四个纹理采样,可以支持包括双线性、三线性在内的各项异性过滤模式。  GF110关键词之Shared Memory和L1/L2 cache    GF110的L1/L2缓存  在G80和GT200中,每个SM都有16KB的shared memory。而fermi中,每个SM拥有16KB的shared memory,能配置为48KB shared memory+16KB L1 cache或者16KB shared memory+48KB L1 cache的模式。程序员可以自己编写一段小程序,把shared memory 当成cache来使用,由软件负责实现数据的读写和一致性管理。而在GF100中,其提供了768KB的一体化L2 cache,L2 cache为左右的Load/Store以及纹理请求提供高速缓存。L2 chche上读取的数据都是连贯的,它实现了GPU高效横跨数据共享,对于那些无法预知数据地址的算法,例如物理结算期、光线追踪以及稀疏矩阵乘法都可以从Fermi的内存设计中获益。  GF110关键词之ROP单元  GF110包含六个ROP分区,一格ROP分区包括了8个ROP单元,共计48个ROP单元。一格ROP单元能在一个时钟周期内输出一格32位整数像素,理论上,由于ROP的压缩效率和ROP单元数量的提升,GF110在8x抗锯齿下的性能会得到明显改善。相信大家在GTX480发布之后就看到了相关数据,不过在本次的测试中,我们主要针对GTX580对GTX480的性能提升,抗锯齿部分采用4X且并没有对比。  GF110关键词解析:Tessellation  在AMD发布第二代HD6800系列之后,NVIDIA紧跟其后发布GTX580显卡,这次并没有落下。显然,二代DX11显卡同样具备以下特性:  1. Tessellation:镶嵌式细分曲面技术  2. Multi-Threading:多线程处理  3. DirectCompute 11:计算着色器  4. ShaderModel 5.0:着色器模型5.0版  5. Texture Compression:纹理压缩  当GTX480发布出来之后。  DX11特性解读之Tessellation  最初Tessellation这个词眼出现在AMD显卡中,AMD也抢占DX11市场半年之久,可是在DX11发展初期大肆宣扬“曲面细分”的却是NVIDIA。DX8/9/10时代,大部分的重点都是侧重在画面渲染这一块,没有侧重在三角形几何图形的处理上面。在过去的这些年中,画面渲染进步了100倍,但是三角形几何图形的处理却仅仅进步了3倍。到了DX11,微软推出这样一个API,所以尽管AMD早先发布半年,但NVIDIA才是真正抢占了DX11市场先机。    在以前,我们通过一个前端电路控制模块来汇集,获取和对三角形光栅化。在那个几何运算并不复杂的时代,像这种固定的流水线操作可以达到几何运算性能,并不会因为并行核心的增删而改变。随着几何运算的复杂性逐步增加,DX11引入了Tessellation,NVIDIA认为成熟的GT200架构已经无法适应大规模的Tessellation计算,所以GF100全新架构的诞生也就势在必行,而GF110的应运而生则使GTX580在各方面的表现更加趋于完美。  并行化的Raster Engine和PolyMorph Engine就是并行处理架构上的关键模块。可扩展的PolyMorph Engine能实现较高的三角形速率,每个PolyMorph Engine均拥有专属的顶点获取单元以及Tessellator,很好的提升了几何性能。与之呼应的是四个并行的Raster Engine,它们能在每个时钟周期内设置最多四个三角形,并且在三角形获取,曲面细分以及光栅操作方面具备很强的性能。  Tessellation实现原理(整合于网络)  Tessellation技术是一种能够在图形芯片内部自动创造顶点,使模型细化,从而获得更好画面效果的技术。Tessellation能自动创造出数百倍与原始模型的顶点,这些不是虚拟的顶点,而是实实在在的顶点,效果是等同于建模的时候直接设计出来的。  下面这张图算是比较简单明了的体现出了曲面细分的一些东西。我们看到,三角形越多,我们看到的画面就越趋于真实。    Tessellation技术是完全可编程的,它提供了多种插值顶点位置的方法来创造各种曲面:  1. N-Patch曲面,就是和当年TruForm技术一样,根据基础三角形顶点的法线决定曲面;  2. 贝塞尔曲面,根据贝塞尔曲线的公式计算顶点的位置;  3. B-Spline、NURBs、NUBs曲线(这三种曲线均为CAD领域常用曲线,在Maya中均有相应工具可以生成)  4. 通过递归算法接近Catmull-Clark极限曲面。  NVIDIA特色技术:光线追踪  特色技术之光线追踪  光线追踪其实并不是什么新技术,只是由于门槛过高,民用级显卡还无法驾驭它。光线追踪是一项可以大幅增加场面真实感的渲染技术,能够利用计算机构建出以假乱真的视觉画面。我们可以简单得这样认为:光线追踪直接操控屏幕的背光,让每个像素都对应真实场景的光反射。如果从人眼的角度来看,光线追踪与真实视觉的远离相同,区别仅在于真实视觉系统中,光线的数量可以分解为无穷大,但是在计算机的视觉系统中,光线的数量是有限的,只不过当光线的数量达到一定临界点时,人眼就无法再加以区分。    GF110图形架构为光线追踪作了特别的优化,由于其在硬件上支持循环操作,即与光线追踪的工作轨迹同步,L1/L2缓存也提供了效率和带宽。    光线追踪渲染图  光线追踪渲染图  光线追踪渲染图  光线追踪渲染图  NVIDIA特色技术:3D立体环绕  完善软硬兼施3D立体环绕  特色技术之3D Vision Surround  一年前的暑假,卖场里到处摆放的是NVIDIA的3D游戏演示,还记得那个游戏的名字叫《鬼泣4》。随着下半年《阿凡达》的热映,3D的脚步离我们越来越近。  在GTX480发布的时候,NVIDIA方面对3D的概念又一次推到一个新高,不过当时不管在游戏方面还是自身软硬件方面都还不够完善。不过经过半年之久,购买一块NVIDIA显卡配上最便宜的红蓝眼镜就可以享受3D。    随着3D相机,3D显示器,3D电视机等产品的推出,以及各种游戏的3D版本上市推动了3D普及速度。而普及之后价格的平民化必将是趋势。    如果你想组建3D vision surround则需要以下配备:三台具备120Hz刷新率的显示器+NVIDIA 3D立体环境+SLI系统+Dual Link标准的DVI线缆。    3D装备  无论从3D立体技术的原理还是目前3D立体技术的成熟度,还是用户不断追求更真实的游戏体验的推力,乃至3D立体产业的发展趋势来看,我们都有理由相信3D立体显示技术奖在未来占据更重要的位置。而游戏的发展趋势则更加不用说了。也许你会为了玩游戏而买一台ipad或者itouch,或许你会认为将来的游戏手持设备平台,家用游戏机与电脑游戏平台三个平台上都会有一个稳定的发展。在游戏的模式上,体感和多模式也是发展的趋势。但是视觉的冲击上绝对属于3D。  NVIDIA特色技术:PhysX  以往通过DirectX的升级我们能够看到更多以往无法体验的性能和画面特质,因此DirectX API一直对显示核心有着深入的影响,随着Windows7的发布,微软也为我们带来了最新一代DirectX 11,但是我们发现了一个有趣的现象,DirectX 10技术发展至今,已经近三年时间,不过许多最新发布的游戏大作依然采用DX9 API或提供DX9模式。游戏画面的提升已经达到一个很高水平,于是NVIDIA将创新重点转换到了通用计算,并通过优化通用计算架构来进行物理运算,使玩家游戏时的用户体验。    《蝙蝠侠》中的爆破场景  物理特效能够增强3D游戏的互动性和真实性,游戏场景中物体的真实物理运动才可以让体验者产生到更加逼真的游戏体验。目前游戏中最常用的3D物理加速技术分为两种,第一种是Intel旗下、AMD推崇的Havok物理加速引擎,在AMD宣布Radeon HD显卡支持Haovk GPU加速之前,所有Havok游戏都是基于CPU物理运算开发的,采用该技术的游戏已经有几百款,但在游戏大作中,我们已经很久没有看到Havok的身影了。第二种物理引擎则是近期非常火热,隶属于NVIDIA门下的PhysX物理加速技术,与Havok相比,PhysX虽然也可以利用CPU进行物理运算,但运行效率却远不及NVIDIA GPU,但支持PhysX GPU加速的游戏新作已经越来越多。    《镜之边缘》中的爆破场景  随着THQ、EA、2K、SEGA等游戏大厂和著名游戏引擎的加入,PhysX物理加速技术将会被融入未来更多的游戏大作中,除了虚幻竞技场三、尖峰战士、镜之边缘等PhysX游戏外,圣域2堕落天使、雪域危机、一舞成名等单机、网络游戏中,都充分体现出了PhysX物理加速技术的有优势,支持PhysX的游戏越来越多,PhysX GPU加速的应用将在今后的游戏中得到更多的实际应用。    《一舞成名》中的服装物理效果  《雪域危机》中的流体物理特效  《圣域2》中的魔法物理特效(来源:原创)  【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
11/11 00:25
感谢您的参与!查看[]
| 光明网IT | 环球网科技 | 虎嗅网 |
| DOIT| 安防知识网 | 站长网 |
第一家电网 |
科技资讯网 |
驱动中国 | 华北新闻网 | 蝌蚪五线谱网 | 大公科技 |
| 畅享网 | UC浏览器 | 移联名商 | 华强北 | 中国电子银行网 | 一财科技 | XDA智能手机网 | ZDNet至顶网| 蜂鸟网| e-works |博瑞网 |央广网科技 |会计家园 |
| 申请友链
新闻热线:010-
招商电话:010-
E-mail: it@
地址:北京市朝阳区朝阳门外大街22号泛利大厦11层
邮编:100020
传真:010-Fermi秘史 揭秘难产核心前生今世的故事_硬件_科技时代_新浪网
Fermi秘史 揭秘难产核心前生今世的故事
作者:中关村在线 林光楠
第1页:简单讲述Fermi人前人后那点事简单讲述Fermi人前人后那点事
&&  & Fermi,对于DIY爱好者来说它是“让人欢喜让人忧”。喜的是Fermi的性能、规格及功能足以颠覆GPU传统概念,忧的是从得知有这款产品到现在仍然没有发布,而对手的DirectX 11产品已经在半年前发布。
&&&&  笔者为何认为Fermi能够颠覆传统GPU概念?为何Fermi如此难产,在对手已经将Radeon HD 5000系列布局均已完毕的前提下仍没推出DirectX 11产品?今天笔者将会通过总结网络各路消息和自己知道的有关Fermi消息进行汇总,从而揭开它神秘面。
&&&&  ● 第一次亮相震惊全球 却是马甲
&&&&  在去年Fermi一直是只闻其声不见其人,即便到今天为止基于Fermi的GeForce产品仍处于高度机密的状态,这种前所未有的保密措施让我们对这个神秘的产品产生了浓厚好奇心。
&&&&  Fermi相关产品第一次官方亮相,当属日NVIDIA在美国圣何塞举办的GTC大会上,NVIDIA首席执行官黄仁勋左手携Fermi高调亮相,虽然这款产品当时为Tesla系列产品,并非图形产品的GeForce和Quadro,但是由于其神秘的魅力还是震惊了在场所有观众和全球用户。
NVIDIA GTC大会黄仁勋先生展示Fermi
&&&&  Fermi这次亮相,全球媒体和用户都在猜测它是成品卡还是无法工作的样品卡,虽然当时各种官方说明都表展示卡为成品卡,但是眼尖的发烧友还是发现它的各种漏洞,最终官方不得不承认其仅为样卡。但无论它是样卡还是成品卡,这次亮相着实让全球用户为之振奋,起码其已经进入到最后调试阶段。(相关报道请见《NV GTC大会拉开帷幕 开启GPU计算新纪元》)
&&&&  野史:这次尴尬的高调亮相,并不是因为NVIDIA还没有设计好Fermi,而是台积电为其代工图形核心良率一直不佳导致。从而让即使是芯片设计厂商的NVIDIA手里,也没有几个可以用于实际测试的可运行样品(据传当时仅有的几颗打样核心全都坏了),所以在NVIDIA GTC大会上仅用马甲展示,而非实际样卡运行演示。
&&&&  ● Fermi二次亮相 不做最早只做最好
&&&&  相隔NVIDIA GTC大会半个月后,黄仁勋先生来到中国,作为NVIDIA产品消费能力最大的一个市场,任何厂商都不会对中国放松。本站作为国内重量级IT垂直门户得到黄仁勋先生的认可,同时在10月27日中关村在线视频直播间,黄仁勋先生接受本站独家直播专访,并在专访过程中官方第二次展示Fermi产品。
黄仁勋先生展示Fermi产品
&&&&&  黄仁勋先生此次在本站与网友零距离的互动直播中,让我们更进一步了解了NVIDIA在下一步DirectX 11产品――Fermi上的计划。同时黄仁勋先生坦承的表示,虽然对手已经领先我们推出了DirectX 11产品,但我们只追求更好的功能、性能,而不是为了抢先发布而发布。虽然对于我们用户而言,晚发布确实遗憾但如果能通过更强劲的性能和功能来弥补,又何乐而不为呢?(相关报道请见《黄仁勋:Fermi值得期待 新架构新纪元》)
&&&&  野史:黄仁勋先生结束中国大陆之旅后,传闻直接飞往台湾与台积电高层进行,就生产线及良率问题展开密切合作,足见无论是消费者还是NVIDIA都对Fermi有着非常急切的心态。
&&&&  ● Fermi第三次亮相 只可远观不可亵玩焉
&&&&  时间调整至日,地点全球著名赌城拉斯维加斯,一年一度的CES(美国国际消费电子展)隆重召开。NVIDIA作为视觉领域的领军人物自然不会错过这个展会,同时也会展示自己最为先进的技术和最强的新品。
装有Fermi产品的演示整机
&&&&  作为CES的官方合作媒体,中关村在线对整个会场做了全程跟踪报道,其中就包括NVIDIA的Fermi展示。作为Fermi的第三次官方亮相,并没有比上两次好多少,虽然展示了可运行整机,但是机箱内部不让拍照导致我们无缘Fermi for GeForce产品的真面目。不过在技术展示中,我们见到了NVIDIA针对AMD Eyefinity技术设计的NVIDIA 3D Vision Surround技术。(相关报道请见《美国CES直击 NV首款DX11显卡Fermi演示》)
&&&&  PS:Fermi的再一次“犹抱琵琶半遮面”亮相,让我们着实的感受到Fermi在良率上的困扰,同时也让我们对Fermi的无限期跳票感到无奈。
&&&&  ● Fermi第四次即将亮相 期待CeBIT
&&&&  与ComputeX、CES齐名的CeBIT(信息及通信技术博览会)将于3月2日在德国汉诺威召开,此次NVIDIA一如既往的会加入到其中,而且NVIDIA此次在展会上的重中之重仍然是Fermi。
》CeBIT 2010专题报道《
&&&&  Fermi相隔上一次CES亮相2个月后又会有何进展呢?一切都是未知数,让我们期待Fermi的第四次亮相,会给我们带来真正的惊喜,而不是一次又一次的失落。
&&&&  野史:据传基于Fermi图形核心的GeForce产品将于3月26日正式发布,也就是说在CeBIT电脑展上应该会有成熟且和正常、稳定运行的相关产品。同时笔者了解到,此次参加CeBIT的AIC板卡厂商也会跟进展示Fermi相关GeForce系列产品,从另一个角度印证Fermi已经蓄势待发。
第2页:GTX480/GTX470身份亮相 蓄势待发
GTX480/GTX470身份亮相 蓄势待发
&&&&  NVIDIA下一代图形核心以Fermi作为代号,而实际产品型号一直被广大网友猜测为GeForce GTX 300系列,最顶级产品将会叫做GeForce GTX 380。会有这样的猜测,主要是根据NVIDIA以往产品的命名规则而得。不过遗憾的是,这次NVIDIA并没有按套路出牌,基于Fermi图形核心的GeForce顶级系列产品命名为GeForce GTX 480和GeForce GTX 470。
&&&&  关于GeForce GTX 400系列产品性能众说纷纭,有说能与Radeon HD 5970抗衡,有说比Radeon HD 5870强30%,不过无论怎样笔者分析,既然已经比对手晚出半年之久,强是理所当然的,但强多少是用户和NVIDIA都非常关心的。
&&&&  我们知道,在核心架构及规格确定的前提下,频率是最直接影响性能的参数,但同时频率的高低同时影响产品功耗及温度,最终影响产品返修率。为了达到稳胜前提下,又能保证功耗、温度及返修率的平衡性,NVIDIA目前还没有最终确定GeForce GTX 480和GeForce GTX 470频率,甚至有消息称GeForce GTX 470的频率将在即将开展的CeBIT 2010上才公布,足见NVIDIA的谨慎性。
&&&&  ● 核心架构浅析 Fermi并非GT200高规格版
&&&&  我们知道直接影响性能的参数当属硬件规格和产品频率,但是高规格和高频率的实现必须由晶体管来足见完成,GT200第一批产品是一个采用65nm制程的14亿晶体管庞然大物,由于成本、性能等各方面的考虑,在2009年1月推出了55nm制程的GT200核心,但核心面积依然庞大。反观对手AMD,在核心制程上一直走在前沿,例如Radeon HD 5000系列直接使用40nm制程,即使最高规格的RV870拥有21.5亿核心面积也仅为330mm2。
Fermi GF100设计架构
&&&&  众所周知,Fermi为了达到更高的性能将使用30亿晶体管,如果NVIDIA一如既往的保守采用成熟的低制程,将会重蹈GT200覆辙,所以Fermi方面NVIDIA从设计之初就决定使用40nm工艺。虽然出发点是好的,但无奈GPU代工生产方台积电良率过低,彻底延误了NVIDIA下一代产品的推进进度。
&&&&  不过无论怎样还是让我们了解一下Fermi GF100的核心硬件规格:
①标配512个CUDA Cores(也就是我们常说的流处理器);②拥有16个Polymorph Engines(下文会对其进行简介);③拥有4个Raster Engines(下文会对其进行简介);④拥有64个纹理单元;⑤拥有48个ROP单元(光栅处理器);⑥拥有384位GDDR5内存控制器。
&&&&  ●由繁化简 GF100结构组成细说
&&&&  我们可以这样认为NVIDIA的第一代CUDA机构是从G80开始延伸至GT200,而Fermi将是第二代CUDA架构产品。G80核心的诞生奠定了NVIDIA未来核心架构的主方向,并一直延续至GT200,当然在发展的过程中NVIDIA还是会对核心整体进行优化调整,但总体来说就是累积晶体管增加硬件规格,功能方面并无变化。反观Fermi,核心硬件规格数量相比GT200确实也有大幅增长,但是在产品整体架构上Fermi做了很大改动,可以说是颠覆性改动,它不仅仅是借鉴的以前的成熟架构体系,还调整并在架构上新增功能模块,令Fermi不再简简单单的是图形核心,而是一个复合型功能核心。
NVIDIA Fermi GF100 SM架构
&&&&  在NVIDIA产品进入DirectX 10的统一架构后,我们看到核心中引入了TPC(Thread Processing Cluster)、SM(Streaming Mulitporcessor)和SP(Streaming Processor)等新概念。例如,G80拥有8个TPC,每个TPC拥有2个SM,每个SM拥有8个SP,这种由繁化简的结构一直延续在NVIDIA的图形产品中。那么Fermi GF100呢?下面笔者用表格进行一个汇总:
理 论 性 能 测 试
每颗GPU含TPC数量
每个TPC含SM数量
每个SM含SP数量
&&&&  通过上面的GF100 SM架构图以及各代顶级芯片的组成我们可以看出,SM矩阵数量在减少(上表中的GPC和TPC),而每个GPC中SM数量和每组SM中SP数量在增加。在这中架构设计理念上GF100虽然是延续了G80的组成设计,但是每个组成模块的数量优化上有了大幅改变。
图片源于Anandtech
&&&&  当然仅是在数量优化上做改变还不能称为第二代CUDA架构,我们在GF100核心架构图和SM架构图上可以看到,相比G80/92和GT200核心架构多了Polymorph Engines和Raster Engines功能模块组。那么它们又是做什么的呢?
全新的Polymorph Engines和Raster Engines
&&&&&  我们可以这样简单的理解,在数据处理流程中的一些功能模块现组成了现在的Polymorph Engines和Raster Engines。其中Polymorph Engines包括Vertex Fetch、Tessllator、Viewport Transform、Attribute Setup和Stream Output,Raster Engines包括Edge Setup、Raterize和Z-Cull。
GF100对比RV870 Tessellation性能
&&&&  值得一提的是DirectX 11中Tessellation功能是必不可缺的,而Tessellator并不是使用SP来完成,而是采用独立功能模块完成,在这一点上与AMD的做法一致。但不同的是,AMD的Tessellator采用串行计算模式,也就是说核心中只有一个Tessellator功能模块,数据计算从分配到接收Tessellator会成为瓶颈。反观NVIDIA的GF100核心,每组SM拥有一个Polymorph Engines,这也就意味着一个GF100核心拥有16个Tessellator功能模块,在Tessellation多数据并行计算方面GF100遥遥领先RV870。
Polymorph Engines和Raster Engines在GF100中的设计
&&&&  前文提过每组SM都会标配一个Polymorph Engines,同时每组GPC将独立拥有一个Raster Engines,这样的设计都是增加各种数据计算的并行效果,相比RV870的非Shader计算串行设计要优越很多。
&&&&  ● 真正缓存概念引入GPU
&&&&&  为了增加计算单元的效能,缓存的概念引入到功能处理器中,例如CPU现在已经拥有L1、L2和L3三个等级缓存,而在GPU中缓存概念还是十分模糊。
GF100引入L2缓存
&&&&  为了增加GPU的计算能力和计算效率,NVIDIA工程师大胆的将缓存概念引入到GF100中,自然引入缓存势必需要大量晶体管完成,在这点上与CPU道理相同。为了在满足数据计算吞吐率的前提下,NVIDIA工程师为GF100设计了一套实用并灵活的L1和L2。
GT200与GF100缓存设计对比
&&&&  我们通过上面表格可以看到,在GT200核心中有L1纹理缓存、16KB共享内存和256KB的L2缓存。笔者需要说明的是GT200没有专用L1缓存,只有L1纹理缓存和只读L2缓存,也就是说GT200没有真正意义上的缓存概念。
&&&&  反观GF100核心,除同样拥有12KB的L1纹理缓存之外,其拥有真正意义的L1缓存和L2可读写缓存。就每组SM而言,每组SM拥有4个纹理单元共享12KB的L1纹理缓存,32个流处理器使用16KB L1缓存搭配48KB共享缓存或48KB L1缓存搭配16KB共享缓存两种组合,最后还有768KB超大L2缓存。
第3页:强大性能实现更高反锯齿/阴影效果
强大性能实现更高反锯齿/阴影效果
&&&&  Anti-Aliasing(反锯齿)一直是用户较为关心的显卡功能,因为反锯齿效能直接决定游戏流畅度及画面效果。我们会在游戏画质设置中或者显卡控制面板中找到这个选项,例如开启2X、4X、8X等等,级别越高画质越好,对显卡性能要求越高。
&&&&  通常我们所说的2倍、4倍和8倍抗锯齿都是指SSAA(SuperSampling Anti-Aliasing),虽然该种反锯齿技术效果最佳,但是对GPU资源消耗十分严重。后来在SSAA基础上衍生出了MSAA(MultiSampling Anti-Aliasing),它的特点就是进针对3D建模中边缘部分进行类似SSAA的反锯齿计算,这样在达到相近于SSAA效果前提下减少了GPU资源的消耗。
&&&&  随后,当NVIDIA在2006年底发布G80图形核心时,一同与其来到的还有全新的反锯齿算法――CSAA(CoverageSampling Anti-Aliasing),它是在MSAA基础上由NVIDIA开发而来。CSAA与MSAA一样是针对3D建模边缘部分进行反锯齿计算,不同的是CSAA是通过驱动将边缘原像素强制放在750*750的坐标中,然后在多边形取样并做相应设置的覆盖采样(CoverageSampling),从而实现与SSAA在GPU资源消耗基本相同前提下效果更佳。
&&&&  ● GF100提供更高级别CSAA
GF100能够单卡实现32x CSAA
&&&&  在G80引入CSAA后,NVIDIA单GPU最高可实现16CSAA,要想实现更高的反锯齿倍数,必须通过组建SLI模式,这主要是从单GPU性能角度出发。而在GF100核心中,单GPU可以实现32X CSAA效果。通过对比上图中的8X AA和32X CSAA,我们可以轻松看出反锯齿效果。
32X CSAA实现原理
&&&&  32X CSAA实际上是8X的颜色采样和24X的覆盖采样,在750*750的采样坐标中8个蓝色点为实际采样点,同时通过驱动分配机制每个实际采样点周围再计算出3个覆盖采样,从而实现8X AA + 24X CSAA的32X CSAA效果。
GF100 32X CSAA效果
GT200 16X CSAA效果
&&&&  由于GT200仅能实现最高16X CSAA(8X AA + 8X CSAA),所以在效果上完全无法匹敌能够实现32X CSAA的GF100图形核心。
GF100/GT200反锯齿资源消耗对比
&&&&  通过前文我们知道无论何种反锯齿技术,只要选择更高倍数的反锯齿模式都会带来更高的画质,但这就要付出更多的GPU资源。NVIDIA在GF100产品上通过架构优化,不仅反锯齿效能大幅领先GT200,同时由4X AA提升至8X AA时的GPU资源消耗也要低很多。
8X AA对比32X CSAA资源消耗
&&&&  单卡最高级别的8X AA和32X CSAA都能获得非常好的画面效果,但32X CSAA的效果要更好于8X AA,理论上也要付出更多的GPU资源消耗。不过在实际中,8X AA与32X CSAA的GPU资源基本相当,也就是说GF100提供了更强劲的反锯齿技术。
&&&&  ● GF100实现33级别TMAA
TMAA(透明多重采样反锯齿)
&&&&  TMAA(Transparency Adaptive Multisampling)是在MSAA基础上衍生而来,主要针对细长物体缺乏Alpha混色能力的难题,例如植物、栅栏和树叶等。TMAA通过控制纹理贴图的Alpha值,对细长3D模型进行Alpha混色,令画面细长物体渲染效果更加完善。
GT200 TMAA效果
GF100 TMAA效果
&&&&  GF100在TMAA计算上也有了长足进步,对比上面两副图明显是GF100的TMAA效果优于GT 200 TMAA效果。这都得益于GF100能够实现更加透明的过度色质量处理,其总共分为33个透明级别,而GT200只能望尘莫及。
&&&&  ● Gather 4助力抖动采样
&&&&  我们知道虚拟3D世界中物体是由数以万计的三角形组成,如果想要消除锯齿,我们可以像MSAA那样通过查找3D建模边缘进行反锯齿计算。而虚拟3D世界中的物体产生的阴影则是事实计算而来,也就是说无法普通的反锯齿模式无法对阴影进行反锯齿计算。
&&&&&  Jittered Sampling(抖动采样)就是针对阴影边缘和各种后期处理一项技术,通过对邻近纹理像素进行采样来计算并创建更柔或更模糊的阴影边缘效果,当然这部分计算非常消耗GPU资源。在DirectX 9 API和DirectX 10 API下,抖动采样会采样每一个纹理像素,而到了DirectX 10.1 API后改用Gather 4指令进行处理。当然在DirectX 11 API下,仍然由Gather 4指令来完成抖动采样计算。
3DMark 06抖动采样效果
3DMark 06抖动采样效果
&&&&  效果不言而喻,更合乎真实3D世界的阴影效果处理,让我们真实感受GF100带来的震撼效能。
第4页:3D效能出色 Fermi计算能力更出众
Fermi并非简单图形核心 而是计算核心
&&&&  随着图形核心统一架构的诞生,图形核心不再仅为3D渲染而活,在高密度并行计算能力上图形核心得天独厚的架构优势让其走出了一条新出路。在图形核心非3D计算方面,NVIDIA一直走在了最前沿,例如他们的CUDA架构更是延伸旗下每款产品,同时很多第三方软件公司也纷纷伸出橄榄枝。
&&&&  而且值得一提的是,GF100的计算引擎非常多样化,不仅仅局限在自家的CUDA上,例如微软的DirectCompute、Apple主导的OpenCL,还有PhysX、OptiX Ray Tracing等方面。
GF100计算架构在游戏上的优势
NVIDIA主打的PhysX计算
GF100在游戏中的实际计算用途
光线追踪计算
复杂的AI计算
GF100对比GT200计算性能
&&&&  通过前面展示的GF100在计算领域的示例,我们对比一下GF100和GT200之间的性能差距,PhysX流体DEMO为3倍、《Dark Void》物理游戏为2.1倍、汽车光线追踪DEMO为3.5倍,最后在AI计算能力上为3.4倍。
&&&&  ● 零存整取 Fermi信息汇总
&&&&  看完了前面枯燥的技术浅析,想必很多消费者对Fermi的憧憬愈加强烈。根据我们已知的消息来看,3月26日Fermi GF100的GeForce GTX 480和GeForce GTX 470将发布,届时本站会提供最全面的测试,同时有关Fermi的互动活动,例如拍卖、竞猜等也会纷纷与全国网友见面。
Fermi架构GPU新特性
&&&&  在文章最后,让我们对Fermi GF100进行一个简单总结。如果说,NVIDIA的G7X核心升级至G8X核心是具有革命性的改变,那么Fermi架构的GPU相对于G8X核心又有了第二次革命性的变革,从上图中我们能够了解的信息具体如下:
&&&&  ● 核心拥有30亿晶体管数量,超越GT200的14亿和RV870的21.5亿数量;&&&&  ● 拥有512个Shasder处理器,在Fermi架构中成为CUDA Coer,同时数量大于2倍GT200;&&&&  ● Fermi架构核心双精度峰值计算能力8倍于GT200核心;&&&&  ● 显存支持ECC校验;&&&&  ● CUDA for C升级至CUDA for C++。
&&&&  仅从官方给出的技术、特性及规格已经让我们看到了基于Fermi架构GPU产品的强大实力,不过下面列出的技术特性让我们更为Fermi架构产品感叹。
&&&&  ●&支持微软最新的DirectX 11,以及DirectCompute等;&&&&  ● Fermi架构的产品标配的显存不仅是第一块使用GDDR5的NVIDIA产品,还支持ECC校验;&&&&  ● Fermi架构核心仍有台积电采用40nm工艺制造;&&&&  ● 显存控制器升级为384bit;&&&&  ● Fermi架构GPU采用全新的集群设计,32个CUDA Core为一组;&&&&  ● Fermi架构是目前第一款片内拥有完整L1和L2缓存的GPU。
电话:010-

我要回帖

更多关于 月出货数量表格统计表 的文章

 

随机推荐