👴🏻 🤯 🎨 视频处理器历史，第4部分：通用GPU出现 🤹🏿 👨‍👧‍👦 ✋🏻

第1部分：1976-1995

第2部分：3Dfx Voodoo

第三部分：市场整合，英伟达与ATI之间竞争时代的开始

在DirectX 10到来之前，没有必要为芯片增加可选的复杂性，扩大芯片面积，增加顶点着色器的功能以及将像素着色器的浮点数的精度从24位提高到32位以满足顶点操作的要求。 DX10出现后，顶点和像素着色器保留了较高的整体功能，因此向通用着色器的过渡节省了许多不必要的处理块重复。第一个使用这种架构的GPU是Nvidia传奇的G80。

得益于四年的发展和4.75亿美元的投资，2006年11月8日首次在旗舰产品8800 GTX和8800 GTS 640MB上发布了具有6.81亿个晶体管和484mm²面积的怪物。超频的GTX 8800 Ultra是G80的巅峰之作。它在两个不太重要的产品之间发布：2月的320MB GTS和2007年11月19日限量发行的GTS 640MB / 112。

GTX配备了新的Coverage Sample anti-aliasing（CSAA）算法，由于其无与伦比的性能以一枚和两枚芯片击败了所有竞争对手。尽管取得了成功，但由于OEM合同的优势，AMD在第四季度失去了3％的独立显卡市场。

MSI的GeForce 8800 GTX

Nvidia G80商业战略的其余部分在2007年2月和2007年6月实现。基于C语言SDK（软件开发工具包）的CUDA平台以beta版本发布，从而使生态系统能够使用GPU的高度并行化性质。 CUDA平台使用Nvidia PhysX物理引擎以及分布式计算项目，专业可视化和Nvidia光线跟踪引擎OptiX。

Nvidia和ATI（现为AMD）都已将不断扩展的计算功能集成到图形管线中。 ATI / AMD决定依靠开发商和委员会来选择OpenCL路径，而Nvidia则制定了更紧密的计划，打算使用CUDA和高性能计算。

为此，Nvidia于6月发布了一系列数学Tesla协处理器，最初基于GeForce和Quadro FX 4600/5600中使用的同一G80内核。经过长时间的开发，在此过程中至少进行了两个（可能三个）认真的调试阶段，AMD于5月发布了R600。

媒体大肆宣传使AMD期待8800 GTX响应，但发布的HD 2900 XT令人失望。这是中等价格段上半部分的地图，其中能源消耗达到了专业产品的水平：它比所有现代系统消耗的电能更多。

R600错误的规模对ATI产生了重大影响，迫使该公司改变策略以更严格地按时完成任务并在发布新产品时最大程度地利用机会。在RV770（常绿）以及北部和南部岛屿系列中，性能得到了改善。

R600是当时最大的ATI / AMD GPU（420平方毫米），它在GPU中创造了其他记录。它是首款支持DirectX 10的AMD芯片，首款也是唯一一款具有512位内存总线的GPU，首款带有细分块的台式机芯片（由于游戏开发商的冷漠和缺乏DirectX支持而几乎从未使用过），首款集成了GPU的GPU。支持通过HDMI的音频，以及首个使用VLIW架构的产品。此外，自Radeon 7500发行以来，ATI / AMD首次没有进入价格和性能可与竞争对手媲美的功能最强大的卡市场。

AMD将R600升级为RV670，将台积电的80nm工艺技术缩减为55nm，并用更标准的256位总线取代了512位双向环形存储器总线。这使R600晶体的面积减少了一半，该晶体同时包含大约相同数量的晶体管（6.66亿个，而R600晶体为7亿个）。 AMD还升级了GPU以支持DX10.1，并增加了对PCI Express 2.0的支持。所有这些足以完成HD 2000系列，并与主流的GeForce 8800 GT和性能不佳的显卡竞争。

在没有高端GPU的情况下，AMD于2008年1月发布了两张双GPU卡，以及基于RV620 / 635的预算卡。 HD 3850 X2于4月上市，而最新的All-In-Wonder卡HD 3650则于6月上市。带有高品质驱动程序的双GPU卡立即发布，给评论家和客户留下了深刻的印象。 HD 3870 X2是最快的单卡，而HD 3850 X2却没有比它慢很多。与Nvidia的SLI系统不同，AMD通过标准ASIC实现了Crossfiring支持。

Radeon HD 3870 X2在一张卡上具有两个GPU

在G80成功的基础上，Nvidia于8800 GT上发布了G92，由于价格极具竞争力，该技术在许多技术网站上都受到好评。这款价格为512 MB的卡的价格介于199-249美元之间，这使基于G80的8800 GTS的购买毫无意义。基本上，它取代了在GT推出三个月后发布的HD 2900 XT和HD 3870，达到了GTX速度的大约80％。几周后市场开始出现8800 GT的短缺就不足为奇了。英伟达及其“兄弟” 8600 GS / GT对新产品的强劲需求使该公司在年底之前获得了离散卡市场的71％。

紧接GT之后，Nvidia在12月11日发布了基于G92的8800 GTS 512MB 。尽管总体价格/性能比与GT相比差，但GTS却通过使用功能更强大的GPU得以节省，这实际上使超频GTX与昂贵的8800 Ultra相提并论。

没有令人不愉快的后记，即在某些G86，G84，G84，G73，G72 / 72M GPU的BGA中以及在C51和MCP67图形芯片组中使用高铅焊料的情况下，GeForce 8系列的历史将是不完整的。这与低温填充，不足的冷却和强化的加热-冷却模式一起，导致异常多的卡故障。

在2008年中，Nvidia改用了AMD使用的日立高锡共晶焊料，并重新设计了8800 GT冷却器，增加了更多刀片，并对机箱进行了升级以改善散热。尽管基于8800 GTS 512M的双设备和带有非参考冷却器的卡并没有真正涉及到G92，但也怀疑G92受洪水问题的影响。

由于这个问题，该公司总共损失了4.759亿美元，这引起了消费者对Nvidia生产笔记本电脑的OEM合作伙伴的强烈负面反应-他们很早就知道了这个问题。英伟达在行业中的地位将永远与历史上最糟糕的时刻联系在一起。

如果说Series 8是Nvidia的技术胜利，那么Series 9预示着停滞期。阵容中的一个亮点是2008年2月发布的第一款车型。 9600 GT是基于“新” G94（实际上是去年修剪的G92）制造的，该G92采用的是台积电65nm工艺技术。

HD 3870和HD 3850的AMD大幅降价，以及8800 GS和GT Nvidia本身的价格下跌，迫使该系列9的其余部分重塑品牌。

最初的9800 GT用8800 GT进行了修改，而8800 GTS（G92）成为9800 GTX。改用55纳米TSMC工艺技术可将芯片面积减少20％，并允许略微增加时钟频率，以创建9800 GTX +，与OEM GTS 150以及GTS 250相同，后者在系列8的第一张卡上市15个月后进入零售渠道。

由于旗舰GT200的后期出现以及AMD HD 3870 X2现在是单卡竞赛的领导者，英伟达再次恢复了其传统，将GPU的数量增加了一倍，将两个9800 GT夹在中间，从而创建了9800 GX2。尽管该产品赢得了基准测试的竞争，但大多数观察者很快注意到，以三台单独的9800 GT的价格出售双9800 GT对买家而言并不十分吸引人。

GTX 260上的Nvidia G200 GPU

到6月，英伟达发布了带有GT200 GPU（576平方毫米）的GTX 260和GTX 280，这是当时最大的GPU芯片（英特尔Larrabee面积约为600-700mm²），也是台积电生产的最大的生产芯片。

GT200是英伟达再次引起人们对GPGPU的关注的尝试：它实现了用于双精度（FP64）和计算的专用设备。针对游戏的架构变化较为温和，但这并不能阻止Nvidia将280美元的价格定为649美元，并发布3D Vision驱动程序（用于3D游戏和视频）以及3D眼镜和红外发射器-这是非常昂贵的套件。

Nvidia GTX 200系列技术演示

在发布HD 4870和4850之后，价格大幅下降-GTX 280下降了38％，成本为400美元，而GTX 260下降了25％（299美元）。

AMD通过发布RV770来响应GT200和G92。第一张卡（针对HD 4730的较低主流细分市场）于6月8日发布，6月25日发行，随后是HD 4850和4870，面向主流和高级市场。卡的发行并没有引起什么大的轰动，因为规格“泄漏”得更早了，并且商店在NDA到期前一周开始销售HD 4850-这种情况通常在今天发生，但在2008年就没有发生。

4870和4850是英伟达18个月后在基于GT215的GT 240上实现的首款GDDR5消费类图形卡。

HD 4870和4850受到了非常积极的评价，其原因是功能广泛-通过HDMI的7.1 LPCM音频，具有多个GPU的整体性能和缩放比例以及价格，当然。该卡的唯一缺点是，它倾向于在参考板上的电压调节组件的区域内产生较高的局部温度，这会导致异常高的故障和冻结，尤其是在运行诸如Furmark之类的高负载应用程序时。

秉承前几代人的传统并感到有必要终止GTX 280两个月的领导地位，AMD于8月发布了HD 4870 X2。该卡很快就进入了包括性能在内的各种类别的基准测试的最高排名。同时，由于鼓风机的设计，不幸的是，它是产生噪音和散热类别的领导者。

Radeon HD 4870 X2（顶部）和Radeon HD 4870

2009年1月，由于将GT 200转移到55纳米台积电工艺技术，英伟达的产品阵容有了小幅增长。 B3版本芯片使用了55纳米，该芯片最初于去年9月作为Core 216 GTX 260卡出现，该公司发布了GTX 295，其中使用了两个截短的GT200-B3。

单GPU卡的一种变体在4月份发布，名称为GTX275。AMD的答案是：基于RV790XT和HD 4770（RV740）的升级的HD 4890，这也成为AMD的第一款40nm卡。

HD 4770虽然本身并不是特别重要的产品，但它为有问题的40纳米TSMC工艺技术提供了无与伦比的经验，该技术可在电流泄漏方面产生很大的可变性，并且由于GPU晶体中金属层之间的连接不完全而导致很高的抑制率。凭借这些经验，AMD能够改善制造工艺并消除Nvidia在开发Fermi架构时遇到的问题-在最初的40纳米Nvidia GPU中没有出现的问题。

Nvidia于7月发布了其首批40nm产品。低端GT216和GT218用于GeForce 205、210和GT 220，它们一直是OEM产品，直到十月份，最后两个都零售了。它们之所以如此出色，仅仅是因为它们成为首批支持DX10.1的Nvidia卡-AMD在HD 4870/4850中占据了榜首。此外，它们还具有7.1声音，无损LPCM，杜比TrueHD / DTS-HD / -HD-MA比特流和HDMI音频的增强音频功能。该系列针对家庭影院市场，并在2010年2月更名为300系列。

从2009年9月到2010年2月的四个月中，AMD推出了全系列的四个GPU（Cypress，Juniper，Redwood和Cedar），它们组成了Evergreen系列。该系列产品始于HD 5870高端细分市场，此后一周，HD 5850出现了平均价格水平的最高水平。

陷入困境的40纳米TSMC工艺技术使AMD无法利用Nvidia的Fermi缺席，因为大量需求超过了供应。这主要是由于AMD能够随着Windows 7的到来以及DirectX 11的普及而及时地发布Evergreen。

尽管DX11花费了一些时间才能显示出在Evergreen上的显着性能提升，但HD 5000中引入的另一个功能立即以Eyefinity的形式产生了影响，Eyefinity完全依赖于DisplayPort的灵活性，每板最多可提供六个显示管线。它们被重定向到标准DAC或内部TMDS和DisplayPort发送器的组合。

以前的图形卡通常结合使用VGA，DVI和HDMI，有时每个输出都需要一个单独的时钟源。这增加了GPU引脚的复杂度，大小和数量。 DisplayPort消除了对独立时钟速度的需求，使AMD能够在不牺牲用户软件性能的情况下将多达六个显示管线集成到设备中。同时，在边缘对帧进行补偿，并以最佳分辨率沿显示器拉伸显示器。

Eyefinity：ATI可扩展多显示器技术

Evergreen系列已成为所有主板中同类产品中的佼佼者（如果您不记得纹理过滤的问题）：HD 5850和HD 5770吸引了大量预算游戏玩家，而具有双GPU的HD 5870和HD 5970提供了无与伦比的性能水平。

六个月后，即4月12日，Nvidia终于以GTX 470和480的名义发布了第一批Fermi板。该公司的所有晶体均未完全发挥作用（随后的GF104也发生了同样的事情），因此Fermi内核的速度是为了降低功耗。由于Nvidia缺乏使用GDDR5 I / O的经验，因此使内存足够保守，并且内存带宽较低。

由于GF100费米晶体（529mm²）的尺寸，已经导致AMD出现供应问题的TSMC 40纳米工艺技术的最佳结果远远不能达到最佳效果。晶体的尺寸与不合格品的数量，功率要求和散热有关，因此与AMD系列相比，Nvidia 400系列在游戏性能上是值得的。

Quadro和Tesla变体中的GF100受专业市场已经建立的生态系统的影响要小得多。发行的卡的优点之一是出现了透明超采样抗混叠（TrSSAA）技术，该技术将与已经存在的覆盖率采样AA（CSAA）一起使用。

尽管GTX 480的问世相当冷淡，但第二枚Nvidia Fermi芯片，即GTX 460上的主流GF104，却取得了巨大的成功。它以高昂的价格提供了良好的性能，192bit / 768MB售价199美元，而256bit / 1GB售价229美元。由于Nvidia用于降低功耗的保守频率，该公司发布了许多具有显着超频能力的非参考和超频卡。

GF100发布后，人们的低期望值导致了部分热烈的接待460。他们表示，GF104将不超过GF100的一半，并且与AMD的Cypress GPU相比显得苍白。但是事实并非如此。 “专家”博客和AMD期待第二个惊喜：11月，Nvidia发布了GF100的更新版本-GF110。

升级后的产品设法实现了其前辈无法处理的功能-使用了芯片的整个区域。最终的GTX 570和580是最初的400系列应该的。

10月，AMD北岛系列中的第一个GPU Barts出现了。它更接近于Evergreen的进化发展，旨在降低赛普拉斯芯片的制造成本。它并没有提供明显的性能提升：GPU大约等于以前的HD 5830和HD 5850，但是显着减小了尺寸。 AMD减少了流处理器（着色器）的数量，重新设置了内存控制器并更改了其物理大小（因此，降低了内存速度），并拒绝了以双精度执行计算的功能。但是，与Evergreen相比，Barts的镶嵌效果有所改善。

尽管性能提升并不那么明显，但AMD改进了显示技术。DisplayPort已升级到1.2版（能够从一个端口控制多台显示器，能够以120 Hz的频率更新以显示高分辨率显示器和比特流音频），HDMI-版本1.4a（以1080p，4K屏幕分辨率播放3D视频）。该公司还添加了更新的具有DivX支持的视频解码器。

此外，AMD通过添加形态学抗锯齿（MLAA）（一种后处理模糊滤镜）提高了驱动程序的功能，后者的功能（尤其是在发布时）远非理想。

HD 6970和HD 6950在Catalyst驱动程序中添加了一种称为EQAA（增强质量AA）的平滑模式。此外，AMD还实现了对HD3D的基本支持，这是最奇特的功能，而且动态功耗也由PowerTune进行了介绍。

总体而言，开曼产品优于第一代Fermi芯片。他们本来可以击败它们，但它们比第二代（GTX 500系列）落后了几个百分点，随后两家公司发布的驱动程序加剧了波动。

Cayman的11月发布被推迟了一个月，12月15日，HD 6970和6950出现了（暂时）脱离了VLIW5架构，该架构是ATI / AMD自R300系列以来使用的。取而代之的是，该公司使用VLIW4，在每个线程处理块中都没有第五个特殊功能（或Transendental）块。

这样做是为了消除DX9（及更低版本）下用于游戏的过多资源，并同时重新组织图形管道。

基于VLIW4的唯一其他产品是APU Trinity和Richland系列的集成图形芯片。 AMD最新的图形架构基于GCN（Graphics Core Next），而VLIW5仍属于HD 8000系列，并更名为最低级别的Evergreen GPU。

延续GF100 / GF110的历史，GTX 460的后代-GTX 560 Ti-于2011年1月出现。该卡基于GF114，包含功能齐全的升级版GF104，并被证明与前代产品一样可靠，功能多样。在此基础上，发行了许多非参考版本，带有或不带有工厂超频。

AMD通过降低其HD 6950和6870的成本立即对此做出了反应，这使GTX 560 Ti的价格优势消失了。由于大多数主板合作伙伴提供的折扣，HD 6950，尤其是其具有1 GB内存的版本，已成为更具吸引力的购买方式。

参考板Nvidia GeForce GTX 590

Nvidia产品于2011年第二次大规模发布，即3月26日，开始爆炸。在GTX 590中，两块全功能GF110组合在一块板上。

这些板由未正确执行功率限制的驱动程序控制，并具有允许施加高压的BIOS。此缺陷导致过大的过压，从而导致MOSFET故障。 Nvidia通过创建更严格的BIOS和驱动程序纠正了这种情况，但是该版本伴随有贬义。在性能方面，GTX 590仅与两周前发布的双AMD HD 6990卡相当。

1月9日，计划中的AMD北岛-南岛处理器后代的发布计划开始，其中第一个是旗舰产品HD7970。这是PCI-E 3.0的第一张卡，该卡首先使用基于28纳米TSMC工艺技术的AMD GCN架构。仅三周后，第二张基于大溪地的卡HD 7950加入了7970，随后在2月15日在佛得角发布了主流卡。皮特凯恩基于GPU的性能卡已于3月上市。

这些卡看上去不错，但与以前的40纳米板相比，并没有提供明显的改进。这种价格以及较低的价格竞争力已成为HD 2000系列AMD的标准，两个月没有WHQL驱动程序，并且视频编解码器引擎（VCE）失效使许多潜在用户和审阅者的热情受到抑制。

大溪地产品的好处是证实了AMD可以提供超高的性能余量，这可以通过超频获得。这是功耗，散热片和时钟速度之间的折衷方案，但导致内核和内存频率保持保守。也许这也受到减少婚姻的需求以及基于开普勒的Nvidia GTX 680/670的低估的影响。

随着开普勒架构的发布，英伟达继续扩展其GPU功能。

在前几代产品中，Nvidia首先使用最先进的芯片来满足高端细分市场中的消费者需求，然后继续进行冗长的专业模型（Tesla / Quadro）测试过程。在最近的几代人中，这种方法不是很方便，因此功能更小的GK107和面向性能的GK104优先于功能强大的GK110。

大概Nvidia需要GK107，因为该公司与移动OEM签订了大规模合同，而高端台式机则需要GK104。两种GPU均以A2版芯片的形式提供。移动GK107（GT 640M / 650M，GTX 660M）于2月份开始交付给OEM合作伙伴，并于3月22日正式发布，即Nvidia推出基于GK104的GTX 680。

与最新的Nvidia GPU架构的另一个区别是，着色器单元的运行频率与内核相同。从GeForce 8系列开始，着色器单元的工作频率是核心频率的两倍或更多-是系列9核心的2.67倍，正好是400和500的两倍。

这一变化的意义在于，英伟达将其重点（针对台式机/移动市场）从原始性能转移到了每瓦性能比。更多的以较低速度运行的内核在并行计算中比更少的双倍频率内核更有效。实际上，这是GPU和CPU范例之间的差异的进一步发展（许多内核，低频，高传输率和延迟，而少数内核，高频，更少的传输率和延迟）。

另外，着色器单元频率的降低导致功耗的降低；此外，Nvidia节省了更多设计费用，从而以双倍精度大幅减少了芯片数量，并将总线宽度缩小到更主流的256位。这些变化以及相对适中的内核速度通过动态增强功能（按需超频）得到了放大，这导致出现了更加平衡的产品，尽管以降低计算能力为代价。但是，如果Nvidia保留了计算功能和Fermi带宽设计，那么结果将是具有高功耗的大型热设计。物理定律再次将芯片设计变成折衷的艺术。

Nvidia再次开发了双GPU板。 GTX 690本质上是通过SLI连接的两个GTX 680。唯一的区别是690（超频期间）的最大核心频率要低52 MHz。尽管性能仍然取决于SLI驱动程序的配置，但是该卡的功能非常出色，其外观值得佩戴的限量版品牌。

GK 110芯片标志着Nvidia在GeForce的旗帜下发布该系列的首批GPU的惯常做法。最初在该芯片上出现的Tesla K20卡在超级计算机的细分市场中有大量需求：ORNL Cray XK7 Titan，NCSA Blue Waters，瑞士CSCS Todi和Piz Daint系统需要22,000多张。

普通消费者不得不再等六个月，GK110才会出现在GeForce卡上。该卡名为GTX Titan-缺少数字型号，这增强了Nvidia希望将该产品视为与现有（和未来）开普勒系列分开的型号的渴望。 Titan的价格为999美元，它的目标市场是图形发烧友市场。英伟达还提高了其产品线对研究人员和预算专业人士的吸引力-NVIDIA公司首次允许GeForce卡保留与专业Tesla和Quadro相同的计算功能。

Nvidia GeForce GTX Titan该

卡迅速获得了游戏基准测试领导者的地位，特别是在启用了超级采样抗锯齿功能的多显示器分辨率中尤其明显。但是，英伟达对支持OpenCL驱动程序的冷漠态度以及与AMD的游戏演进计划合作推出的新游戏，以及高昂的价格，降低了泰坦的影响力。

6月，AMD通过发布HD 7970 GHz Edition来准备答案，该版本将核心频率提高了75 MHz，并具有另一个50 MHz的超频能力（与Nvidia提出的动态频率变化相反）。 GHz版的频率可能会在1月份发布。

对于AMD而言不幸的是，该产品的目标受众已经确定，由于超频而产生的标准型号通常具有相同（如果不是最好的）性能水平，同时价格和核心电压也要低得多。AMD为HD 7970 GHz Edition发布了HD 7950 Boost。

视频处理器历史，第4部分：通用GPU出现

More articles: