英偉達(dá)RTX 40系顯卡解析：出色工藝帶來出色性能，DLSS 3是殺手锏

白貓 / 2022-09-22 17:0151099

英偉達(dá)在9月20日深夜舉辦主題演講，正式推出RTX 40系顯卡，包括卡皇RTX 4090以及RTX 4080 16GB以及RTX 4080 12GB，它們基于全新設(shè)計(jì)的Ada Lovelace GPU架構(gòu)，除了全面提升的顯卡規(guī)格之外，英偉達(dá)也為40系顯卡帶來了全新的DLSS 3與光追計(jì)算單元，兩個(gè)重要渲染引擎，讓渲染性能更加出眾。

QQ截圖20220922161741.jpg

但是緊接著而來的便是全面提升的價(jià)格，尤其是80顯卡，相比較30系顯卡價(jià)格提升十分地明顯，那么40系顯卡究竟為我們帶來了怎樣新的特性，這些功能值得消費(fèi)者為其買單嗎？

Ada Lovelace芯片：全新的工藝，暴增的性能

首先我們來說一下這顆由首位女性程序員Ada Lovelace命名的架構(gòu)。作為卡皇，RTX 4090顯卡的核心便是這顆AD102核心，整顆核心的面積為604.2平方毫米，相比較RTX 30系顯卡還有所減小，但是晶體管數(shù)量卻大幅提升，來到了763億顆。

圖片1.png

在總體的架構(gòu)上，Ada Lovelace似乎與安培相差不大，一個(gè)計(jì)算單元內(nèi)包括FP32計(jì)算單元，FP32與INT32共享的計(jì)算單元以及第四代Tensor Core，同時(shí)也包括第三代的RT計(jì)算單元，讓深度學(xué)習(xí)以及光追更加高效。

總體規(guī)模上，Ada Lovelace與安培相比就有突飛猛進(jìn)的提升，例如圖形處理集群從7個(gè)提升至12個(gè)，從而使得計(jì)算單元從84個(gè)飛躍至144個(gè)，也就是說一顆完整的Ada核心，它能夠提供最高18432顆流處理器，遠(yuǎn)超GA102的10752顆。此外光追單元也從84個(gè)提升至144個(gè)，深度學(xué)習(xí)單元更是從336個(gè)提升至576個(gè)，頻率也從1.9GHz提升至2.5GHz。Ada芯片能夠有如此大的參數(shù)提升，最主要的原因便是制程的進(jìn)步。在安培制程上，英偉達(dá)采用的是三星8nm制程，而到了Ada時(shí)代，則采用TSMC 4N工藝，晶體管密度的提升極其明顯，也讓芯片面積在有所減小的情況下晶體管數(shù)量還能增長(zhǎng)如此兇猛。

QQ截圖20220922143326.jpg

除此之外，英偉達(dá)還表示在Ada GPU的能耗比是安培的2倍，著色器渲染能力達(dá)到了83TFLOPS，同樣是上代的兩倍，并且光追算力猛增至191TFLOPS，更是上代2.8倍。而與深度學(xué)習(xí)有關(guān)的FP8張量計(jì)算更是達(dá)到了恐怖的1.32PFLOPS，已經(jīng)是上代核心的5倍。在游戲方面，英偉達(dá)也稱Ada在光柵性能上是安培的2倍，而光追性能更是后者的四倍。

QQ截圖20220922162117.jpg

對(duì)于玩家來說，RTX 40系顯卡也大幅改善了運(yùn)行時(shí)候的功耗表現(xiàn)，運(yùn)行更加平穩(wěn)，不會(huì)出現(xiàn)大規(guī)模的瞬時(shí)功耗提升，這對(duì)于想要添置大功率的玩家來說尤其重要。畢竟高端電源，多1W的供電，可能需要花費(fèi)1.2甚至1.5元的預(yù)算。也正因?yàn)橛辛巳绱藦?qiáng)大的計(jì)算性能，可以讓Ada GPU實(shí)現(xiàn)更多的工作，例如DLSS 3這一被老黃認(rèn)為革命性的AI幀生成技術(shù)。

DLSS 3：讓AI生成幀，幀率大幅提升

QQ截圖20220922162010.jpg

DLSS是英偉達(dá)的深度學(xué)習(xí)抗鋸齒技術(shù)，借助英偉達(dá)的AI神經(jīng)網(wǎng)絡(luò)減少GPU的畫面渲染，從而提升游戲的畫面，自從圖靈架構(gòu)開始，DLSS開始被消費(fèi)者所認(rèn)知。而這樣提升畫質(zhì)的黑科技也經(jīng)過了三代的更迭，初代DLSS借助顯卡本身的AI驅(qū)動(dòng)以及神經(jīng)網(wǎng)絡(luò)進(jìn)行畫面的渲染，但是由于算力的限制，實(shí)際效果并不理想，盡管幀率有所提升，但是畫面卻異常模糊，特別是在一些動(dòng)態(tài)畫面中更是如此。

第二代也就是目前最主流的DLSS 2.0時(shí)代，英偉達(dá)則選用了類似于DSR一樣的技術(shù)，先讓顯卡以較低的分辨率進(jìn)行渲染，隨后再借助AI算力讓畫面變成高分辨率進(jìn)行輸出，當(dāng)然相比較第一代DLSS，第二代DLSS無(wú)論是效果還是廠商接受度，都有著質(zhì)的提升，并且消費(fèi)者也越來越接受這項(xiàng)技術(shù)，此外友商也借助FSR以及XeSS實(shí)現(xiàn)與DLSS類似的效果。而到了DLSS 3的時(shí)代，已經(jīng)不滿足傳統(tǒng)圖形渲染的英偉達(dá)開始借助AI來自己創(chuàng)建渲染圖像，通過插入到兩個(gè)渲染圖像之中，進(jìn)一步降低GPU的渲染壓力。

QQ截圖20220922161938.jpg

首先英偉達(dá)在Ada GPU中加入一個(gè)叫光流加速器的硬件，而它也是實(shí)現(xiàn)DLSS 3的核心。首先借助光流加速器，GPU分析畫面之中運(yùn)動(dòng)物體的矢量數(shù)據(jù)，再根據(jù)卷積神經(jīng)網(wǎng)絡(luò)讓AI自動(dòng)渲染出游戲畫面并插入到正常的游戲畫面之中，這樣便可以有效地提升游戲幀率，此外這種渲染方式也是游戲渲染領(lǐng)域的首次應(yīng)用，前提自然是40系龐大的Tensor Core計(jì)算集群。

英偉達(dá)表示，DLSS 3可以借助AI最高渲染出7/8的顯示像素，在幀率上與不采用DLSS的游戲相比，整整提升4倍。對(duì)于開啟光追特效的游戲來說尤其有效。

QQ截圖20220920231043_副本.jpg

例如在發(fā)布會(huì)上公布的《賽博朋克2077》便從22幀左右飛躍至90余幀，甚至由于所有的圖像幀均在GPU上進(jìn)行，并不經(jīng)過CPU，因此即使你沒有一顆性能強(qiáng)勁的CPU，同樣可以讓游戲幀率有著顯著的提升。

QQ截圖20220922162059.jpg

但是有人會(huì)擔(dān)心，由于采用的是AI渲染幀，并且插入到兩張正常的渲染幀之間，會(huì)不會(huì)造成畫面延遲上升，對(duì)于3A大作的玩家來說，延遲或許不是什么問題，但是對(duì)于FPS玩家來說，延遲卻顯得更加重要。對(duì)此英偉達(dá)表示游戲開發(fā)者以及游戲玩家可以借助NVIDIA Reflex，有效地降低游戲的傳輸延遲，從而讓即使開啟DLSS 3特效的玩家也能享受理想的延遲。

QQ截圖20220922162031.jpg

QQ截圖20220922163005.jpg

當(dāng)然DLSS 3并非所有的RTX顯卡都可以享受，由于缺少光流加速器，RTX 20以及RTX 30系顯卡直接和它說再見，此外英偉達(dá)也提供了一張關(guān)于DLSS的特效表格，其中AI渲染與插幀技術(shù)為RTX 40系顯卡獨(dú)享，而RTX 40/30/20系顯卡都支持原來的畫面縮放功能，至于NVIDIA Reflex，從GTX 900系顯卡就可以支持這項(xiàng)特效。目前已經(jīng)有超過35款游戲支持DLSS 3，將于10月份陸續(xù)和大家見面。

全新渲染引擎：圖形渲染更高效

伴隨著RTX顯卡的性能提升，尤其是擁有24GB龐大顯存的RTX 4090顯卡的出現(xiàn)以及NVIDIA Studio驅(qū)動(dòng)的到來，越來越多的工作室開始購(gòu)買GeForce游戲顯卡作為圖像渲染卡，而英偉達(dá)也不斷地往游戲顯卡中塞入全新的渲染引擎，讓這些專業(yè)工作者能夠擁有更加高效的圖形與畫面渲染。

QQ截圖20220922161904.jpg

這一次加入的引擎分別是Opacity Micromask引擎以及Micro-Mesh引擎，前者用于光追渲染，借助這個(gè)引擎，光追中的Alpha-Test幾何性能最高提升2倍。而后者則是在不損耗存儲(chǔ)資源，并且采用簡(jiǎn)易BVH的前提下，提升渲染畫面的豐富度，相比較過去，圖像的建模速度也有著巨大的提升，而這樣功能也獲得了Adobe等專業(yè)應(yīng)用廠商的認(rèn)可。

QQ截圖20220922161729.jpg

QQ截圖20220922161724.jpg

此外老黃還在RTX 40系顯卡中支持了著色器重排序，與CPU的亂序執(zhí)行一樣，渲染任務(wù)隊(duì)列可以根據(jù)實(shí)際需求進(jìn)行更換，從而大幅提升圖像的渲染效率以及GPU的利用率，換算到游戲中，就是提升25%左右的游戲性能，光追性能提升更是最高達(dá)到3倍。

目前伴隨著Nvidia Studio等驅(qū)動(dòng)的應(yīng)用，游戲卡與專業(yè)卡之間的界限越來越模糊，而借助最新的技術(shù)，專業(yè)用戶也能享受新一代GPU帶來的出色工作效率，畢竟RTX 4090不僅僅是玩家獨(dú)享的顯卡。

集成八代NVIDIA編碼器：視頻與直播用戶的最愛

QQ截圖20220922163018.jpg

目前直播以及視頻制作的興起也讓GPU應(yīng)該有更多的編解碼性能，而英偉達(dá)這一次則在RTX 40系顯卡中加入了雙NVIDIA編碼器，使得視頻的輸出時(shí)間可以減少最多50%，同時(shí)也支持AV1編解碼，而像OBS、Blackmagic Design DaVinci Resolve等設(shè)計(jì)與直播軟件也加入了NVENC AV1編碼器，可以讓RTX 40系顯卡有著發(fā)揮的空間。

QQ截圖20220922163005.jpg

NVIDIA Broadcast軟件開發(fā)工具包增加了面部表情預(yù)估，眼神追蹤，以及虛擬綠幕質(zhì)量改進(jìn)三項(xiàng)功能，讓直播UP主直播起來更具沉浸感，當(dāng)然對(duì)于會(huì)議用戶也是大有所益。

卡皇最具性價(jià)比

最后還是繞不開本次RTX 40系顯卡的核心爭(zhēng)議點(diǎn)那就是價(jià)格。由于更高的晶圓制造成本以及匯率，英偉達(dá)RTX 40系顯卡的建議零售價(jià)相比較RTX 30系有所提升也是在預(yù)料之內(nèi)，但是出乎意料的是，沒想到這一次顯卡的價(jià)格提升幅度實(shí)在是讓消費(fèi)者難以接受，RTX 4080 12GB售價(jià)為7199元，而RTX 4080 16GB售價(jià)為9499元，相比較RTX 3080 5499元的建議零售價(jià)來說實(shí)在是過于兇猛。而作為卡皇的RTX 4090反而是三款顯卡中最具性價(jià)比的一款，原因是12999元的建議零售價(jià)比上代提升了1000元，當(dāng)然提升的性能幅度顯然對(duì)得起卡皇的售價(jià)。

QQ截圖20220922162109.jpg

而另外兩款就不一定了，RTX 4080 16GB采用9728個(gè)CUDA核心，搭載16GB GDDR6X顯存，性能相當(dāng)于兩倍的RTX 3080 Ti，而RTX 4080 12GB則采用7680個(gè)CUDA核心，搭載的是12GB的GDDR6X顯存，性能也超過了RTX 3090Ti。在官方給出的游戲表現(xiàn)中，在光柵游戲下，RTX 4080 12GB與RTX 3090 Ti不相上下，部分游戲略輸，而RTX 4080 16GB則比RTX 3090 Ti提升20%左右。