Blackwell: Architektura a novinky GeForce RTX 5000 [Rozbor]

Software a novinky ve výbavě

Grafické karty nové generace od Nvidie – GeForce RTX 5090 a RTX 5080 – sice vyjdou až třicátého, ale už je po embargu a prvních recenzích nejvyššího modelu RTX 5090, který jsme testovali i my. V tomto článku se podíváme na architekturu Blackwell, která tyto nové grafiky pohání, a její nové vlastnosti a funkce. Od DLSS 4 přes architekturu výpočetních jednotek a výbavu čipu až po softwarovou stránku této nové generace.

Mega Geometry

Vedle toho má být fungování RT jader v generace Blackwell posíleno i o nějaké nové schopnosti hardwarově-softwarového rázu, které zřejmě budou využitelné až při jejich zakomponování do nových her. Nová je například podpora objektů typu Subdivision Surface a Linear Swept Spheres.

Softwarového rázu by měla být funkce Mega Geometry, která má vylepšovat výkon při práci s mnoha objekty ve scéně, pro něž je třeba počítat ray tracing. Umožňuje sdružit trojúhelníky do větších struktur (clusterům CLAS). Jedna z užitečných aplikací by měla být, že tyto clustery se budou snáze nahrazovat za jiné, což je něco, co probíhá například při vzdalování se objektu, kdy ho engine hry nahradí modelem s menším počtem trojúhelníků (nižší úrovní detailů). Nahrazení modelů ale při raytracingových efektech vyžaduje sestavení nové hierarchie pomocných boxů (BVH) pro analýzu těchto nových modelů, což stojí dost výkonu a změna úrovně detailů u mnoha objektů tak může být příčinou velkých propadů FPS.

Mega Geometry a zpracování objektů po clastrech má tento proces usnadnit a zjednodušit, takže takové operace ve hrách budou potřebovat méně výkonu. Současně by práce v tomto režimu měla dělat více operací plně v rámci GPU bez toho, aby se muselo zapojit CPU systému, takže použití těchto technik zmenší režii hry v ovladačích a může zmírnit limitaci výkonem CPU. Nvidia píše, že by mělo jít o technologii užitečnou například pro Unreal Engine 5 s jeho technologií geometrie Nanite.

Vedle těchto clusterů také technologie Mega Geometry přináší organizaci geometrie a objektů to oddílů neboli partitions (PTLAS). Ta se dá použít k tomu, že se objekty, které jsou ve scéně statické, vydělí do separátních oddílů. Aktualizace geometrie v každém snímku se pak dá udělat tak, že se oddíly (PTLAS) se statickými objekty pro daný snímek přeskočí ve zpracovávání a nejsou tedy počítány pro každý snímek jako ty objekty, které se pohybují.

Podpora i ve starších GPU

Mega Geometry by měla být podporovaná v DirectX 12 přes NVAPI, ve Vulkanu pomocí rozšíření (vendor extension) a také v API OptiX 9.0 pro renderovací softwary. Podpora by měla být i na starších grafikách od RTX 2000 výše, takže zřejmě není přímo závislá na nějakých architektonických rysech GPU Blackwell (nejde patrně o něco integrovaného přímo v hardwaru).

Komprese dat BVH struktur

GPU Blackwell by ale podle Nvidie měla mít vylepšenou kompresi pro BVH struktury, které pak u těchto GPU budou v paměti zabírat méně místa – údajně to může dělat až pár stovky megabajtů (200 až 300 MB?) rozdílu proti předchozím GeForce ve hrách s náročnou geometrií a ray tracingem jako tituly používající UE5 a Nanite. Ovšem jde jenom o kompresi dat používaných při ray tracingu, neprojeví se to tedy při hraní bez něj.

DLSS 4: Nová neuronová síť a víc umělých snímků

Jednou z ústředních „technologií“ u GeForce RTX 5000 je DLSS 4. Jejím jádrem je rozšíření techniky generování snímků z DLSS 3. Ta doteď přidávala jeden interpolovaný (umělý, nepravý) mezisnímek mezi každé dva reálně vykreslené snímky hry, tedy jinými sloty 50 % snímků bylo reálných, 50 % uměle dointerpolovaných. O tom, jak generování snímků probíhá a jaké to má výhody či nevýhody, jsme psali zde:

Více: Nvidia uvádí DLSS 3 s generováním snímků navíc. Jak to funguje?

Novinka v DLSS 4 je tzv. „Multi Frame Generation“, což není nic jiného, než že se nyní mezi reálné snímky vkládá více umělých dointerpolovaných. Mohou to být dva snímky (66 % „umělých snímků ve výsledném výstupu“, teoreticky 3× FPS proti reálné frekvenci hry) nebo tři snímky, což znamená, že 75 % snímků, které uvidíte, je uměle dointerpolovaných (což znamená potenciálně horší kvalitu) a jen 25 % reálných. Můžete ale teoreticky mít 4× vyšší koncové FPS, než hra a GPU reálně vykreslují.

Nevýhoda je, že zatímco při zobrazení 50 % : 50 % se asi celkem dobře rozplynou případné chyby v interpolovaných snímcích, nyní většinu času vidíte umělé snímky, takže už to může fungovat spíš obráceně a ve vjemu může dominovat „interpolovaná kvalita“.

Pro připomenutí: vkládání generovaných snímků o něco zvyšuje latenci hry, protože nejprve musíte mít hotové oba krajní snímky sekvence, mezi nimiž se interpoluje a až poté můžete začít generovat. To znamená, že zobrazení musí být vždy o kousek pozadu za hrou. Jen bez použití generovaných snímků lze nově vypočítaný snímek okamžitě zobrazit na monitoru.

Nvidia toto kompenzuje technologií Reflex, která se ale dá zapnout i bez DLSS 3 / DLSS 4 a poskytuje zkrácení latence sama o sobě (vliv Reflexu není v žádném případě přínosem funkce generování snímků, i když se to marketing často snažil míchat).

Generované snímky také nejsou plnohodnotné v tom smyslu, že nejsou výsledkem enginu hry, ten v nich tedy neaktualizuje AI protivníků, polohu objektů, projektilů a tak podobně. Generování snímků všechny pohyby a změny pouze aproximuje podle toho, jaké pozice objektů vidí na oněch dvou snímcích, mezi které „domýšlí“ ty další generované snímky.

Vylepšený AI model

Vedle více interpolovaných snímků má DLSS 4 ještě druhou složku – přináší novější vylepšený model. Jde o neuronovou síť typu Transformer, zatímco předchozí DLSS měly konvoluční neuronovou síť. Nový model by měl o něco zlepšit kvalitu upscalingového komponentu DLSS, funkce Ray Reconstruction (novinka v DLSS 3.5) a patrně i temporální rekonstrukce, jelikož Nvidia zmiňuje lepší stabilitu obrazu mezi snímky (méně shimmeringu, ghostingu, rozmazání pohybu, blikání…). Tato část DLSS 4 bude fungovat i na starších grafikách – od GeForce RTX 2000.

Ukázka přínosů nové neuronové sítě typu Transformer v DLSS 4, snímek Nvidie

Nicméně mnohosnímkové interpolování je omezeno jen na nové karty RTX 5000. A to paradoxně přesto, že nepoužívá nějaké speciální hardwarové jednotky. Toto je překvapení, protože interpolace snímků v předchozím DLSS 3 je naopak závislá na hardwarových jednotkách v čipech Ada Lovelace. DLSS 4 od nich ale upustilo a používá jen tensor jádra, je tedy v určitém smyslu softwarové (v rámci toho, že jde stále o neuronovou síť běžící na hardwarových akcelerátorech). Jejich výkon je v nové generaci vyšší, ale i tak – když už má multisnímkové generování fungovat třeba na RTX 5070 nebo budoucích RTX 5060, pak by minimálně ve vyšších modelech předchozích generací by snad mělo být výkonu tensor jader také být dost. Nvidia už připustila, že teoreticky ještě podpora starším grafikám mohla být přidána, ale zatím není nic přislíbeno.

Momentálně by tedy měla být situace taková, že nové multi-interpolování FPS bude jen pro karty RTX 5000, GeForce RTX 4000 budou dál používat jednoduché generování snímků v režimu DLSS 3.x, zatímco GeForce RTX 3000 a 2000 generování snímků mít zpřístupněno nebudou.

Reflex 2 pro lepší latenci

A když už jsme u Reflexu, s GeForce RTX 5000 vydává Nvidia druhou generaci této technologie označenou Reflex 2, v které je integrovaná technika Frame Warp. Jde o metodu, jak částečně zlepšit responzivnost hry při použití multiframe generování.

Reflex 2 dělá to, že přidává do snímku úpravy podle reálného pohybu kurzoru myši. Ten lze získat nezávisle na enginu hry, takže ovladač GPU můžu po dokončení vykreslování snímku mít o něco novější údaje o vstupech z klávesnice a myši, než s jakými byl snímek počítán.

Při použití Reflexu 2 je snímek upraven před jeho odesláním do monitoru – může například být globálně posunutý včetně korekce perspektivy/hloubky podle toho, jak jste pohnuli myší ovládající výhled. V takto posunutém snímku pak ovladač ještě překreslí kurzor či zaměřovač do správné pozice. Chybějící data na okraji dogenerovaná interpolací, což může způsobovat artefakty či chyby (obecně takovéto zasahování do snímků podobně jako generování snímků vede k možným chybám či nepřesnostem v obrazu proti snímku, který by vykreslila přímo hra).

Je asi jasné, že v takto upraveném snímku lze zohlednit jen některé změny, ne cokoliv. Jako při generování snímků nemůže Reflex 2 vědět o věcech, které se podle hry mají v daném momentu stát, ale ještě nebyly vidět na snímku, který je k dispozici (zde je to omezení ale silnější, protože Reflex 2 se nemůže podívat na budoucí snímek). Redukce latence získaná pomocí Frame Warp je tak částečná, netýká se nutně všeho, co je na obrazovce zobrazováno.

Reflex 2 s touto funkcí Frame Warp by nyní zřejmě měl fungovat jen bez generování snímků. Určení této funkce je pro soutěžní hraní, mimo eSports asi má omezenou užitečnost (pokud hrajete single-player, nejsou extrémně stlačené latence asi moc důležitá věc).

„AI“ textury, materiály a osvětlení

Zmíněné Neural Shaders chce Nvidia využít pro různé softwarové technologie pro hry. Mezi nimi je technika Neural Texture Compression – aplikace neuronové sítě do komprese a zřejmě také procesu dekomprese textur, která má přinést o něco lepší kompresní poměr proti běžně používaným formátům, které se pro kompresi textur ve hrách používají nyní. Experimenty s takovými formáty byly už publikovány (nejen Nvidií), může ale trvat nějakou dobu, než se tyto techniky dostanou do nějakých her.

Dále Nvidia zmiňuje techniku Neural Radiance Cache, kde je inference přes neuronovou síť použitá ke zrychlení výpočtů osvětlení (patrně jeho aproximací a cachováním, která bude i přes použití neuronové sítě rychlejší než plný výpočet). Vykreslování pomocí Neural Radiance Cache má přeskakovat analýzu značné části paprsků světla, otázka je samozřejmě, jak poznatelný efekt to bude mít na kvalitu.

Podobného rázu mají být i techniky RTX Skin a Neural Materials. I u nich má neuronová síť být použitá k aproximování určitých kvalit a charakteristik materiálů. Jednoduchá neuronová síť má v této roli nahradit komplexnější simulace takových materiálů, jako třeba pronikání světla pod povrch u kůže.

RTX 5000 přichází na trh tento týden

Jak to celé funguje v praxi, už částečně máte možnost vidět v recenzích. Na HWCoolingu jsme testovali GeForce RTX 5090 v provedení Founders Edition přímo od Nvidie. Tato karta bude v prodeji od 30. ledna, což by mělo současně být i datum, kdy se začne prodávat o poznání levnější model GeForce RTX 5080. Parametry všech karet jsme probírali zde:

Více: GeForce RTX 5090, RTX 5080, RTX 5070 Ti a RTX 5070 detailně
Více: Nvidia uvádí mobilní GeForce RTX 5000: Blackwell pro notebooky

Zdroje: Nvidia

Test Nvidia GeForce RTX 5090 FE: na vrcholu herních karet

Jan Olšan, redaktor Cnews.cz

⠀
⠀

Back to: Nová GPU generace Blackwell / RTX 5000

Flattr this!

Jan Olšan on Nová generace grafik AMD je tu: Radeon RX 9070 a 9070 XT s FSR4Ten nižší model má stejné PCB a chladič jako 9070 XT Nitro, takže jinak to...
siddhi on Nová generace grafik AMD je tu: Radeon RX 9070 a 9070 XT s FSR4tak je tam ořezaný čip, ale fyzicky jde o identické karty. Naštěstí 12V-2×6 platí jen...
Bufo on Nová generace grafik AMD je tu: Radeon RX 9070 a 9070 XT s FSR4Tak ... aspoň že tam majú nejaké poistky.... chcel som dať aj link, ale spam...
the patient on Nová generace grafik AMD je tu: Radeon RX 9070 a 9070 XT s FSR4Je to hlavně překvapení u nižšího modelu Sapphire s TDP 245 W. To možná někteří nerozdýchají...
Bufo on Nová generace grafik AMD je tu: Radeon RX 9070 a 9070 XT s FSR4Inaq vyzerá to, že viacerí AIB partneri šli do 12V-2×6 ... rozhodnutie asi padlo skôr,...
the patient on Lepší a schopnější, než se čekalo: Rozbor GPU architektury RDNA 4Komplexita by určitě znatelně stoupla. Ale zase bys té flexibility mohl možná u OptiX využít,...
Bufo on Lepší a schopnější, než se čekalo: Rozbor GPU architektury RDNA 4Len unifikácia by asi priniesla aj zvýšenie komplexnosti buď na strane HW alebo SW. ......
the patient on Lepší a schopnější, než se čekalo: Rozbor GPU architektury RDNA 4Nemám čas, abych to teďka lustroval všechno, tak jen hádám. Bylo by technicky fakt pozoruhodné,...
Bufo on Nová generace grafik AMD je tu: Radeon RX 9070 a 9070 XT s FSR4No škoda, že neboli "charitatívnejší" s tou cenou RX 9070 (čomu aj rozumiem pri súčasnej...