Batttlemage: Novinky a detaily GPU architektury Intel Xe2 [Rozbor]

Nová architektura Xe2

Intel odhalil novou generaci svých grafických karet Arc, nazvanou Battlemage nebo také „Série B“. Ta obsahuje novou výrazně zlepšenou architekturu, s níž má Arc teď druhou šanci získat si přízeň hráčů – byť to bude muset dělat hlavně pomocí nízkých cen, protože nyní vydaná GPU budou konkurovat jen v pásmu levnějších mainstreamových grafik. Zatímco samotným kartám jsme věnovali tento článek, zde se podíváme na samotnou architekturu.

Karty Battlemage jsou založené na čipech vyráběných 5nm procesem TSMC (dle specifikací jde o proces N5) s architekturou Xe2. Někdy se objevuje také označení Xe2 HPG pro odlišení od verze Xe2 LPG, která už je integrovaná v procesorech Lunar Lake. Architektura by měla při stejném počtu výpočetních jednotek podávat znatelně lepší výkon než původní Xe HPG v kartách Alchemist.

Xe2 je o dost zlepšená proti architektuře Xe1 používané v prvních kartách Arc. Intel uvádí, že v té se soustředil na úkol vůbec poprvé „vyškálovat“ GPU architekturu, která původně pocházela z integrovaných grafických jader s omezeným výkonem na větší „šířku“ výpočetních jednotek a pamětí. Xe2 už je daleko víc „nativní“ samostatné GPU a byla příležitost architekturu lépe optimalizovat na vyšší výkon samostatných grafik. Doufejme, že to také znamená například snížení spotřeby v klidu a lepší kompatibilitu (v té měly Arcy generace A ten problém, že nefungovaly dobře bez podpory PCIe Resizable BAR), což asi uvidíme až z recenzí.

Architektura GPU Xe2 v grafikách Intel Arc generace Battlemage: Xe2 má mít vylepšenou efektivitu na mnoha úrovních zpracování herní grafiky

Architektura Xe2 má mít menší softwarovou režii v ovladačích, čili bude spotřebovávat méně výkonu CPU. A běžící hry u ní mají dosahovat lepšího využití jednotek, které čip poskytuje, a účinněji mezi ně rozdělovat práci, zatímco v předchozích GPU Alchemist (architektuře Xe HPG) je využití hardwarových prostředků méně efektivní.

Architektura GPU Xe2 v grafikách Intel Arc generace Battlemage

Architektura má být optimalizovaná na zlepšení latence jednotlivých operací a omezení prostojů při jejich zpracovávání. Podle Intelu je výkon na jedno „jádro“ GPU (Xe Core) u Xe2 až o 70 % lepší proti architektuře Xe1/Alchemist a energetická efektivita (poměr výkon/spotřeba) je až o 50 % lepší.

Render slice architektury Xe2 Battlemage

Základními stavebními bloky architektury jsou Xe Core a tzv. Render slice, která obsahuje čtyři Xe Core. Jedno Xe Core poskytuje 128 shaderů v osmi vektorových jednotkách XVE – ty zpracovávají operace nativně s šířkou SIMD16, což zlepšuje efektivitu proti dříve používaným SIMD8. Xe Core má vlastní L1 cache a jsou k nim zároveň připojené jednotky XMX pro maticové operace (akceleraci umělé inteligence, jde tedy o ekvivalent tensor jader u Nvidie), jedno Xe Core má rovněž 8 jednotek XMX (s celkovou šířkou 2048 bitů), a jedna Render slice tedy 32.

Architektura GPU Xe2 v grafikách Intel Arc generace Battlemage

Na jednotkách XVE i XMX lze provádět maticové operace s datovými typy FP16, BFloat16, INT8, INT4 a INT2, pouze na obecných shaderech (XVE) jsou podporovány výpočty v FP32 a FP64 (ty asi ale se sníženým výkonem) a také složitější matematické operace (Sin, Cos, Log, Exp). V rámci Xe Core by mělo být možné současně zpracovávat operace v jednotce XMX i obecné výpočty na shaderech, kde by navíc mělo být možné současně zpracovat celočíselnou i floating-point operaci.

Silné akcelerátory ray tracingu

V jedné Render slice je také na každé Xe Core přítomná jedna RTU – jednotka pro akceleraci ray tracingu (4 na jednu Render slice). Akcelerace ray tracingu je v architektuře Xe2 vylepšená proti generaci Alchemist, ačkoliv už tam byla na dobré úrovni. Každá RTU má 16kB cache pro elementy BVH a tři traversal pipelines (proti dvěma v Alchemist), s nimiž dokáže celkově zpracovat 18 průsečíků s pomocnými BVH boxy (o 50 % více než v Alchemistu) a dva průsečíky s trojúhelníky za cyklus. Pro srovnání – u AMD RDNA 2 a RDNA 3 jsou to čtyři boxy a jeden trojúhelník za cyklus (RDNA 4 by snad měla umět dvojnásobek, zatím to ale není potvrzené), u architektury Ada Lovelace v grafikách Nvidia GeForce jsou to čtyři boxy a čtyři trojúhelníky za cyklus. Battlemage / Xe2 má každopádně akceleraci dimenzovanou hodně štědře.

Architektura GPU Xe2 v grafikách Intel Arc generace Battlemage

Intel posílil i geometry engine, který jsou spolu se samplery a rasterizérem už obsažený mimo jednotlivé Render slice. V geometrii Battlemage umí zpracovat 3× více vertex fetchů než Alchemist a 3× vyšší je i výkon mesh shaderů. Nová architektura má dále 2× vyšší výkon v blendingu a 2× lepší výkon texturování bez filtrace. Samplování textur probíhá style out-of-order.

Xe2 slice má také o třetinu větší pixel color cache a o 50 % větší HiZ/Z/Stencil cache. Podporuje prefetch render targetů a má zlepšené vyřazování grafických primitiv v rámci HiZ, aby se ušetřila zbytečná práce na objektech, které nejsou na scéně vidět. Vylepšená by měla být i komprese dat v L2 cache GPU. Také Command front end, který výpočetním jednotkám přiděluje práci, doznal vylepšení, nyní nativně podporuje funkci Execute indirect.

Dvě připravovaná GPU?

Zatím byly odhalené dvě grafické karty, které jsou založené na čipu BMG-G21. Ten obsahuje pět „Render slice“, a tedy 20 Xe Core, 20 RTU a 160 jednotek XMX, 20 texturovacích jednotek a 10 ROP (pixel backendů). GPU má 192bitovou paměťovou sběrnici požívající paměti GDDR6 a efektivita paměťových operací je podpořena L2 cache s kapacitou 18 MB.

Architektura GPU Xe2 v grafikách Intel Arc generace Battlemage

GPU také obsahuje dva nezávislé multimediální enginy s podporou akcelerace formátů H.264, H.265 (HEVC), AV1 (včetně komprese), VP9 a také XAVC-H (profesionální formát Sony). Na rozdíl od Lunar Lake není přítomná akcelerace formátu VVC.

Podle neoficiálních úniků dříve Intel plánoval tři GPU založené na Xe2. O třídu níže měl být ještě čip BMG-G10, který by snad měl 128bitové paměti, ale tento byl údajně už definitivně zrušen – pokrýval by poměrně nízké cenové spektrum s omezenými možnostmi prodejů a marží. Nad G21 naopak má být třetí čip BMG-G31, který měl mít 32 Xe Core (8 Render slice) čili 4096 shaderů a 256bitové paměti. Toto GPU by tedy mohlo jít výkonem dejme tomu o 50 % výš.

DisplayPort 2.1 a HDMI 2.1, ale bez PCIe 5.0 a VVC

GPU se do systému připojuje přes rozhraní PCI Express 4.0 ×8, používá tedy pro úsporu užší rozhraní. Chvíli se objevovala zpráva, že by už mohl být podporován PCI Express 5.0, to se ale minimálně pro BMG-G21 a karty Arc B580 a B570 nepotvrdilo – nicméně grafice by to v praxi nemělo nějak chybět. BMG-G31 by patrně mělo mít plných 16 linek (a je otázka, zda u něj PCIe 5.0 třeba už nebude aktivní).

Architektura GPU Xe2 v grafikách Intel Arc generace Battlemage

Naopak ale čip BMG-G21 umí nejnovější DisplayPort 2.1, který je podporován s rychlostí UHBR 13.5 (stejně jako na Radeonech RX 7700 XT a vyšších, zatímco levnější Radeony RX 7600 a 7600 XT, kterým grafiky s tímto čipem budou konkurovat, umějí jen pomalejší verzi DP 2.1 UHBR 10). Je možné, že eventuální výkonnější BMG-G31 by už mohl umět DP 2.1 s nejvyšší rychlostí UHBR 20. Výstupy čip G21 zvládá až čtyři – trojici DP 2.1 a jedno HDMI 2.1.

Aktualizováno: DisplayPort 2.1 UHBR 13.5 je podporován jen na jednom výstupu, zbylé dva mají podporu pouze DisplayPort 2.1 UHBR 10 (jako v generaci Alchemist). O různých rychlostních stupních DP 2.1 jsme psali zde, pokud potřebujete detaily. Obecně je třeba upozornit, že i rychlost UHBR 10 poskytuje asi o polovinu vyšší propustnost pro obrazová data proti DP 1.4a u starších GPU.

Už skoro proti RDNA 4 a Blackwellu…

Grafiky založené na čipu BMG-G21 vycházejí příští týden 13. 12. (Arc B580) a příští měsíc 16. 1. (levnější Arc B570). Je možné, že výhledově se objeví ještě další modely s tímto čipem, ať už pro herní, nebo pro profesionální „workstation“ segment. Zatím není potvrzeno, kdy nebo zda se dostanou na trh také grafiky s BMG-G31. Pokud je toto GPU stále v přípravě, minimálně asi vyjde o něco později. Tím pádem asi ale bude muset čelit již nové generaci architektur od AMD (RDNA 4) a Nvidie (Blackwell), které by měly vyjít v prvním kvartálu roku 2025, možná již v lednu.

To je obecně slabina Xe2 a Battlemage. Podobně jako předchozí generace Alchemist se Intelu tyto grafiky podařilo vydat se značným zpožděním v době, kdy jejich generační konkurenti od Nvidie a AMD mají za sebou prakticky dva roky na trhu a jsou těsně před nahrazením novými generacemi, které opět zvednou laťku…

Zdroj: Intel

Jan Olšan, redaktor Cnews.cz


  •  
  •  
  •  
Flattr this!

Samsung uvádí úsporné SSD 990 Evo Plus s PCIe 5.0 a 5nm řadičem

Není to zas tak dlouho, co má Samsung v nabídce své první SSD využívající PCI Express 5.0 – SSD 990 Evo. Tento model ale není na rozdíl od ostatních „Gen5“ highendové úložiště, PCIe 5.0 používá pro potenciální zlepšení výkonu tam, kde jsou k mání jen dvě linky PCIe. Původní SSD 990 Evo nijak nevynikalo, ale Samsung teď uvádí novou vylepšenou generaci SSD 990 Evo Plus, která by naopak mohla být dost atraktivním levnějším SSD. Celý článok „Samsung uvádí úsporné SSD 990 Evo Plus s PCIe 5.0 a 5nm řadičem“ »

  •  
  •  
  •  

Zachrání Samsung Gen5 SSD? Konečně uvede vlastní špičkový model

Od vydání prvních SSD využívajících PCI Express 5.0 je provází jeden problém – vysoká spotřeba, která u modulů s řadičem Phison E26 vede k přehřívání, nebo dokonce zasekávání systému, případně potřebě aktivního chlazení. „Gen5“ SSD se kvůli tomu zatím moc neprosazují. Nové modely by to ale měly zlepšit a vypadá to, že by situaci mohl zachránit Samsung, jehož highendové PCIe 5.0 ×4 SSD by už konečně mělo mířit na trh. Celý článok „Zachrání Samsung Gen5 SSD? Konečně uvede vlastní špičkový model“ »

  •  
  •  
  •  

Unikl procesor AMD „Sound Wave“, zřejmě 3nm APU s jádry Zen 6

Pomalu se blíží vydání procesorů AMD s jádry Zen 5. Měli bychom se začít dozvídat o plánech AMD po Zenu 5 a nyní se ven dostala zajímavá věc. Na LinkedIn se objevily informace o asi mobilním procesoru Ryzen s architekturou Zen 6. Protože zde sdílí informace jako součást svého CV přímo inženýři, je to dost zajímavý zdroj informací. Vypadá to z něj, že AMD nasadí čiplety i do notebooků a může to nastat už u APU „Strix Point“ se Zenem 5. Celý článok „Unikl procesor AMD „Sound Wave“, zřejmě 3nm APU s jádry Zen 6“ »

  •  
  •  
  •  

Komentáre (3) Pridať komentár

  1. S L2 Cache se zrovna nerozdali. V ohledu té kompatibility nebyl problém ani tak ReBar, jako spíše bídná podpora starších api (Dx9), ne?

    1. Tak jestliže u AMD a NVidie přidává ReBAR nižší jednotky procent výkonu, tak u Intelu se to počítalo až v nižších desítkách, takže to problém byl.
      Nepodpora starších API nemusí mrzet každého, ikdyž v případě DX9 asi hodně lidí mrzet může, nicméně tomu podporu dodělávali.

      Rozhodně bych byl zájemce té nevydané výkonější grafiky, takže uvidíme za prvé, co předvede AMD a potom i co teda Intel. NVidia už jde mimo mě, na jejich 16GB VRAM grafiky nemám dostatek financí a nejsem ochoten si na herní grafiku šetřit, když už hraju dost občasně. Grafiku s méně než 16GB VRAM nechci, jednoznačně to v některých hrách nestačí.

      1. Tak třeba mě to s AM4 trápit nemusí, a to už je docela letitá platforma. Možná to byl problém Alchemist, ale teď, s odstupem let, už jsme zase v trochu jiné situaci. ReBar už není překážkou při použití se staršími počítači, co má méně než šest jader ztratilo za tu dobu prakticky jakoukoli relevanci. Podpora starších api mě netrápí, ale pro někoho, kdo pokukuje po ryze herní kartě to problém být může. Já bych měl zájem spíše o B570, nebo ještě lépe nějakou hypotetickou B560 – na multimédia a práci. Ty vyšší modely jsou na mě příliš velký krok do neznáma.

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *