Pages

Monday, November 14, 2022

新演算器とチップレットで電力効率と性能を引き上げたRadeon RX 7000の詳細 - PC Watch

RDNA 3に基づいてチップレットを採用しているRadeon RX 7900 XTX/XTのパッケージ、Navi 31の開発コードネームで知られる最上位のGCD+6MCDのダイ構成

 AMDは、11月3日に米国ネバダ州ラスベガスで行なった記者会見で、同社がNavi 3xの開発コードネームで呼んできた新しいGPUアーキテクチャRDNA 3を採用したGPUを「Radeon RX 7000」シリーズの製品名で正式に発表し、Radeon RX 7900 XTXとRadeon RX 7900 XTの2製品を12月13日からグローバルに販売すると明らかにした。

 11月14日(現地時間)には、そのアーキテクチャのさらなる詳細が公開され、GPUの内部構造、RDNA 3の大きな進化点の1つになるチップレット技術をどのように利用しているのかなどが明らかになった。

初代RDNAではVLIWからSIMDへの転換、RDNA 2ではクロック周波数の引き上げと強化されてきたRDNA

RDNA 3の強化点

 AMD コーポレートフェロー 兼 最高GPUアーキテクト(Chief GPU Architect) マイク・マントル氏は「我々初代RDNAではVLIWからSIMDへの内部アーキテクチャの移行を実現した。そして第2世代のRDNA 2ではクロック周波数の高速化などにより性能を引き上げた。そして第3世代のRDNA 3ではチップレットの導入などCPUの技術を応用して、より性能を引き上げている」と述べ、RDNA 3アーキテクチャの特徴を初代RDNA、RDNA 2で改良を続けてきた延長線上にある製品だと表現した。

シリーズ名 Radeon RX Vega Radeon RX 5000 Radeon RX 6000 Radeon RX 7000
アーキテクチャ名 GCN 5 RDNA RDNA 2 RDNA 3
開発コードネーム Vega Navi Navi 2x Navi 3x
製造プロセスルール Samsung/14nm TSMC/7nm TSMC/7nm+ TSMC/5mnおよび6nm
ダイ構成 モノリシック モノリシック モノリシック チップレット(GCD+6MCD)
内部アーキテクチャ VLIW SIMD SIMD SIMD
アレイ 8 4 4 6
アレイあたりのCu 8 10 20 16
Cu 64 40 80 96
HWレイトレーシング 80 96
AIアクセラレータ 192
L0(ダイ全体/Cu) 640KB(16KB) 1.25MB(16KB) 3MB(32KB)
L1キャッシュ(ダイ全体/アレイないしはCu) 1MB(64KB/Cu) 1MB(256KB/アレイ) 1MB(256KB/アレイ) 3MB(512KB/アレイ)
L2キャッシュ(ダイ全体) 4MB 4MB 4MB 6MB
L3キャッシュ(パッケージ全体) 128MB 96MB
最上位製品 Radeon RX Vega 64 Liquid Cooled Radeon RX 5700 XT 50th Anniversary Radeon RX 6950 XT Radeon RX 7900 XTX
クロック周波数(ゲーム周波数) 1.406GHz 1.83GHz 2.1GHz 2.3GHz
単精度浮動小数点演算 13.7TFLOPS 10.4TFLOPS 23.65TFLOPS 61TFLOPS
メモリ 8GB(HBM2) 8GB(GDDR6) 16GB(GDDR6) 24GB(GDDR6)
メモリバス幅 2,048bit 256bit 256bit 384bit
メモリ帯域幅 484GB/s 448GB/s 576GB/s 960GB/s
TDP 345W 235W 335W 355W

 初代RDNA(Radeon RX 5000シリーズ)において、それ以前のRadeon RX Vegaシリーズ(Vega)まで採用されていたGCN(Graphics Core Next、Vegaはその第5世代になるGCN 5)から内部演算器を、VLIW(Very Long Instruction Word)からSIMD(Single Instruction Multiple Data)へと変更し、長期的な発展を見据えた新アーキテクチャを採用した。

 この初代RDNAで大きな性能向上を果たしたことをベースにして、第2世代のRDNA 2ではTSMCの7nmへのさらなる最適化を図り、Cu(Compute Unit)数とクロック周波数などを大きく引き上げて性能を向上させている。具体的にはCuが40から80に増え、クロック周波数が1.83GHzから2.1GHzに引き上げられており、それにより単精度浮動小数点演算(FP32)で10.4TFLOPSから23.65TFLOPSに大きく性能が向上している。それがマントル氏のいう、初代RDNA、RDNA 2の改良点の意味だ。

 そして、今回のRDNA 3だが、AMDによれば以下のような改良点があり、それが単精度の浮動小数点演算の性能で61TLOPSとRDNA 2に比べて約2.7倍の性能向上を実現している。

  1. 改良されたRDNA 3のCu
  2. 第2世代のHWレイトレーシングアクセラレータ
  3. チップレットの採用

となる。以下それぞれの強化点を見ていこう。

アレイ数の増加によるCu数の強化、演算器の効率改善などにより61TFLOPSの性能を実現

RDNA 3のアーキテクチャの概要

 今回のRDNA 3でAMDは内部エンジンの改良を行なっている。1つはアレイと呼ばれる、Cu(Compute Unit)から構成される塊を4つから6つに増やし、アレイ1つあたりの数を変更している。RDNA 2では4アレイで、アレイ1つあたり20基のCuがある構成になっていたが、RDNA 3では6アレイで、アレイ1つあたり16基のCuがある構成に変更された。これにより、RDNA 2ではCuが最大80基となっていたのに対して、RDNA 3では96基に増やされている。

Compute Unitの概要
浮動小数点演算エンジンは1クロックで64bitのSIMDを1つないしは32bitのSIMDを2つ処理できる

 また、大きな改良点としては、AMDがWave(wavefront)と呼んでいる内部エンジンの実行方式に変更が加えられていることだ。AMDは初代RDNAを導入する時にWave32(wavefronts of 32 workitems)、Wave64(wavefronts of 64 workitems)という2つのエンジンを定義した。前者は32bit単位でのALU(Arithmetic Logic Unit、整数、浮動小数点それぞれの演算器のこと)、後者は64bit単位でのALUとして定義されている。RDNA 2までは、Wave32を1クロックで1命令実行することが可能になっており、Wave64を実行する場合には2クロックで1命令実行できるようになっていた。

 しかし、RDNA 3ではWave64が1クロックで1命令実行できるように変更されており、同時にWave32も1クロックで2命令(実際には浮動小数点+浮動小数点、ないしは浮動小数点+整数)の形で実行できるようにもなった。このため、単精度浮動小数点演算(FP32)を処理する時のスループットがRDNA 2の倍になっている。

 それが、RDNA 3で61TFLOPSという、約2.7倍になる単精度浮動小数点演算時のスループットが大きく向上している理由となる(単純に2倍ではないのは、Cuの数が増えていること、そしてクロック周波数が上がっていることがある)。

 また、同時にその結果として同じクロック周波数で実行しても、処理できるデータの量が増えているため、電力効率の改善にも繋がっており、RDNA 2と比較して54%電力効率が改善され、性能は上がっているが、最上位製品のTBP(Total Board Power)が355Wと、RDNA 2のそれ(335W)と比較してあまり上がっていない要因の1つになっている。

 ハードウェア・レイトレーシングのエンジン(レイ・アクセラレータ)も、Cu1つに1つという構成はRDNA 2と同様で、Cuの数と同数のレイ・アクセラレータが搭載されている。このため、RDNA 2の80から96へと、そもそも演算器の数が強化されている。同時にレイ・アクセラレータ自体も第2世代に強化されており、DXR Ray Flagsをハードウェアで管理できるようになるなどして、レイトレーシングの実行効率が改善しており、前世代に比べて1.8倍の処理能力を実現している。

第2世代のハードウェア・レイトレーシングエンジン

 また、現在の流行であるMatrix Multiplication(行列乗法)の機能も搭載されており、AI推論のアクセラレータとして利用することができる。この行列乗法の機能を活用すると、最大で2.7倍の演算性能向上が実現できるほか、Bflot16(BF16)に対応することで、AI推論を単精度浮動小数点(FP32)で行なう場合に比較して高いスループットを実現することができる。

 このAIアクセラレータが各Cuあたりに2つ実装されており、合計で192基搭載されているので、ソフトウェアからうまく利用することができれば、ゲームのAI推論の性能を引き上げるなどに利用することが可能になりそうだ。

行列乗法のアクセラレータを搭載

GCD+6MCDというチップレットを採用しているRDNA 3、低コストで高性能を実現可能に

プロセスノードの進化が行き詰まり、コスト上昇がそれを加速している

 こうしたRDNA 3の進化を支えているのが、AMDがこれまでCPUにだけ適用してきたチップレット(複数チップを1パッケージに搭載する技術のこと)を、ゲーミング向けのGPUとしては初めて採用したことだ。

 といっても、GPU本体を複数チップとして搭載しているわけではなく、今回のRDNA 3でAMDは非常に現実的なやり方を行なってきた。RDNA 2で搭載されていたInfinity Cache(L3キャッシュのこと)とメモリコントローラをMCD(Memory Cache Die)として、6つのチップに分割してGPU本体から分割し、GPU本体となるGCD(Graphics Compute Die)とは別々に生産し、後工程で、1チップに封入するという手法を採ったのだ。

RDNA 2まではGCD側で実現されていたInfinity Cache(16MB)と64bitのメモリコントローラ1つがMCD 1つに移動している

 GCDは、TSMCの5nmという現時点で最先端のプロセスノードで製造し、MCDはTSMCの6nm(実際には7nmの改良版)という、既に安定している1世代前のプロセスノードで製造し、製造効率を上げるという製造手法をとっている。GCDのダイサイズは300平方mm、MCD 1つあたりのダイサイズは37平方mmとなっている。合わせると522平方mmとなっており、前世代のRDNA 2の最上位(Navi 21、Radeon RX 6950 XTなど)の519.8平方mmよりも大きなダイサイズとなるが、製造コストは大きく下落する。

 AMD 上席副社長 兼 コーポレートフェロー 兼 製品技術アーキテクト サム・ナフジガー氏は「ファウンドリで製造する場合、100平方mmだろうが、200平方mmだろうが、300平方mmまでは歩留まりに大きな違いはない。しかし、300平方mmを超えて、400平方mm、500平方mmとなっていくに従って、歩留まりは急速に悪化する。そうした事情があるため、今回のように300平方mmのGCDと1つが37平方mmのMCDに分割して生産することには、生産効率の観点からも、コストの観点からも大きな意味がある」と説明しており、今回のGCDのように300平方mmというダイサイズが歩留まり悪化の大きな分岐点だったのでこうした構造にしていると説明した。

 しかし、こうした構造にする上で大きな問題だったのが、複数のCPUをチップレットでIOD(I/O Die)に接続する場合よりも、より広帯域なインターコネクトが必要になることだ。CPUではメモリレイテンシ(遅延)が大きな問題で、いかにメモリレイテンシを発生させないようにしてパッケージをデザインするかが大きな課題となる。それに対して、GPUではメモリ帯域が最大の注力点であり、その必要となる帯域幅はCPUのそれに比べて10倍にもなるとナフジガー氏は説明する。

 ではそれをどう改善したのかと言えば、1つには基板配線上の工夫だ。GCDとMCDはInfinity Linkという、AMDがCPUではInfinity Fabricと呼んでいるインターコネクトを利用している。Infinity Linkはクアッドデータレート(1クロックあたりで4bitのデータを送れる仕組み)を採用しており、低いクロック周波数でも高いデータレートでの通信が可能なようになっており、広帯域幅で低遅延を実現したという。

 なお、こういう仕組みなら、300平方mmで製造されるGCDを2つ搭載した設計もありなのではないかと聞いたところ「技術的にはそれも可能だ。ただ、今回は最適な設計ということで、GCD+6MCDを選んだ」(ナフジガー氏)と説明しており、例えば次世代などでそうした設計が採用される可能性はあると言えるだろう。

MCDにより384bitのメモリインターフェイス、96MBのInfinity Cacheを実現

キャッシュ階層

 キャッシュとメモリコントローラをMCDとして外部チップに切り出した結果、別のメリットも生じている。具体的にはメモリのバス幅の拡張であり、それにより帯域幅が向上していることだ。

 MCDは1つあたり64bitのGDDR6のメモリコントローラと16MBのInfinity Cache(L3キャッシュ)が搭載されている。このため、64bit×6=384bitがGPU全体でのメモリバス幅となり、RDNA 2までの最大256bitから向上している。このため、メモリの帯域幅はRDNA 2の最上位構成では576GB/sだったのに対して、RDNA 3では960GB/sとなっており、約67%も帯域幅が向上している。

 また、メモリだけでなくキャッシュ階層も変わっている。L0キャッシュ(内部レジスターのキャッシュのこと)は、従来のRDNA 2までは1つのCuあたり16KBだったが、RDNA 3では1つのCuあたり32KBと倍増している。これによりチップ全体では3MBと大きく増えている。

 L1キャッシュはRDNA 2ではアレイ1つあたり256KBで4つのアレイがあるためチップ全体で1MBだったのが、RDNA 3ではアレイ1つあたり512KBに増やされており、さらにアレイ自体も6つになっているので、チップ全体で3MBになっている。

 L2キャッシュも同様でRDNA 2ではチップ全体で4MBだったのが、RDNA 3では6MBになっている。いずれも容量が増え、帯域幅が増えるなどして強化されており、RDNA 2と比較して全体的に性能が向上している。

 ただ、1つだけRDNA 2に劣る点は、Infinity Cache(L3)がRDNA 2では128MBだったのに対して、RDNA 3では96MBに容量が減っていることだろう。この点は、RDNA 2と同容量にするためには、MCDをあと2つ増やす必要があり、それはコストの増加を招くことになる。その結果値段を上げるよりも、ユーザーが購入しやすい価格にするために、MCDを6つにしたと考えられる。

Radeon RX 7900 XTXとRadeon RX 7900 XTの2つのSKUで12月13日から販売開始

Radeon RX 7900 XTX

 このほかにも、AMDはディスプレイエンジンとメディアエンジンを強化している。ディスプレイエンジンに関しては、DisplayPort 2.1とHDMI 2.1aという最新のディスプレイ出力の規格に対応している。最上位モデルのRadeon RX 7900 XTXのレファレンスデザインではHDMI×1、DisplayPort×2、USB Type-C×1というディスプレイ出力が用意されており、このうちUSB Type-CはDisplayPort Alternate Modeに対応しており、DisplayPort 2.1としても利用可能で、それも計算に入れると、3ポートのDisplayPortが利用できることになる。

ディスプレイ出力
ディスプレイ出力端子

 ディスプレイエンジンの帯域幅は54Gbpsで、8K/165Hz、4K/480Hzまで対応可能と、GeForce RTX 40シリーズの32.4Gbps、8K/60Hz、4K/300Hzまでの対応に比べてより高解像度、高リフレッシュレートで利用することが可能になっている。

 メディアエンジンに関しては2エンジン搭載されており、AVC/HVECのエンコード、デコードを同時に行なうことが可能になっている。また、8K/60fpsのAV1動画のエンコード/デコードも行なうことが可能だ。

 今回発表されたRDNA 3ベースのGPUは、既報の通り2SKU用意されている。それがRadeon RX 7900 XTXとRadeon RX 7900 XTだ。

表2 Radeon RX 7900 XTX、Radeon RX 7900 XT
Rdeon RX 7900 XTX Rdeon RX 7900 XT
チップレット GCD+6MCD GCD+5MCD
Cu 96 84
SP(Stream Processor) 6144 5376
ゲームクロック 2.3GHz 2GHz
ブーストクロック 2.5GHz 2.4GHz
インフィニティキャッシュ 96MB 80MB
GDDR6メモリ 24GB 20GB
メモリバス幅 384bit 320bit
単精度浮動小数点演算 61TFLOPS 52TFLOPS
カード長 287mm 267mm
補助電源 8ピン×2 8ピン×2
TBP 355W 300W

 簡単にいうと両者の違いは、前者はMCD 6つすべてが有効になっていることに対して、後者はMCDが6つのうち1つが無効になっており(パッケージ上には搭載されている)、かつアレイ1つあたり2Cuが無効になりクロック周波数もやや下げられているバージョンとなる。

 そうした構成にすることにより、Radeon RX 7900 XTは低価格で提供することが可能になっている。Radeon RX 7900 XTXが999ドルであるのに対して、Radeon RX 7900 XTは899ドルと100ドル安価な価格設定になっている(価格はいずれも市場想定価格、税別)。

 AMDは通例通りレファレンスデザインのボードを公開したが、これはOEMメーカーへのサンプルであり、AMD自身がNVIDIAのFounder Editionのような形で販売する計画は今のところないという(販売はAIB=Add-in-Boardパートナーと呼ばれるOEMメーカーから行なわれる)。

 このレファレンスデザインのボードは14層のPCBを採用し、20フェーズの電圧変換ユニットを採用し、トリプルファンを2.5DのPCI Express拡張スロットの幅に実装している。カード長はRadeon RX 7900 XTXが287mm、Radeon RX 7900 XTが267mmとなっており、カート長が300mmを切っているので、既存GPUの置きかえも十分可能。GPUを変えるためにケース自体を新調するなどが必要ないこともRadeon RX 7000シリーズの特徴の1つと言っていいだろう。

 性能に関しては、前世代となるRadeon RX 6950 XTとの比較データが公開され、4K解像度で約67%性能が向上していることが確認されているという。

 ただ、今回AMDはGeForce RTX 40シリーズの比較データなどは公開していない。直接の競合となるGeForce RTX 4080 16GBがまだ発売前(11月16日に販売開始予定)ということもあり、競合のデータがないから公開されないと考えることが可能で、Radeon RX 7900 XTX、Radeon RX 7900 XTの発売日になる12月13日までにはさらなるデータないしはメディアによるベンチマークなどが公開される可能性が高く、そこで比較ということになるのではないだろうか。

性能、いずれもRadeon RX 6950 XT比
発売は12月13日の予定

Adblock test (Why?)


からの記事と詳細 ( 新演算器とチップレットで電力効率と性能を引き上げたRadeon RX 7000の詳細 - PC Watch )
https://ift.tt/Inpj35t
科学&テクノロジー

No comments:

Post a Comment