HBM·GDDR 심화 · 4/12

GDDR6·GDDR6X·GDDR7 분석 — PAM 신호로 32 Gbps 도달한 경로

2026년 5월 16일 · Hawk · 9분 읽기

#한 줄 요약

“GDDR은 signaling을 바꿔 pin rate를 NRZ → PAM4 → PAM3으로 끌어올렸습니다.” — GDDR6은 16 Gbps NRZ, GDDR6X는 24 Gbps PAM4, GDDR7은 32 Gbps PAM3입니다. *bus width(32-bit/chip)*는 그대로, pin rate만 두 배로 올린 경로입니다.

Ch 3에서 HBM이 *광폭 bus(1024-bit)*로 낮은 pin rate로 가는 길을 봤습니다. GDDR은 반대 방향입니다. bus는 32-bit로 그대로 두고 pin rate를 32 Gbps까지 끌어올립니다. signaling이 같이 진화했기 때문에 가능했습니다.

#한눈에 보는 표

세대	양산	per-pin	Signaling	Chip BW	전형적 용도
GDDR5	2008	7 Gbps	NRZ	28 GB/s	GTX 980
GDDR5X	2016	10~11.5 Gbps	NRZ	46 GB/s	GTX 1080 / 1080 Ti
GDDR6	2018	14~16 Gbps	NRZ	64 GB/s	RTX 20/30
GDDR6X	2020	19~24 Gbps	PAM4	96 GB/s	RTX 30/40
GDDR7	2024	32~36 Gbps	PAM3	128~144 GB/s	RTX 50

GDDR은 5 → 5X → 6 → 6X → 7로 2~3년마다 세대가 바뀌었습니다. 같은 기간 HBM은 4년에 한 번 세대가 바뀐 셈입니다. 그래서 현세대 그래픽카드 안에서도 GDDR 세대가 더 빠르게 분기합니다.

#GDDR chip의 기본 구조

GDDR chip 한 개는 32-bit channel을 가집니다.

GDDR6 chip — 16 Gb DRAM die의 bank 배치와 32-bit I/O ring

chip 사양	GDDR6
die 용량	8·16 Gb
chip 용량	1·2 GB
bus per chip	32-bit
pin rate	14~16 Gbps
BW per chip	56~64 GB/s
패키지	180-ball BGA
supply	VDDQ 1.35 V, VDD 1.35 V

GPU에 여러 chip을 병렬로 붙여 총 bus width를 만듭니다.

1
RTX 4090 메모리 구성 (GDDR6X)
2

3
GPU (AD102 die)
4
├── memory controller × 12
5
└── 각 controller에 GDDR6X chip 1개
6

7
12 chip × 32-bit = 384-bit bus
8
12 chip × 21 Gbps × 32-bit = 1008 GB/s ≈ 1 TB/s
9
12 chip × 2 GB = 24 GB capacity

bus가 384-bit까지 늘어나면 PCB 라우팅이 결정적이 됩니다. length matching, 임피던스 제어, decoupling이 카드 가격의 큰 부분입니다.

#NRZ — GDDR6까지

GDDR6은 *NRZ(Non-Return to Zero)*입니다. 한 Unit Interval에 0 또는 1만 보냅니다.

한 UI에 0 또는 1만 보내는 2-level 방식입니다. 1 비트 / UI이므로 16 Gbps는 16 G UI/s에 해당합니다.

장점은 단순함입니다. 수신단이 임계전압 1개만 보면 됩니다. BER이 매우 낮습니다. 단점은 clock을 두 배로 올려야 두 배 빨라진다는 것입니다. 16 Gbps NRZ 너머가 PCB·BGA 공정의 한계가 되어 GDDR6에서 멈췄습니다.

#PAM4 — GDDR6X의 4-level

NVIDIA와 Micron이 RTX 30 시리즈용으로 공동 개발한 GDDR6X는 PAM4를 도입했습니다.

한 UI에 *4 레벨(2 비트)*을 실어 보냅니다. 같은 clock에서 2배 데이터입니다.

NRZ·PAM4·PAM3 세 가지 signaling을 같은 시간축으로 비교하면 다음과 같습니다.

NRZ vs PAM4 vs PAM3 — 같은 시간축에서의 레벨 비교

한 UI에 2 비트가 들어갑니다. PAM4 21 Gbps는 NRZ로 환산하면 42 Gbps에 해당합니다. clock 자체는 NRZ 21 Gbps 수준이라 eye가 NRZ와 비슷한 폭을 갖습니다. 다만 level 사이 거리가 1/3로 좁아져 SNR margin이 줄어듭니다.

PAM4 eye diagram의 구조 (이론):

레벨	의미	인접 eye
3	11	eye 1 (top, 레벨 3 ↔ 2)
2	10	eye 2 (mid, 레벨 2 ↔ 1)
1	01	eye 3 (bottom, 레벨 1 ↔ 0)
0	00	—

NRZ 대비 eye 높이가 1/3로 줄어 SNR이 -9.5 dB 패널티.

PAM4의 9.5 dB penalty는 *FEC(Forward Error Correction)*와 *DBI(Data Bus Inversion)*로 보완합니다. PCB 라우팅이 깐깐해서 카드 PCB가 8~12층에 *임피던스 ±5%*가 요구됩니다.

#PAM3 — GDDR7의 절충

GDDR7은 PAM3입니다. 4-level이 아닌 3-level을 사용합니다.

3-level × 1 UI에 1.5 bit를 인코딩합니다. 실제로는 8 ternary symbol → 12 bit 매핑을 씁니다.

PAM3은 NRZ의 2배 효율에 못 미치고 PAM4의 효율보다는 낮은데 SNR이 PAM4보다 좋습니다. 3-level 간격이 PAM4의 2-level 간격보다 50% 넓기 때문입니다.

1
SNR penalty 비교 (NRZ 대비)
2

3
NRZ  : 0 dB (기준)
4
PAM3 : -4.8 dB
5
PAM4 : -9.5 dB
6

7
데이터레이트 효율:
8
NRZ  : 1.0 bit/UI
9
PAM3 : 1.5 bit/UI (이론)
10
PAM4 : 2.0 bit/UI

GDDR7은 32 Gbps에서 PAM3로 동작하고 PAM3의 effective bit rate는 clock × 1.5로 들어갑니다. NVIDIA RTX 50 시리즈가 GDDR7 32 Gbps로 출시 예정입니다.

1
GDDR7 (2024~2025)
2
├── per-pin       : 32 Gbps (PAM3)
3
├── chip BW       : 128 GB/s
4
├── chip capacity : 2~4 GB (16~24 Gb DRAM)
5
├── 패키지        : 266-ball BGA (PAM3 ground reference 증가)
6
└── VDD/VDDQ      : 1.2 V / 1.1 V
7

8
대표 제품:
9
- NVIDIA RTX 5090 (16 chip × 32 Gbps × 32-bit = 2.0 TB/s, 32 GB)
10
- Samsung GDDR7 32 Gbps qualification 완료 (2024)
11
- SK Hynix GDDR7 32 Gbps 양산 (2025)
12
- Micron GDDR7 28~32 Gbps

#PCB 라우팅 — GDDR의 진짜 비용

GDDR의 진짜 비용은 PCB와 신호 무결성에 있습니다.

RTX 4090의 GDDR6X 384-bit PCB layout — GPU die 주변에 6 chip, length-matched trace

length matching*은 모든 신호 쌍이 같은 시간에 도착하도록 trace 길이를 맞추는 것입니다. PAM4 21 Gbps에서 1 UI = 47.6 ps인데, 47.6 ps는 PCB 위에서 약 7 mm입니다. ±0.5 mm 오차는 ±7% 정도의 eye width 침투가 됩니다.

세대	PCB 사양	비용
GDDR5	6층 PCB, 표준 length matching ±2 mm	cheap
GDDR6	8층, ±1 mm	moderate
GDDR6X	10~12층, ±0.5 mm, FEC, 추가 ground plane	expensive
GDDR7	12층, ±0.4 mm, retimer 옵션	expensive
HBM3	interposer (silicon), microbump 55 μm	별개 비용 구조 — PCB는 단순, 비용은 interposer가 흡수

GDDR이 chip 가격은 싸지만 PCB·VRM·decoupling 비용은 상당히 큽니다. 256-bit, 384-bit, 512-bit로 갈수록 카드 PCB가 결정적인 비용 요소입니다.

#DRAM 명령 인터페이스

GDDR과 HBM은 DRAM 명령어 셋이 유사하지만 세부 차이가 있습니다.

1
GDDR6 command (16 bank, 2 channel × 16-bit)
2

3
CKE  ─── Clock Enable
4
CS   ─── Chip Select
5
CA[9:0] ─ Command/Address bus
6
DQ[15:0] ─ Data (channel 0)
7
DQ[31:16] ─ Data (channel 1)
8

9
명령 종류:
10
- ACT  (activate row)
11
- RD   (read column)
12
- WR   (write column)
13
- PRE  (precharge bank)
14
- REF  (refresh all banks)
15
- RFM  (refresh management, GDDR6X+)

GDDR6은 2 channel × 16-bit로 내부적으로 분할됩니다. HBM3의 16 channel × 64-bit에 비해 channel-level parallelism이 훨씬 적습니다. bank parallelism에 더 의존합니다.

#신뢰성 기능

GDDR도 ECC와 RAS가 강화됐습니다.

세대	ECC
GDDR5	없음 (cost 우선)
GDDR6	on-die ECC 옵션 (벤더별)
GDDR6X	on-die ECC + DBI 강화
GDDR7	SECDED on-die ECC 표준

데이터센터용 GDDR6X (NVIDIA L40, L4)는 sideband ECC 16

(8-bit data + 1-bit ECC × 16 lane)을 추가해 soft error rate를 보장한다.

데이터센터 추론 카드(L40, L4 등)는 ECC GDDR6X를 씁니다. 24/7 동작에서 soft error가 누적되면 추론 정확도가 떨어지기 때문입니다. 게이밍 카드는 ECC가 off가 일반적이고, fps 우선입니다.

#전력 비교

GDDR과 HBM의 전력 효율 차이는 시스템 설계의 분기점입니다.

메모리	구성	전력
GDDR6	16 Gbps × 384-bit	약 110 W (12 chip × 9 W)
GDDR6X	21 Gbps × 384-bit	약 130 W (12 chip × 11 W)
GDDR7	32 Gbps × 256-bit	약 95 W (8 chip × 12 W)
HBM3	6.4 × 1024 × 1.5	약 35 W (2 stack × 18 W)
HBM3E	9.6 × 1024 × 1.2	약 25 W (2 stack × 12 W)

HBM이 3~4배 효율적. 다만 capacity per W도 함께 봐야 한다.

GDDR이 효율은 낮지만 capacity는 풍부합니다. 32 GB GDDR6X 카드를 $2K*에 살 수 있는 반면 192 GB HBM3 가속기는 *$ 25K 시작입니다. 용도와 예산이 분기시킵니다.

#자주 하는 실수

#”PAM4가 항상 NRZ보다 빠르다”

PAM4는 clock이 같다면 2배 빠릅니다. 하지만 SNR penalty 9.5 dB 때문에 PCB·BGA·DRAM IO를 다 업그레이드해야 그 속도가 나옵니다. PAM4 14 Gbps와 NRZ 14 Gbps를 비교하면 NRZ가 BER도 좋고 전력도 적습니다. signaling 선택은 clock의 한계에 닿았을 때만 의미가 있습니다.

#”GDDR6X와 GDDR7이 PCB 호환된다”

전혀 아닙니다. GDDR6X 180-ball BGA, GDDR7 266-ball BGA로 패키지 자체가 다릅니다. 전압 도메인(VDDQ)도 1.35 V → 1.1 V로 변경됩니다. RTX 40 → 50 카드는 PCB 재설계가 필수입니다.

#GDDR을 DDR5의 대체품으로 가정

GDDR은 graphics 최적화 DRAM이고 CPU memory controller가 GDDR을 지원하지 않습니다. CPU에 GDDR를 붙이려면 별도 controller IP가 필요합니다. AMD Strix Halo 같은 그래픽 강화 APU는 LPDDR5X를 광폭으로 쓰지 GDDR을 쓰지 않습니다.

#length matching tolerance를 ±2 mm로 잡음

GDDR5 시절 가이드입니다. GDDR6X PAM4에서는 ±0.5 mm가 요구되고 ±1 mm면 BER이 10⁻⁶ 수준으로 떨어집니다. board re-spin이 잦은 이유입니다.

#”GDDR이 항상 HBM보다 싸다”

chip 자체는 그렇지만 대역폭 단위 비용은 비슷하기도 합니다. 1 TB/s GDDR6X 카드 PCB가 $300*이면, *HBM 2 stack interposer 패키징*이 *$ 500 정도입니다. 시스템 가격은 카드 BOM과 수율이 모두 들어가야 비교가 됩니다.

#정리

GDDR은 32-bit/chip bus를 그대로 두고 pin rate를 끌어올린 경로입니다.
*NRZ(GDDR6 16 Gbps)*에서 PAM4(GDDR6X 24 Gbps), *PAM3(GDDR7 32 Gbps)*로 signaling 자체가 세대마다 진화했습니다.
PAM4는 NRZ 대비 9.5 dB SNR penalty가 있어 PCB·BGA가 고비용입니다.
PAM3은 PAM4와 NRZ의 절충입니다. 효율 1.5 bit/UI에 SNR penalty -4.8 dB입니다.
GDDR chip은 값이 싸지만 PCB 라우팅·VRM·decoupling이 카드 가격의 큰 부분입니다.
전력 효율은 HBM 대비 3~4배 떨어집니다. 다만 capacity per dollar는 4~6배 좋습니다.
데이터센터 추론 카드(L40, L4)는 ECC GDDR6X를 씁니다. 게이밍 카드는 ECC off가 일반적입니다.
GDDR과 HBM은 완전히 다른 시장이지만 같은 GPU 회사가 둘 다 사용합니다.

#다음 편

Ch 5: 대역폭 계산과 병목 분석에서는 공칭 대역폭과 실제 대역폭의 차이, roofline model, memory wall을 봅니다. AI workload에서 왜 대역폭이 늘 부족한지 정량적으로 풉니다.

#관련 항목

Ch 3: HBM 세대 비교
Ch 5: 대역폭 계산과 병목 분석
Ch 6: 열 설계와 전력 관리
UCIe Ch 3: 물리 레이어 — 고속 signaling 일반론
BoW Ch 2: 아키텍처 — forwarded clock signaling 대안