본문으로 건너뛰기
HBM·GDDR 심화 · 4/12

GDDR6·GDDR6X·GDDR7 분석 — PAM 신호로 32 Gbps 도달한 경로

· Hawk · 9분 읽기

#한 줄 요약

“GDDR은 signaling을 바꿔 pin rate를 NRZ → PAM4 → PAM3으로 끌어올렸습니다.” — GDDR6은 16 Gbps NRZ, GDDR6X는 24 Gbps PAM4, GDDR7은 32 Gbps PAM3입니다. *bus width(32-bit/chip)*는 그대로, pin rate만 두 배로 올린 경로입니다.

Ch 3에서 HBM이 *광폭 bus(1024-bit)*로 낮은 pin rate로 가는 길을 봤습니다. GDDR은 반대 방향입니다. bus는 32-bit로 그대로 두고 pin rate를 32 Gbps까지 끌어올립니다. signaling이 같이 진화했기 때문에 가능했습니다.

#한눈에 보는 표

세대양산per-pinSignalingChip BW전형적 용도
GDDR520087 GbpsNRZ28 GB/sGTX 980
GDDR5X201610~11.5 GbpsNRZ46 GB/sGTX 1080 / 1080 Ti
GDDR6201814~16 GbpsNRZ64 GB/sRTX 20/30
GDDR6X202019~24 GbpsPAM496 GB/sRTX 30/40
GDDR7202432~36 GbpsPAM3128~144 GB/sRTX 50

GDDR은 5 → 5X → 6 → 6X → 72~3년마다 세대가 바뀌었습니다. 같은 기간 HBM은 4년에 한 번 세대가 바뀐 셈입니다. 그래서 현세대 그래픽카드 안에서도 GDDR 세대가 더 빠르게 분기합니다.

#GDDR chip의 기본 구조

GDDR chip 한 개는 32-bit channel을 가집니다.

GDDR6 chip — 16 Gb DRAM die의 bank 배치와 32-bit I/O ring

chip 사양GDDR6
die 용량8·16 Gb
chip 용량1·2 GB
bus per chip32-bit
pin rate14~16 Gbps
BW per chip56~64 GB/s
패키지180-ball BGA
supplyVDDQ 1.35 V, VDD 1.35 V

GPU에 여러 chip병렬로 붙여 총 bus width를 만듭니다.

RTX 4090 메모리 구성 (GDDR6X)
GPU (AD102 die)
├── memory controller × 12
└── 각 controller에 GDDR6X chip 1개
12 chip × 32-bit = 384-bit bus
12 chip × 21 Gbps × 32-bit = 1008 GB/s ≈ 1 TB/s
12 chip × 2 GB = 24 GB capacity

bus가 384-bit까지 늘어나면 PCB 라우팅이 결정적이 됩니다. length matching, 임피던스 제어, decoupling카드 가격의 큰 부분입니다.

#NRZ — GDDR6까지

GDDR6은 *NRZ(Non-Return to Zero)*입니다. 한 Unit Interval0 또는 1만 보냅니다.

한 UI에 0 또는 1만 보내는 2-level 방식입니다. 1 비트 / UI이므로 16 Gbps는 16 G UI/s에 해당합니다.

장점은 단순함입니다. 수신단이 임계전압 1개만 보면 됩니다. BER이 매우 낮습니다. 단점은 clock을 두 배로 올려야 두 배 빨라진다는 것입니다. 16 Gbps NRZ 너머PCB·BGA 공정의 한계가 되어 GDDR6에서 멈췄습니다.

#PAM4 — GDDR6X의 4-level

NVIDIA와 Micron이 RTX 30 시리즈용으로 공동 개발한 GDDR6X는 PAM4를 도입했습니다.

한 UI에 *4 레벨(2 비트)*을 실어 보냅니다. 같은 clock에서 2배 데이터입니다.

NRZ·PAM4·PAM3 세 가지 signaling을 같은 시간축으로 비교하면 다음과 같습니다.

NRZ vs PAM4 vs PAM3 — 같은 시간축에서의 레벨 비교

한 UI에 2 비트가 들어갑니다. PAM4 21 Gbps는 NRZ로 환산하면 42 Gbps에 해당합니다. clock 자체는 NRZ 21 Gbps 수준이라 eye가 NRZ와 비슷한 폭을 갖습니다. 다만 level 사이 거리가 1/3로 좁아져 SNR margin이 줄어듭니다.

PAM4 eye diagram의 구조 (이론):

레벨의미인접 eye
311eye 1 (top, 레벨 3 ↔ 2)
210eye 2 (mid, 레벨 2 ↔ 1)
101eye 3 (bottom, 레벨 1 ↔ 0)
000

NRZ 대비 eye 높이가 1/3로 줄어 SNR이 -9.5 dB 패널티.

PAM4의 9.5 dB penalty는 *FEC(Forward Error Correction)*와 *DBI(Data Bus Inversion)*로 보완합니다. PCB 라우팅이 깐깐해서 카드 PCB가 8~12층에 *임피던스 ±5%*가 요구됩니다.

#PAM3 — GDDR7의 절충

GDDR7은 PAM3입니다. 4-level이 아닌 3-level을 사용합니다.

3-level × 1 UI에 1.5 bit를 인코딩합니다. 실제로는 8 ternary symbol → 12 bit 매핑을 씁니다.

PAM3은 NRZ의 2배 효율못 미치고 PAM4의 효율보다는 낮은데 SNR이 PAM4보다 좋습니다. 3-level 간격PAM4의 2-level 간격보다 50% 넓기 때문입니다.

SNR penalty 비교 (NRZ 대비)
NRZ : 0 dB (기준)
PAM3 : -4.8 dB
PAM4 : -9.5 dB
데이터레이트 효율:
NRZ : 1.0 bit/UI
PAM3 : 1.5 bit/UI (이론)
PAM4 : 2.0 bit/UI

GDDR7은 32 Gbps에서 PAM3로 동작하고 PAM3의 effective bit rateclock × 1.5로 들어갑니다. NVIDIA RTX 50 시리즈가 GDDR7 32 Gbps로 출시 예정입니다.

GDDR7 (2024~2025)
├── per-pin : 32 Gbps (PAM3)
├── chip BW : 128 GB/s
├── chip capacity : 2~4 GB (16~24 Gb DRAM)
├── 패키지 : 266-ball BGA (PAM3 ground reference 증가)
└── VDD/VDDQ : 1.2 V / 1.1 V
대표 제품:
- NVIDIA RTX 5090 (16 chip × 32 Gbps × 32-bit = 2.0 TB/s, 32 GB)
- Samsung GDDR7 32 Gbps qualification 완료 (2024)
- SK Hynix GDDR7 32 Gbps 양산 (2025)
- Micron GDDR7 28~32 Gbps

#PCB 라우팅 — GDDR의 진짜 비용

GDDR의 진짜 비용PCB와 신호 무결성에 있습니다.

RTX 4090의 GDDR6X 384-bit PCB layout — GPU die 주변에 6 chip, length-matched trace

  • length matching*은 모든 신호 쌍같은 시간에 도착하도록 trace 길이를 맞추는 것입니다. PAM4 21 Gbps에서 1 UI = 47.6 ps인데, 47.6 ps는 PCB 위에서 약 7 mm입니다. ±0.5 mm 오차±7% 정도의 eye width 침투가 됩니다.
세대PCB 사양비용
GDDR56층 PCB, 표준 length matching ±2 mmcheap
GDDR68층, ±1 mmmoderate
GDDR6X10~12층, ±0.5 mm, FEC, 추가 ground planeexpensive
GDDR712층, ±0.4 mm, retimer 옵션expensive
HBM3interposer (silicon), microbump 55 μm별개 비용 구조 — PCB는 단순, 비용은 interposer가 흡수

GDDR이 chip 가격은 싸지만 PCB·VRM·decoupling 비용상당히 큽니다. 256-bit, 384-bit, 512-bit로 갈수록 카드 PCB가 결정적인 비용 요소입니다.

#DRAM 명령 인터페이스

GDDR과 HBM은 DRAM 명령어 셋이 유사하지만 세부 차이가 있습니다.

GDDR6 command (16 bank, 2 channel × 16-bit)
CKE ─── Clock Enable
CS ─── Chip Select
CA[9:0] ─ Command/Address bus
DQ[15:0] ─ Data (channel 0)
DQ[31:16] ─ Data (channel 1)
명령 종류:
- ACT (activate row)
- RD (read column)
- WR (write column)
- PRE (precharge bank)
- REF (refresh all banks)
- RFM (refresh management, GDDR6X+)

GDDR6은 2 channel × 16-bit내부적으로 분할됩니다. HBM3의 16 channel × 64-bit에 비해 channel-level parallelism이 훨씬 적습니다. bank parallelism에 더 의존합니다.

#신뢰성 기능

GDDR도 ECC와 RAS가 강화됐습니다.

세대ECC
GDDR5없음 (cost 우선)
GDDR6on-die ECC 옵션 (벤더별)
GDDR6Xon-die ECC + DBI 강화
GDDR7SECDED on-die ECC 표준

데이터센터용 GDDR6X (NVIDIA L40, L4)는 sideband ECC 16

(8-bit data + 1-bit ECC × 16 lane)을 추가해 soft error rate를 보장한다.

데이터센터 추론 카드(L40, L4 등)는 ECC GDDR6X를 씁니다. 24/7 동작에서 soft error가 누적되면 추론 정확도가 떨어지기 때문입니다. 게이밍 카드는 ECC가 off가 일반적이고, fps 우선입니다.

#전력 비교

GDDR과 HBM의 전력 효율 차이는 시스템 설계의 분기점입니다.

메모리구성전력
GDDR616 Gbps × 384-bit약 110 W (12 chip × 9 W)
GDDR6X21 Gbps × 384-bit약 130 W (12 chip × 11 W)
GDDR732 Gbps × 256-bit약 95 W (8 chip × 12 W)
HBM36.4 × 1024 × 1.5약 35 W (2 stack × 18 W)
HBM3E9.6 × 1024 × 1.2약 25 W (2 stack × 12 W)

HBM이 3~4배 효율적. 다만 capacity per W도 함께 봐야 한다.

GDDR이 효율은 낮지만 capacity는 풍부합니다. 32 GB GDDR6X 카드를 2K에살수있는반면192GBHBM3가속기는2K*에 살 수 있는 반면 192 GB HBM3 가속기는 *25K 시작입니다. 용도와 예산분기시킵니다.

#자주 하는 실수

#”PAM4가 항상 NRZ보다 빠르다

PAM4는 clock이 같다면 2배 빠릅니다. 하지만 SNR penalty 9.5 dB 때문에 PCB·BGA·DRAM IO를 다 업그레이드해야 그 속도가 나옵니다. PAM4 14 Gbps와 NRZ 14 Gbps를 비교하면 NRZ가 BER도 좋고 전력도 적습니다. signaling 선택clock의 한계에 닿았을 때만 의미가 있습니다.

#”GDDR6X와 GDDR7이 PCB 호환된다”

전혀 아닙니다. GDDR6X 180-ball BGA, GDDR7 266-ball BGA로 패키지 자체가 다릅니다. 전압 도메인(VDDQ)도 1.35 V → 1.1 V로 변경됩니다. RTX 40 → 50 카드는 PCB 재설계가 필수입니다.

#GDDR을 DDR5의 대체품으로 가정

GDDR은 graphics 최적화 DRAM이고 CPU memory controllerGDDR을 지원하지 않습니다. CPU에 GDDR를 붙이려면 별도 controller IP가 필요합니다. AMD Strix Halo 같은 그래픽 강화 APULPDDR5X를 광폭으로 쓰지 GDDR을 쓰지 않습니다.

#length matching tolerance를 ±2 mm로 잡음

GDDR5 시절 가이드입니다. GDDR6X PAM4에서는 ±0.5 mm요구되고 ±1 mmBER이 10⁻⁶ 수준으로 떨어집니다. board re-spin이 잦은 이유입니다.

#”GDDR이 항상 HBM보다 싸다

chip 자체는 그렇지만 대역폭 단위 비용비슷하기도 합니다. 1 TB/s GDDR6X 카드 PCB300이면,HBM2stackinterposer패키징300*이면, *HBM 2 stack interposer 패키징*이 *500 정도입니다. 시스템 가격카드 BOM수율이 모두 들어가야 비교가 됩니다.

#정리

  • GDDR은 32-bit/chip bus그대로 두고 pin rate를 끌어올린 경로입니다.
  • *NRZ(GDDR6 16 Gbps)*에서 PAM4(GDDR6X 24 Gbps), *PAM3(GDDR7 32 Gbps)*로 signaling 자체세대마다 진화했습니다.
  • PAM4는 NRZ 대비 9.5 dB SNR penalty가 있어 PCB·BGA고비용입니다.
  • PAM3은 PAM4와 NRZ의 절충입니다. 효율 1.5 bit/UISNR penalty -4.8 dB입니다.
  • GDDR chip은 값이 싸지만 PCB 라우팅·VRM·decoupling카드 가격의 큰 부분입니다.
  • 전력 효율은 HBM 대비 3~4배 떨어집니다. 다만 capacity per dollar4~6배 좋습니다.
  • 데이터센터 추론 카드(L40, L4)는 ECC GDDR6X를 씁니다. 게이밍 카드는 ECC off가 일반적입니다.
  • GDDR과 HBM은 완전히 다른 시장이지만 같은 GPU 회사둘 다 사용합니다.

#다음 편

Ch 5: 대역폭 계산과 병목 분석에서는 공칭 대역폭과 실제 대역폭의 차이, roofline model, memory wall을 봅니다. AI workload에서 왜 대역폭이 늘 부족한지 정량적으로 풉니다.

#관련 항목