GDDR6·GDDR6X·GDDR7 분석 — PAM 신호로 32 Gbps 도달한 경로
#한 줄 요약
“GDDR은 signaling을 바꿔 pin rate를 NRZ → PAM4 → PAM3으로 끌어올렸습니다.” — GDDR6은 16 Gbps NRZ, GDDR6X는 24 Gbps PAM4, GDDR7은 32 Gbps PAM3입니다. *bus width(32-bit/chip)*는 그대로, pin rate만 두 배로 올린 경로입니다.
Ch 3에서 HBM이 *광폭 bus(1024-bit)*로 낮은 pin rate로 가는 길을 봤습니다. GDDR은 반대 방향입니다. bus는 32-bit로 그대로 두고 pin rate를 32 Gbps까지 끌어올립니다. signaling이 같이 진화했기 때문에 가능했습니다.
#한눈에 보는 표
| 세대 | 양산 | per-pin | Signaling | Chip BW | 전형적 용도 |
|---|---|---|---|---|---|
| GDDR5 | 2008 | 7 Gbps | NRZ | 28 GB/s | GTX 980 |
| GDDR5X | 2016 | 10~11.5 Gbps | NRZ | 46 GB/s | GTX 1080 / 1080 Ti |
| GDDR6 | 2018 | 14~16 Gbps | NRZ | 64 GB/s | RTX 20/30 |
| GDDR6X | 2020 | 19~24 Gbps | PAM4 | 96 GB/s | RTX 30/40 |
| GDDR7 | 2024 | 32~36 Gbps | PAM3 | 128~144 GB/s | RTX 50 |
GDDR은 5 → 5X → 6 → 6X → 7로 2~3년마다 세대가 바뀌었습니다. 같은 기간 HBM은 4년에 한 번 세대가 바뀐 셈입니다. 그래서 현세대 그래픽카드 안에서도 GDDR 세대가 더 빠르게 분기합니다.
#GDDR chip의 기본 구조
GDDR chip 한 개는 32-bit channel을 가집니다.
| chip 사양 | GDDR6 |
|---|---|
| die 용량 | 8·16 Gb |
| chip 용량 | 1·2 GB |
| bus per chip | 32-bit |
| pin rate | 14~16 Gbps |
| BW per chip | 56~64 GB/s |
| 패키지 | 180-ball BGA |
| supply | VDDQ 1.35 V, VDD 1.35 V |
GPU에 여러 chip을 병렬로 붙여 총 bus width를 만듭니다.
RTX 4090 메모리 구성 (GDDR6X)
GPU (AD102 die)├── memory controller × 12└── 각 controller에 GDDR6X chip 1개
12 chip × 32-bit = 384-bit bus12 chip × 21 Gbps × 32-bit = 1008 GB/s ≈ 1 TB/s12 chip × 2 GB = 24 GB capacitybus가 384-bit까지 늘어나면 PCB 라우팅이 결정적이 됩니다. length matching, 임피던스 제어, decoupling이 카드 가격의 큰 부분입니다.
#NRZ — GDDR6까지
GDDR6은 *NRZ(Non-Return to Zero)*입니다. 한 Unit Interval에 0 또는 1만 보냅니다.
한 UI에 0 또는 1만 보내는 2-level 방식입니다. 1 비트 / UI이므로 16 Gbps는 16 G UI/s에 해당합니다.
장점은 단순함입니다. 수신단이 임계전압 1개만 보면 됩니다. BER이 매우 낮습니다. 단점은 clock을 두 배로 올려야 두 배 빨라진다는 것입니다. 16 Gbps NRZ 너머가 PCB·BGA 공정의 한계가 되어 GDDR6에서 멈췄습니다.
#PAM4 — GDDR6X의 4-level
NVIDIA와 Micron이 RTX 30 시리즈용으로 공동 개발한 GDDR6X는 PAM4를 도입했습니다.
한 UI에 *4 레벨(2 비트)*을 실어 보냅니다. 같은 clock에서 2배 데이터입니다.
NRZ·PAM4·PAM3 세 가지 signaling을 같은 시간축으로 비교하면 다음과 같습니다.
한 UI에 2 비트가 들어갑니다. PAM4 21 Gbps는 NRZ로 환산하면 42 Gbps에 해당합니다. clock 자체는 NRZ 21 Gbps 수준이라 eye가 NRZ와 비슷한 폭을 갖습니다. 다만 level 사이 거리가 1/3로 좁아져 SNR margin이 줄어듭니다.
PAM4 eye diagram의 구조 (이론):
| 레벨 | 의미 | 인접 eye |
|---|---|---|
| 3 | 11 | eye 1 (top, 레벨 3 ↔ 2) |
| 2 | 10 | eye 2 (mid, 레벨 2 ↔ 1) |
| 1 | 01 | eye 3 (bottom, 레벨 1 ↔ 0) |
| 0 | 00 | — |
NRZ 대비 eye 높이가 1/3로 줄어 SNR이 -9.5 dB 패널티.
PAM4의 9.5 dB penalty는 *FEC(Forward Error Correction)*와 *DBI(Data Bus Inversion)*로 보완합니다. PCB 라우팅이 깐깐해서 카드 PCB가 8~12층에 *임피던스 ±5%*가 요구됩니다.
#PAM3 — GDDR7의 절충
GDDR7은 PAM3입니다. 4-level이 아닌 3-level을 사용합니다.
3-level × 1 UI에 1.5 bit를 인코딩합니다. 실제로는 8 ternary symbol → 12 bit 매핑을 씁니다.
PAM3은 NRZ의 2배 효율에 못 미치고 PAM4의 효율보다는 낮은데 SNR이 PAM4보다 좋습니다. 3-level 간격이 PAM4의 2-level 간격보다 50% 넓기 때문입니다.
SNR penalty 비교 (NRZ 대비)
NRZ : 0 dB (기준)PAM3 : -4.8 dBPAM4 : -9.5 dB
데이터레이트 효율:NRZ : 1.0 bit/UIPAM3 : 1.5 bit/UI (이론)PAM4 : 2.0 bit/UIGDDR7은 32 Gbps에서 PAM3로 동작하고 PAM3의 effective bit rate는 clock × 1.5로 들어갑니다. NVIDIA RTX 50 시리즈가 GDDR7 32 Gbps로 출시 예정입니다.
GDDR7 (2024~2025)├── per-pin : 32 Gbps (PAM3)├── chip BW : 128 GB/s├── chip capacity : 2~4 GB (16~24 Gb DRAM)├── 패키지 : 266-ball BGA (PAM3 ground reference 증가)└── VDD/VDDQ : 1.2 V / 1.1 V
대표 제품:- NVIDIA RTX 5090 (16 chip × 32 Gbps × 32-bit = 2.0 TB/s, 32 GB)- Samsung GDDR7 32 Gbps qualification 완료 (2024)- SK Hynix GDDR7 32 Gbps 양산 (2025)- Micron GDDR7 28~32 Gbps#PCB 라우팅 — GDDR의 진짜 비용
GDDR의 진짜 비용은 PCB와 신호 무결성에 있습니다.
- length matching*은 모든 신호 쌍이 같은 시간에 도착하도록 trace 길이를 맞추는 것입니다. PAM4 21 Gbps에서 1 UI = 47.6 ps인데, 47.6 ps는 PCB 위에서 약 7 mm입니다. ±0.5 mm 오차는 ±7% 정도의 eye width 침투가 됩니다.
| 세대 | PCB 사양 | 비용 |
|---|---|---|
| GDDR5 | 6층 PCB, 표준 length matching ±2 mm | cheap |
| GDDR6 | 8층, ±1 mm | moderate |
| GDDR6X | 10~12층, ±0.5 mm, FEC, 추가 ground plane | expensive |
| GDDR7 | 12층, ±0.4 mm, retimer 옵션 | expensive |
| HBM3 | interposer (silicon), microbump 55 μm | 별개 비용 구조 — PCB는 단순, 비용은 interposer가 흡수 |
GDDR이 chip 가격은 싸지만 PCB·VRM·decoupling 비용은 상당히 큽니다. 256-bit, 384-bit, 512-bit로 갈수록 카드 PCB가 결정적인 비용 요소입니다.
#DRAM 명령 인터페이스
GDDR과 HBM은 DRAM 명령어 셋이 유사하지만 세부 차이가 있습니다.
GDDR6 command (16 bank, 2 channel × 16-bit)
CKE ─── Clock EnableCS ─── Chip SelectCA[9:0] ─ Command/Address busDQ[15:0] ─ Data (channel 0)DQ[31:16] ─ Data (channel 1)
명령 종류:- ACT (activate row)- RD (read column)- WR (write column)- PRE (precharge bank)- REF (refresh all banks)- RFM (refresh management, GDDR6X+)GDDR6은 2 channel × 16-bit로 내부적으로 분할됩니다. HBM3의 16 channel × 64-bit에 비해 channel-level parallelism이 훨씬 적습니다. bank parallelism에 더 의존합니다.
#신뢰성 기능
GDDR도 ECC와 RAS가 강화됐습니다.
| 세대 | ECC |
|---|---|
| GDDR5 | 없음 (cost 우선) |
| GDDR6 | on-die ECC 옵션 (벤더별) |
| GDDR6X | on-die ECC + DBI 강화 |
| GDDR7 | SECDED on-die ECC 표준 |
데이터센터용 GDDR6X (NVIDIA L40, L4)는 sideband ECC 16
(8-bit data + 1-bit ECC × 16 lane)을 추가해 soft error rate를 보장한다.데이터센터 추론 카드(L40, L4 등)는 ECC GDDR6X를 씁니다. 24/7 동작에서 soft error가 누적되면 추론 정확도가 떨어지기 때문입니다. 게이밍 카드는 ECC가 off가 일반적이고, fps 우선입니다.
#전력 비교
GDDR과 HBM의 전력 효율 차이는 시스템 설계의 분기점입니다.
| 메모리 | 구성 | 전력 |
|---|---|---|
| GDDR6 | 16 Gbps × 384-bit | 약 110 W (12 chip × 9 W) |
| GDDR6X | 21 Gbps × 384-bit | 약 130 W (12 chip × 11 W) |
| GDDR7 | 32 Gbps × 256-bit | 약 95 W (8 chip × 12 W) |
| HBM3 | 6.4 × 1024 × 1.5 | 약 35 W (2 stack × 18 W) |
| HBM3E | 9.6 × 1024 × 1.2 | 약 25 W (2 stack × 12 W) |
HBM이 3~4배 효율적. 다만 capacity per W도 함께 봐야 한다.
GDDR이 효율은 낮지만 capacity는 풍부합니다. 32 GB GDDR6X 카드를 25K 시작입니다. 용도와 예산이 분기시킵니다.
#자주 하는 실수
#”PAM4가 항상 NRZ보다 빠르다”
PAM4는 clock이 같다면 2배 빠릅니다. 하지만 SNR penalty 9.5 dB 때문에 PCB·BGA·DRAM IO를 다 업그레이드해야 그 속도가 나옵니다. PAM4 14 Gbps와 NRZ 14 Gbps를 비교하면 NRZ가 BER도 좋고 전력도 적습니다. signaling 선택은 clock의 한계에 닿았을 때만 의미가 있습니다.
#”GDDR6X와 GDDR7이 PCB 호환된다”
전혀 아닙니다. GDDR6X 180-ball BGA, GDDR7 266-ball BGA로 패키지 자체가 다릅니다. 전압 도메인(VDDQ)도 1.35 V → 1.1 V로 변경됩니다. RTX 40 → 50 카드는 PCB 재설계가 필수입니다.
#GDDR을 DDR5의 대체품으로 가정
GDDR은 graphics 최적화 DRAM이고 CPU memory controller가 GDDR을 지원하지 않습니다. CPU에 GDDR를 붙이려면 별도 controller IP가 필요합니다. AMD Strix Halo 같은 그래픽 강화 APU는 LPDDR5X를 광폭으로 쓰지 GDDR을 쓰지 않습니다.
#length matching tolerance를 ±2 mm로 잡음
GDDR5 시절 가이드입니다. GDDR6X PAM4에서는 ±0.5 mm가 요구되고 ±1 mm면 BER이 10⁻⁶ 수준으로 떨어집니다. board re-spin이 잦은 이유입니다.
#”GDDR이 항상 HBM보다 싸다”
chip 자체는 그렇지만 대역폭 단위 비용은 비슷하기도 합니다. 1 TB/s GDDR6X 카드 PCB가 500 정도입니다. 시스템 가격은 카드 BOM과 수율이 모두 들어가야 비교가 됩니다.
#정리
- GDDR은 32-bit/chip bus를 그대로 두고 pin rate를 끌어올린 경로입니다.
- *NRZ(GDDR6 16 Gbps)*에서 PAM4(GDDR6X 24 Gbps), *PAM3(GDDR7 32 Gbps)*로 signaling 자체가 세대마다 진화했습니다.
- PAM4는 NRZ 대비 9.5 dB SNR penalty가 있어 PCB·BGA가 고비용입니다.
- PAM3은 PAM4와 NRZ의 절충입니다. 효율 1.5 bit/UI에 SNR penalty -4.8 dB입니다.
- GDDR chip은 값이 싸지만 PCB 라우팅·VRM·decoupling이 카드 가격의 큰 부분입니다.
- 전력 효율은 HBM 대비 3~4배 떨어집니다. 다만 capacity per dollar는 4~6배 좋습니다.
- 데이터센터 추론 카드(L40, L4)는 ECC GDDR6X를 씁니다. 게이밍 카드는 ECC off가 일반적입니다.
- GDDR과 HBM은 완전히 다른 시장이지만 같은 GPU 회사가 둘 다 사용합니다.
#다음 편
Ch 5: 대역폭 계산과 병목 분석에서는 공칭 대역폭과 실제 대역폭의 차이, roofline model, memory wall을 봅니다. AI workload에서 왜 대역폭이 늘 부족한지 정량적으로 풉니다.
#관련 항목
- Ch 3: HBM 세대 비교
- Ch 5: 대역폭 계산과 병목 분석
- Ch 6: 열 설계와 전력 관리
- UCIe Ch 3: 물리 레이어 — 고속 signaling 일반론
- BoW Ch 2: 아키텍처 — forwarded clock signaling 대안
HBM·GDDR 심화 · 4 of 12
- 1HBM과 GDDR 분기점 분석 — Bandwidth·Capacity·Cost 트레이드오프
- 2HBM 3D 스택 구조 분해 — TSV·Microbump·Base Die의 역할
- 3HBM2·HBM2E·HBM3·HBM3E 세대 비교 — JEDEC 표준 진화 흐름
- 4GDDR6·GDDR6X·GDDR7 분석 — PAM 신호로 32 Gbps 도달한 경로
- 5메모리 대역폭 병목 분석 — Theoretical vs Achievable·Roofline·Memory Wall
- 6HBM 열 설계와 전력 관리 — Stack 열 부하·Refresh Cost·냉각 솔루션
- 7HBM 메모리 컨트롤러 분석 — Bank·Row·Column·Address Mapping·Scheduling
- 8NPU·GPU에서의 HBM 활용 — Weight·Activation·KV Cache 배치 분석
- 9CXL.mem 분석 — HBM·GDDR·DDR 다음의 메모리 계층
- 10CXL.mem 프로토콜 분해 — M2S·S2M 메시지와 HDM Decoder
- 11CXL Type 1·2·3 디바이스 분류 — Cache·Accelerator·Memory
- 12메모리 풀링과 데이터센터 토폴로지 — CXL Switch와 Fabric
관련 글
HBM과 GDDR 분기점 분석 — Bandwidth·Capacity·Cost 트레이드오프
HBM과 GDDR의 분기점 — bandwidth·capacity·cost의 트레이드오프와 시장 분할.
메모리 풀링과 데이터센터 토폴로지 — CXL Switch와 Fabric
CXL 2.0/3.x switch가 만드는 메모리 풀링 — 다중 호스트가 공유하는 메모리 풀과 Coherent Fabric 토폴로지.
CXL Type 1·2·3 디바이스 분류 — Cache·Accelerator·Memory
CXL 디바이스 세 유형 — Type 1 (cache-only), Type 2 (accelerator with memory), Type 3 (memory expander)의 사용 사례와 트래픽 패턴.