HBM과 GDDR 분기점 분석 — Bandwidth·Capacity·Cost 트레이드오프
#한 줄 요약
“같은 DRAM 셀에서 시작했지만, bus width와 packaging이 갈렸습니다.” — GDDR은 PCB 위 chip으로 clock을 끝까지 밀어 올린 방식, HBM은 interposer 위 stack으로 bus를 1024-bit까지 넓힌 방식입니다. 한쪽은 값이 싸고 capacity가 크고, 다른 쪽은 대역폭과 효율이 큽니다.
NVIDIA H100과 RTX 4090을 같이 놓고 보면 둘 다 최신 메모리를 씁니다. 그런데 H100은 80 GB HBM3에 3.35 TB/s, RTX 4090은 24 GB GDDR6X에 1.0 TB/s입니다. 같은 회사의 같은 세대 칩인데 메모리 선택이 완전히 다릅니다. 이 분기점이 어디서 생기는지가 이 시리즈의 시작입니다.
#DDR 가족의 분기
JEDEC 표준 안에서 DRAM은 세 갈래로 갈렸습니다.
| 계열 | 용도 | 세대 |
|---|---|---|
| DDR (Double Data Rate) | CPU·서버 메인 메모리 | DDR4 (3.2 Gbps, 데스크탑·서버) · DDR5 (4.8~8.0 Gbps, 현세대) |
| LPDDR (Low Power DDR) | 모바일·랩탑·자동차 | LPDDR4X (4.2 Gbps) · LPDDR5X (8.5 Gbps) |
| GDDR (Graphics DDR) | GPU·콘솔·네트워킹 | GDDR6 (14 |
| HBM (High Bandwidth Memory) | HPC·AI 가속기 | HBM2 (2.4 Gbps × 1024-bit) · HBM2E (3.6 Gbps) · HBM3 (6.4 Gbps, 819 GB/s) · HBM3E (9.2~9.8 Gbps, 1.2 TB/s+) · HBM4 (2048-bit, 1.6 TB/s+, 2025+) |
뿌리는 같은 DRAM 셀입니다. 셀 자체의 access time은 나노초 단위로 거의 차이가 없습니다. 갈리는 곳은 셀 밖입니다. 신호를 어떻게 보내는지, bus를 얼마나 넓게 가져가는지, 패키지를 어떻게 묶는지가 다릅니다.
#분기의 본질
차이를 세 축으로 정리할 수 있습니다.
| 축 | DDR | GDDR | HBM |
|---|---|---|---|
| Bus width | 64-bit/DIMM | 32-bit/chip | 1024-bit/stack |
| Per-pin rate | 6.4 Gbps | 32 Gbps | 9.6 Gbps |
| Signaling | NRZ | PAM3·PAM4 | NRZ |
| Packaging | DIMM (PCB) | BGA on PCB | TSV stack on interposer |
| Capacity | 32~128 GB | 8~32 GB | 24~192 GB |
| Cost per GB | $5~10 | $10~20 | $30~60 |
GDDR은 clock을 끝까지 밀어 올린 방식입니다. 32-bit 좁은 bus로 PAM4·PAM3 같은 멀티 레벨 signaling까지 끌어와 pin rate를 32 Gbps까지 올립니다.
HBM은 반대 방향입니다. pin rate는 낮추고, 대신 bus width를 1024-bit까지 넓힙니다. 한 stack에 1024개 신호가 한꺼번에 움직입니다.
같은 1 TB/s를 만드는 두 가지 방법:
GDDR6X 방식 (RTX 4090). 21 Gbps × 384-bit bus = 1.0 TB/s. 12개 GDDR6X chip × 32-bit이며, PCB 위에서 길이·임피던스 일치가 필요하다. chip 1개당 약 84 GB/s.
HBM3 방식 (H100). 6.4 Gbps × 1024-bit × 5 stack = 4.1 TB/s. 5개 HBM3 stack × 1024-bit이며, interposer 위 microbump로 연결된다. stack 1개당 819 GB/s.
같은 총 대역폭이라도 pin 수, 신호 무결성 부담, 전력이 완전히 다릅니다.
#Bandwidth per pin
핵심 지표 하나를 짚고 가야 합니다. pin 1개당 데이터 전송률입니다.
GDDR은 세대마다 pin rate가 두 배에 가깝게 뛰었습니다. NRZ에서 PAM4, 다시 PAM3으로 signaling 자체를 바꿔 가며 clock을 짜낸 결과입니다.
HBM은 훨씬 느리게 갑니다. 2.4 → 9.6 Gbps까지 4배 늘었을 뿐입니다. 하지만 bus width 1024-bit이라 stack 하나가 GDDR chip 12개 분량과 맞먹습니다.
#Cost와 power의 분기
GDDR과 HBM은 비용 구조가 다릅니다.
비용 분해 (대략):
GDDR6X 24 GB (12 chip × 2 GB).
| 항목 | 비용 |
|---|---|
| DRAM die | $80 |
| BGA package | $20 |
| PCB 라우팅 | $10 (board cost에 내장) |
| 메모리 컨트롤러 | GPU die 내부 |
| total (메모리만) | ≈ $110 |
HBM3 96 GB (4 stack × 24 GB).
| 항목 | 비용 |
|---|---|
| DRAM die (48개) | $240 |
| Base die (4개) | $80 |
| TSV + microbump | $60 |
| Interposer | $200 |
| CoWoS 패키징 | $300 |
| KGD test | $40 |
| total (메모리 + 패키징) | ≈ $920 |
같은 capacity라도 HBM은 8~10배 비싸기 일쑤입니다. 대신 전력은 절반 이하이고, 대역폭은 3~4배가 나옵니다.
전력 비교 — 1 TB/s를 만드는 데 필요한 전력:
| 메모리 | 전력 | 내역 |
|---|---|---|
| GDDR6X | 약 85 W | chip 12개 × 7 W |
| HBM3 | 약 25 W | stack 2개 × 12 W |
HBM이 약 3배 효율적.
데이터센터에서는 전력 1 W가 연간 $1.5의 운영비입니다. AI 가속기 50만 대 규모가 되면 몇 십 MW 차이가 수십 억 원 차이로 돌아옵니다. HBM의 비싼 가격이 3년 안에 회수되는 이유입니다.
#시장 분할
이런 트레이드오프 때문에 시장이 깨끗하게 갈립니다.
| 진영 | 대표 제품 | 특징 |
|---|---|---|
| HBM | NVIDIA H100/H200/B100/B200, Blackwell 차세대 AMD MI300X/MI325X, MI350 계열 Google TPU v5p/Trillium Intel Gaudi 3 Korea: Sapeon·Rebellions NPU 계열 | training·대형 추론 대당 40K per-rack 100~200 kW |
| GDDR | NVIDIA RTX 30/40/50 시리즈 AMD RX 7000/8000 시리즈 PlayStation 5, Xbox Series X 데이터센터 추론 카드 (L4·L40·H100 PCIe NVL) 네트워킹 SoC (Marvell, Broadcom) | 그래픽·게임·소형 추론 대당 8K per-card 250~450 W |
같은 NVIDIA 안에서도 H100은 HBM, RTX 4090은 GDDR입니다. 분기점은 명확합니다. capacity가 100 GB를 넘어야 하고, 대역폭이 1.5 TB/s 이상 필요하면 HBM 외에는 선택지가 없습니다.
#한국 메모리 산업의 위치
HBM 시장은 한국 두 회사가 사실상 양분하고 있습니다.
HBM 시장 점유율 (2025년경 공개 자료 기준 추정):
| 회사 | 점유율 | 비고 |
|---|---|---|
| SK 하이닉스 | ~53% | HBM3·HBM3E 1위 |
| Samsung | ~38% | |
| Micron | ~9% | HBM3E 후발, 점유율 추격 중 |
NVIDIA Blackwell HBM3E 공급:
| 회사 | 역할 | 비고 |
|---|---|---|
| SK Hynix | 주 공급 | 9.2 Gbps grade qualified 우선 |
| Micron | 추가 공급 | 9.8 Gbps 양산 |
| Samsung | qualification 진행 |
SK 하이닉스가 2023년 HBM3 양산에 가장 먼저 들어가 NVIDIA의 first source가 됐고, HBM3E에서도 9.2 Gbps grade로 양산 선두를 지키고 있습니다. Samsung은 HBM3E 12-Hi 24 Gb DRAM으로 36 GB stack을 먼저 발표했지만 NVIDIA qualification이 늦어졌습니다. Micron은 9.8 Gbps로 per-pin rate는 가장 높지만 총 volume은 아직 3위입니다.
#시리즈 로드맵
이 시리즈는 HBM 중심으로 가지만 GDDR과의 비교도 빼지 않습니다. 8개 챕터의 흐름은 다음과 같습니다.
| 챕터 | 주제 | 핵심 |
|---|---|---|
| Ch 1 | 개요 (이 글) | HBM vs GDDR 분기 |
| Ch 2 | HBM stack 구조 | TSV·base die·microbump |
| Ch 3 | 세대 비교 | HBM2 → HBM4 |
| Ch 4 | GDDR | GDDR6·6X·7 |
| Ch 5 | 대역폭 병목 | sustained BW·roofline |
| Ch 6 | 열·전력 | refresh·cooling |
| Ch 7 | 메모리 컨트롤러 | bank·scheduling |
| Ch 8 | NPU·GPU 활용 | weight·KV cache |
이번 시리즈의 자매 시리즈 둘이 있습니다. BoW 시리즈와 UCIe 시리즈는 die-to-die 표준입니다. HBM이 DRAM stack을 interposer 위에 놓는다면, BoW/UCIe는 로직 칩렛을 같은 interposer 위에 놓습니다. 함께 보면 현세대 패키징의 전체 그림이 나옵니다.
CXL 시리즈는 HBM의 한계 너머입니다. stack 4개로 192 GB를 만들어도 LLM weight 1 TB는 못 담습니다. CXL은 PCIe 너머로 메모리를 풀링해 TB급 메모리를 만드는 길입니다.
#자주 하는 실수
#”HBM이 항상 GDDR보다 빠르다”
per-stack과 per-chip을 헷갈리면 그런 결론이 나옵니다. HBM3 stack 1개는 819 GB/s, GDDR6X chip 1개는 84 GB/s입니다. 10배 차이로 보입니다. 하지만 GPU 한 장에 GDDR6X chip이 12개 들어가면 1 TB/s가 됩니다. HBM stack 2개 분량입니다. 시스템 레벨에서 봐야 합니다.
#”HBM은 무조건 비싸서 못 쓴다”
소형 추론·게임에는 맞습니다. 그러나 AI training cluster에서 전력 효율과 boards-per-rack 밀도가 3배 다르면 HBM의 초기 비용은 운영비로 회수됩니다. 총소유비용(TCO) 기준으로 봐야 합니다.
#”GDDR과 LPDDR이 같은 거다”
전혀 다릅니다. LPDDR은 모바일용 저전력 DDR이고, GDDR은 그래픽용 고속 DDR입니다. 신호 무결성 요건, 패키지 BGA 핀 정의, 명령어 셋이 모두 다릅니다. 데이터시트 헷갈리는 일이 의외로 많습니다.
#HBM이 DDR5의 후속이라는 오해
HBM은 DDR5의 진화형이 아니라 완전히 다른 패키징 카테고리입니다. CPU는 앞으로도 DDR5/DDR6을 쓰지 HBM을 쓰지 않습니다. CPU에 HBM이 붙는 경우는 Xeon Max처럼 온패키지 HBM을 L4 캐시처럼 쓰는 특수 케이스뿐입니다.
#정리
- DRAM 가족은 DDR·LPDDR·GDDR·HBM 네 갈래로 갈렸고, 셀은 같지만 패키징과 signaling이 다릅니다.
- GDDR은 32-bit 좁은 bus에 PAM3/PAM4로 pin rate를 32 Gbps까지 끌어올린 방식입니다.
- HBM은 1024-bit 넓은 bus에 낮은 pin rate로 stack당 819 GB/s~1.2 TB/s를 만든 방식입니다.
- 같은 1 TB/s라도 HBM 쪽이 전력은 절반 이하, 비용은 8배 이상입니다.
- 시장은 깨끗하게 갈렸습니다. HBM은 AI/HPC, GDDR은 그래픽·소형 추론입니다.
- HBM은 *한국 두 회사(SK 하이닉스, Samsung)*가 *시장의 90%*를 점유합니다.
- NVIDIA Blackwell의 HBM3E 공급망에서 SK 하이닉스가 first source, Micron이 fastest grade, Samsung이 추격입니다.
- 다음 장부터 HBM stack 구조와 TSV부터 차근차근 들어갑니다.
#다음 편
Ch 2: HBM 스택 구조와 TSV에서는 base die와 DRAM die가 어떻게 적층되는지, *TSV(Through-Silicon Via)*가 어떻게 전기 신호를 위로 통과시키는지를 봅니다. microbump pitch와 yield 이슈도 함께 다룹니다.
#관련 항목
- Ch 2: HBM 스택 구조와 TSV
- Ch 3: HBM2/HBM2E/HBM3/HBM3E 스펙 비교
- Ch 4: GDDR6·GDDR6X·GDDR7
- BoW Ch 1: 개요 — die-to-die 표준의 한쪽
- UCIe Ch 1: 개요 — die-to-die 표준의 다른 쪽
- CXL Ch 1: 개요 — HBM 너머의 메모리 풀링
HBM·GDDR 심화 · 1 of 12
- 1HBM과 GDDR 분기점 분석 — Bandwidth·Capacity·Cost 트레이드오프
- 2HBM 3D 스택 구조 분해 — TSV·Microbump·Base Die의 역할
- 3HBM2·HBM2E·HBM3·HBM3E 세대 비교 — JEDEC 표준 진화 흐름
- 4GDDR6·GDDR6X·GDDR7 분석 — PAM 신호로 32 Gbps 도달한 경로
- 5메모리 대역폭 병목 분석 — Theoretical vs Achievable·Roofline·Memory Wall
- 6HBM 열 설계와 전력 관리 — Stack 열 부하·Refresh Cost·냉각 솔루션
- 7HBM 메모리 컨트롤러 분석 — Bank·Row·Column·Address Mapping·Scheduling
- 8NPU·GPU에서의 HBM 활용 — Weight·Activation·KV Cache 배치 분석
- 9CXL.mem 분석 — HBM·GDDR·DDR 다음의 메모리 계층
- 10CXL.mem 프로토콜 분해 — M2S·S2M 메시지와 HDM Decoder
- 11CXL Type 1·2·3 디바이스 분류 — Cache·Accelerator·Memory
- 12메모리 풀링과 데이터센터 토폴로지 — CXL Switch와 Fabric
관련 글
메모리 대역폭 병목 분석 — Theoretical vs Achievable·Roofline·Memory Wall
Theoretical vs achievable — 메모리 대역폭의 실제와 roofline·memory wall.
CXL.mem 분석 — HBM·GDDR·DDR 다음의 메모리 계층
CXL.mem이 메모리 계층에 끼어드는 자리 — on-package HBM과 DRAM DIMM 사이의 새 tier.
NPU·GPU에서의 HBM 활용 — Weight·Activation·KV Cache 배치 분석
Weight·activation·KV cache — HBM 자리잡기와 시리즈 마무리.