본문으로 건너뛰기
HBM·GDDR 심화 · 1/12

HBM과 GDDR 분기점 분석 — Bandwidth·Capacity·Cost 트레이드오프

· Hawk · 10분 읽기

#한 줄 요약

“같은 DRAM 셀에서 시작했지만, bus width와 packaging이 갈렸습니다.” — GDDR은 PCB 위 chip으로 clock을 끝까지 밀어 올린 방식, HBM은 interposer 위 stack으로 bus를 1024-bit까지 넓힌 방식입니다. 한쪽은 값이 싸고 capacity가 크고, 다른 쪽은 대역폭과 효율이 큽니다.

NVIDIA H100과 RTX 4090을 같이 놓고 보면 둘 다 최신 메모리를 씁니다. 그런데 H100은 80 GB HBM33.35 TB/s, RTX 4090은 24 GB GDDR6X1.0 TB/s입니다. 같은 회사의 같은 세대 칩인데 메모리 선택이 완전히 다릅니다. 이 분기점이 어디서 생기는지가 이 시리즈의 시작입니다.

#DDR 가족의 분기

JEDEC 표준 안에서 DRAM은 세 갈래로 갈렸습니다.

계열용도세대
DDR (Double Data Rate)CPU·서버 메인 메모리DDR4 (3.2 Gbps, 데스크탑·서버) · DDR5 (4.8~8.0 Gbps, 현세대)
LPDDR (Low Power DDR)모바일·랩탑·자동차LPDDR4X (4.2 Gbps) · LPDDR5X (8.5 Gbps)
GDDR (Graphics DDR)GPU·콘솔·네트워킹GDDR6 (1416 Gbps, NRZ) · GDDR6X (2124 Gbps, PAM4) · GDDR7 (32 Gbps+, PAM3)
HBM (High Bandwidth Memory)HPC·AI 가속기HBM2 (2.4 Gbps × 1024-bit) · HBM2E (3.6 Gbps) · HBM3 (6.4 Gbps, 819 GB/s) · HBM3E (9.2~9.8 Gbps, 1.2 TB/s+) · HBM4 (2048-bit, 1.6 TB/s+, 2025+)

뿌리는 같은 DRAM 셀입니다. 셀 자체의 access time나노초 단위로 거의 차이가 없습니다. 갈리는 곳은 셀 밖입니다. 신호를 어떻게 보내는지, bus를 얼마나 넓게 가져가는지, 패키지를 어떻게 묶는지가 다릅니다.

#분기의 본질

차이를 세 축으로 정리할 수 있습니다.

DDRGDDRHBM
Bus width64-bit/DIMM32-bit/chip1024-bit/stack
Per-pin rate6.4 Gbps32 Gbps9.6 Gbps
SignalingNRZPAM3·PAM4NRZ
PackagingDIMM (PCB)BGA on PCBTSV stack on interposer
Capacity32~128 GB8~32 GB24~192 GB
Cost per GB$5~10$10~20$30~60

GDDR은 clock을 끝까지 밀어 올린 방식입니다. 32-bit 좁은 busPAM4·PAM3 같은 멀티 레벨 signaling까지 끌어와 pin rate32 Gbps까지 올립니다.

HBM은 반대 방향입니다. pin rate는 낮추고, 대신 bus width1024-bit까지 넓힙니다. 한 stack에 1024개 신호가 한꺼번에 움직입니다.

같은 1 TB/s를 만드는 두 가지 방법:

GDDR6X 방식 (RTX 4090). 21 Gbps × 384-bit bus = 1.0 TB/s. 12개 GDDR6X chip × 32-bit이며, PCB 위에서 길이·임피던스 일치가 필요하다. chip 1개당 약 84 GB/s.

HBM3 방식 (H100). 6.4 Gbps × 1024-bit × 5 stack = 4.1 TB/s. 5개 HBM3 stack × 1024-bit이며, interposer 위 microbump로 연결된다. stack 1개당 819 GB/s.

같은 총 대역폭이라도 pin 수, 신호 무결성 부담, 전력이 완전히 다릅니다.

#Bandwidth per pin

핵심 지표 하나를 짚고 가야 합니다. pin 1개당 데이터 전송률입니다.

세대별 per-pin rate — HBM vs GDDR 비교

GDDR은 세대마다 pin rate가 두 배에 가깝게 뛰었습니다. NRZ에서 PAM4, 다시 PAM3으로 signaling 자체를 바꿔 가며 clock을 짜낸 결과입니다.

HBM은 훨씬 느리게 갑니다. 2.4 → 9.6 Gbps까지 4배 늘었을 뿐입니다. 하지만 bus width 1024-bit이라 stack 하나GDDR chip 12개 분량과 맞먹습니다.

#Cost와 power의 분기

GDDR과 HBM은 비용 구조가 다릅니다.

비용 분해 (대략):

GDDR6X 24 GB (12 chip × 2 GB).

항목비용
DRAM die$80
BGA package$20
PCB 라우팅$10 (board cost에 내장)
메모리 컨트롤러GPU die 내부
total (메모리만)≈ $110

HBM3 96 GB (4 stack × 24 GB).

항목비용
DRAM die (48개)$240
Base die (4개)$80
TSV + microbump$60
Interposer$200
CoWoS 패키징$300
KGD test$40
total (메모리 + 패키징)≈ $920

같은 capacity라도 HBM은 8~10배 비싸기 일쑤입니다. 대신 전력은 절반 이하이고, 대역폭은 3~4배가 나옵니다.

전력 비교 — 1 TB/s를 만드는 데 필요한 전력:

메모리전력내역
GDDR6X약 85 Wchip 12개 × 7 W
HBM3약 25 Wstack 2개 × 12 W

HBM이 약 3배 효율적.

데이터센터에서는 전력 1 W연간 $1.5의 운영비입니다. AI 가속기 50만 대 규모가 되면 몇 십 MW 차이가 수십 억 원 차이로 돌아옵니다. HBM의 비싼 가격3년 안에 회수되는 이유입니다.

#시장 분할

이런 트레이드오프 때문에 시장이 깨끗하게 갈립니다.

진영대표 제품특징
HBMNVIDIA H100/H200/B100/B200, Blackwell 차세대
AMD MI300X/MI325X, MI350 계열
Google TPU v5p/Trillium
Intel Gaudi 3
Korea: Sapeon·Rebellions NPU 계열
training·대형 추론
대당 20K 20K~40K
per-rack 100~200 kW
GDDRNVIDIA RTX 30/40/50 시리즈
AMD RX 7000/8000 시리즈
PlayStation 5, Xbox Series X
데이터센터 추론 카드 (L4·L40·H100 PCIe NVL)
네트워킹 SoC (Marvell, Broadcom)
그래픽·게임·소형 추론
대당 500 500~8K
per-card 250~450 W

같은 NVIDIA 안에서도 H100은 HBM, RTX 4090은 GDDR입니다. 분기점은 명확합니다. capacity가 100 GB를 넘어야 하고, 대역폭이 1.5 TB/s 이상 필요하면 HBM 외에는 선택지가 없습니다.

#한국 메모리 산업의 위치

HBM 시장은 한국 두 회사가 사실상 양분하고 있습니다.

HBM 시장 점유율 (2025년경 공개 자료 기준 추정):

회사점유율비고
SK 하이닉스~53%HBM3·HBM3E 1위
Samsung~38%
Micron~9%HBM3E 후발, 점유율 추격 중

NVIDIA Blackwell HBM3E 공급:

회사역할비고
SK Hynix주 공급9.2 Gbps grade qualified 우선
Micron추가 공급9.8 Gbps 양산
Samsungqualification 진행

SK 하이닉스가 2023년 HBM3 양산가장 먼저 들어가 NVIDIA의 first source가 됐고, HBM3E에서도 9.2 Gbps grade양산 선두를 지키고 있습니다. Samsung은 HBM3E 12-Hi 24 Gb DRAM으로 36 GB stack을 먼저 발표했지만 NVIDIA qualification이 늦어졌습니다. Micron은 9.8 Gbpsper-pin rate는 가장 높지만 총 volume은 아직 3위입니다.

#시리즈 로드맵

이 시리즈는 HBM 중심으로 가지만 GDDR과의 비교도 빼지 않습니다. 8개 챕터의 흐름은 다음과 같습니다.

챕터주제핵심
Ch 1개요 (이 글)HBM vs GDDR 분기
Ch 2HBM stack 구조TSV·base die·microbump
Ch 3세대 비교HBM2 → HBM4
Ch 4GDDRGDDR6·6X·7
Ch 5대역폭 병목sustained BW·roofline
Ch 6열·전력refresh·cooling
Ch 7메모리 컨트롤러bank·scheduling
Ch 8NPU·GPU 활용weight·KV cache

이번 시리즈의 자매 시리즈 둘이 있습니다. BoW 시리즈와 UCIe 시리즈는 die-to-die 표준입니다. HBM이 DRAM stackinterposer 위에 놓는다면, BoW/UCIe는 로직 칩렛같은 interposer 위에 놓습니다. 함께 보면 현세대 패키징의 전체 그림이 나옵니다.

CXL 시리즈는 HBM의 한계 너머입니다. stack 4개로 192 GB를 만들어도 LLM weight 1 TB는 못 담습니다. CXL은 PCIe 너머로 메모리를 풀링TB급 메모리를 만드는 길입니다.

#자주 하는 실수

#”HBM이 항상 GDDR보다 빠르다”

per-stackper-chip을 헷갈리면 그런 결론이 나옵니다. HBM3 stack 1개는 819 GB/s, GDDR6X chip 1개는 84 GB/s입니다. 10배 차이로 보입니다. 하지만 GPU 한 장에 GDDR6X chip이 12개 들어가면 1 TB/s가 됩니다. HBM stack 2개 분량입니다. 시스템 레벨에서 봐야 합니다.

#”HBM은 무조건 비싸서 못 쓴다”

소형 추론·게임에는 맞습니다. 그러나 AI training cluster에서 전력 효율boards-per-rack 밀도가 3배 다르면 HBM의 초기 비용운영비로 회수됩니다. 총소유비용(TCO) 기준으로 봐야 합니다.

#”GDDR과 LPDDR이 같은 거다”

전혀 다릅니다. LPDDR은 모바일용 저전력 DDR이고, GDDR은 그래픽용 고속 DDR입니다. 신호 무결성 요건, 패키지 BGA 핀 정의, 명령어 셋이 모두 다릅니다. 데이터시트 헷갈리는 일이 의외로 많습니다.

#HBM이 DDR5의 후속이라는 오해

HBM은 DDR5의 진화형이 아니라 완전히 다른 패키징 카테고리입니다. CPU는 앞으로도 DDR5/DDR6을 쓰지 HBM을 쓰지 않습니다. CPU에 HBM이 붙는 경우는 Xeon Max처럼 온패키지 HBML4 캐시처럼 쓰는 특수 케이스뿐입니다.

#정리

  • DRAM 가족은 DDR·LPDDR·GDDR·HBM 네 갈래로 갈렸고, 셀은 같지만 패키징과 signaling이 다릅니다.
  • GDDR은 32-bit 좁은 busPAM3/PAM4pin rate32 Gbps까지 끌어올린 방식입니다.
  • HBM은 1024-bit 넓은 bus낮은 pin ratestack당 819 GB/s~1.2 TB/s를 만든 방식입니다.
  • 같은 1 TB/s라도 HBM 쪽이 전력은 절반 이하, 비용은 8배 이상입니다.
  • 시장은 깨끗하게 갈렸습니다. HBM은 AI/HPC, GDDR은 그래픽·소형 추론입니다.
  • HBM은 *한국 두 회사(SK 하이닉스, Samsung)*가 *시장의 90%*를 점유합니다.
  • NVIDIA Blackwell의 HBM3E 공급망에서 SK 하이닉스가 first source, Micron이 fastest grade, Samsung이 추격입니다.
  • 다음 장부터 HBM stack 구조TSV부터 차근차근 들어갑니다.

#다음 편

Ch 2: HBM 스택 구조와 TSV에서는 base dieDRAM die어떻게 적층되는지, *TSV(Through-Silicon Via)*가 어떻게 전기 신호를 위로 통과시키는지를 봅니다. microbump pitchyield 이슈도 함께 다룹니다.

#관련 항목