HBM·GDDR 심화 · 3/12

HBM2·HBM2E·HBM3·HBM3E 세대 비교 — JEDEC 표준 진화 흐름

2026년 5월 16일 · Hawk · 13분 읽기

#한 줄 요약

“세대마다 pin rate 1.5~2배가 표준 행보입니다.” — HBM2(2.4 Gbps) → HBM2E(3.6) → HBM3(6.4) → HBM3E(9.6) 순으로 pin rate가 뛰었습니다. stack당 bandwidth는 *307 GB/s → 1.2 TB/s+*로 4년 만에 4배가 됐습니다. HBM4는 *bus width를 2배(2048-bit)*로 늘려 *signaling 부담은 낮추면서 대역폭은 1.6 TB/s+*를 노립니다.

Ch 2에서 물리적 구조를 봤습니다. 이번 장은 시간 축입니다. 같은 base die + DRAM die 골격이 세대마다 어떻게 진화했는지, JEDEC 표준이 어떤 새 기능을 더했는지를 봅니다.

#한눈에 보는 표

세대	JEDEC 표준	양산 시기	per-pin	Stack BW	Stack capacity	I/O	VDD
HBM	JESD235	2015	1.0 Gbps	128 GB/s	1·4 GB	1024-bit	1.2 V
HBM2	JESD235A	2016	2.0~2.4 Gbps	256~307 GB/s	4·8 GB	1024-bit	1.2 V
HBM2E	JESD235C	2018~2020	3.2~3.6 Gbps	410~461 GB/s	8·16 GB	1024-bit	1.2 V
HBM3	JESD238	2022	6.4 Gbps	819 GB/s	16·24 GB	1024-bit	1.1 V
HBM3E	JESD238 update	2024	9.2~9.8 Gbps	1.18~1.25 TB/s	24·36 GB	1024-bit	1.1 V
HBM4	JESD270-4	2026 (양산 램프)	6.4~8.0 Gbps	1.6~2.0 TB/s+	36~64 GB	2048-bit	1.0 V

(JEDEC 문서 번호·revision은 시기에 따라 갱신됩니다. HBM3E는 별도 표준 번호 없이 HBM3 spec 안의 변형으로 다뤄지는 것이 통상이며, HBM4는 2025년 4월 JESD270-4로 표준이 확정됐습니다. JESD235 계열이 아니라 새 번호 체계를 씁니다.)

각 세대의 변곡점을 짚어 가겠습니다.

#HBM (2015) — 시작

AMD Fury X(Fiji)와 함께 첫 양산된 세대입니다. SK 하이닉스가 제조했습니다.

HBM (1세대):

항목	값
per-pin	1.0 Gbps
bus	1024-bit
stack BW	128 GB/s
max stack	4-Hi
max capacity	4 GB / stack
channel	8 × 128-bit
VDD	1.2 V

대표 카드 — AMD Radeon R9 Fury X (4 stack × 1 GB = 4 GB, 512 GB/s).

당시 상황을 보면 놀라운 수치였습니다. 같은 시기 GDDR5는 7 Gbps × 256-bit = 224 GB/s였습니다. HBM 4 stack이 2배 이상의 대역폭을 훨씬 적은 전력으로 냈습니다.

문제는 capacity와 cost였습니다. 4 GB로는 2015년에도 부족했고, interposer 비용이 GPU die보다 비쌌습니다. 그래서 1세대는 게이밍에서 빠지고 HPC로 이동합니다.

#HBM2 (2018) — 본격화

NVIDIA P100·V100, Google TPU v2와 함께 데이터센터의 표준이 됐습니다.

HBM2 (2018):

항목	값
per-pin	2.4 Gbps (clock 1.2 GHz)
stack BW	307 GB/s
max stack	8-Hi
max capacity	8 GB / stack
pseudo channel	16 × 64-bit (PC 도입)
ECC	SECDED 옵션

대표 카드 — NVIDIA V100 (4 stack × 4 GB = 16 GB, 900 GB/s), V100 32GB (4 stack × 8 GB), Google TPU v2/v3.

핵심 변화는 Pseudo Channel입니다. 한 channel을 반쪽씩 독립 명령으로 운영해 bank-level parallelism을 위층으로 한 단계 더 올렸습니다.

PC 도입 전 (HBM):

Channel 0 (128-bit) ─── 한 번에 한 명령

PC 도입 후 (HBM2):

Channel 0
├── PC0 (64-bit) ─── 독립 명령 A
└── PC1 (64-bit) ─── 독립 명령 B ← 동시 수행

bank conflict 회피·effective bandwidth 향상에 큰 영향을 줬습니다.

#HBM2E (2020) — 중간 단계

HBM2의 클럭만 끌어올린 마이너 버전입니다.

HBM2E (2020):

항목	값
per-pin	3.6 Gbps (Samsung Flashbolt 3.2 Gbps)
stack BW	461 GB/s
max stack	8-Hi
max capacity	16 GB / stack (16 Gb DRAM)
변화	신호 변화 거의 없음, DRAM 밀도만 2배

대표 카드 — NVIDIA A100 40GB (5 stack × 8 GB, 1.6 TB/s), A100 80GB (5 stack × 16 GB, 2.0 TB/s), AMD MI100 (4 stack × 8 GB, 1.2 TB/s).

A100이 HBM2E의 대표 시스템입니다. 5 stack 구성으로 80 GB / 2.0 TB/s를 만들어 2020~2022년 AI training의 표준이 됐습니다.

per-pin이 2.4 → 3.6 Gbps로 50% 증가했지만 전체 구조는 HBM2와 같습니다. DRAM 밀도만 8 Gb → 16 Gb die로 두 배 늘었습니다.

#HBM3 (2022) — 세대 변곡

JEDEC가 큰 폭의 사양 변경을 한 세대입니다.

HBM3 (2022):

항목	값
per-pin	6.4 Gbps (clock 3.2 GHz)
stack BW	819 GB/s
max stack	12-Hi (이전 8-Hi)
max capacity	24 GB / stack (16 Gb DRAM × 12)
channel	16 × 64-bit (8 × 128-bit에서 변경)
pseudo channel	32 × 32-bit
VDD	1.1 V (이전 1.2 V)
ECC	on-die ECC 표준
RAS	refresh management 강화
새 명령	RFM, ASR

대표 카드 — NVIDIA H100 (5 stack × 16 GB = 80 GB, 3.35 TB/s), AMD MI300X (8 stack × 24 GB = 192 GB, 5.3 TB/s).

변화가 많습니다. 하나씩 봅니다.

채널 수 두 배. 8 × 128-bit에서 16 × 64-bit로 갈라 bank-level parallelism을 더 끌어올렸습니다. PC까지 합치면 32개 독립 명령 스트림이 동시에 돌아갈 수 있습니다.

on-die ECC 표준화. HBM3부터는 SECDED 1-bit 보정이 DRAM die 안에 내장됩니다. data path는 추가 redundancy 비트가 내부적으로 흐릅니다. CPU의 DDR5 on-die ECC와 비슷한 흐름입니다.

RFM (Refresh Management). Row Hammer 공격 대응 명령입니다. 컨트롤러가 특정 row에 대한 access 빈도를 base die에 알리고, base die가 인접 row를 조기 refresh합니다.

ASR (Adaptive Self-Refresh). 온도에 따라 refresh 주기를 동적으로 조정합니다. 저온일 때 refresh 줄여 power 절감, 고온일 때 refresh 늘려 데이터 보호.

#HBM3E (2024) — 현세대

NVIDIA Blackwell B100/B200/B300의 주력 메모리입니다.

HBM3E (2024) — per-pin 차이 (벤더마다):

벤더	per-pin	stack BW (× 1024-bit)	비고
SK Hynix	9.2 Gbps	1.18 TB/s	NVIDIA H200 1st-source
Samsung	9.6 Gbps	1.23 TB/s	qualification 진행
Micron	9.8 Gbps	1.25 TB/s	B200용

max capacity — 36 GB / stack (24 Gb DRAM × 12 = 36 GB).

대표 카드 — NVIDIA H200 (6 stack × 24 GB = 144 GB, 4.8 TB/s), B100 (8 stack × 24 GB = 192 GB), B200 (8 stack × 24 GB = 192 GB, 8 TB/s), AMD MI325X (8 stack × 32 GB = 256 GB).

핵심은 DRAM die 자체가 24 Gb로 2배 커진 것입니다. 12-Hi stacking과 결합해 36 GB stack이 가능해졌습니다. cell density 향상이 공정 미세화로 들어가서 DRAM die 자체가 같은 크기를 유지합니다.

벤더별 pin rate 차이도 주목할 만합니다. SK Hynix가 양산 안정성, Micron이 속도, Samsung이 capacity에서 강점이라는 평가입니다.

#HBM4 (2025+) — 광폭 인터페이스로

HBM4는 흐름을 바꿉니다. pin rate를 더 끌어올리지 않고, *bus width를 2배(2048-bit)*로 늘립니다.

HBM4 (JESD270-4 — 2025년 4월 확정):

항목	값
per-pin	6.4~8.0 Gbps (HBM3와 비슷)
bus	2048-bit (1024-bit에서 2배)
stack BW	1.6~2.0 TB/s
max stack	16-Hi (옵션)
max capacity	48~64 GB / stack
VDD	1.0 V
bonding	hybrid bonding (옵션, no microbump)
base die	custom logic 옵션 (HBM4P)

채택 예정 칩 — NVIDIA Rubin (R100, 2026), AMD MI400 (2026), 차세대 TPU.

왜 광폭으로 갔는가? 9.8 Gbps에서 더 올리려면 PAM4 같은 signaling이 필요한데, HBM의 strict timing budget에서 PAM4는 BER 부담이 큽니다. bus width를 늘리는 게 안전하다는 결론입니다.

HBM3E → HBM4 transition:

방식	결정	이유
1. per-pin 14~16 Gbps + PAM	포기	PAM4 SerDes로 power·area 폭증, DRAM die의 IO 회로가 GDDR6X 수준으로 복잡, 발열·yield 모두 악화
2. bus 2048-bit + per-pin 그대로	채택	microbump pitch 55 → 30 μm 축소, hybrid bonding으로 9 μm까지 가능(HBM4P), 면적·전력 부담 분산

1
hybrid bonding은 *솔더 없이 구리끼리 접합*하는 기술입니다. *microbump pitch*가 *9 μm*로 줄어 *같은 면적에 2048 신호*가 들어갑니다. Samsung·SK Hynix·TSMC가 모두 *2025년 양산*을 목표로 합니다.
2

3
## RAS — 신뢰성 기능
4

5
세대마다 *Reliability·Availability·Serviceability* 기능이 강화됐습니다.
6

7
| 세대 | RAS 기능 |
8
|------|---------|
9
| HBM2 | 기본 메모리, 옵션 SECDED ECC |
10
| HBM2E | on-die ECC 옵션 추가 |
11
| HBM3 | on-die ECC 표준, RFM(Row Hammer 방어), PPR(Post-Package Repair), boundary scan, temperature compensated refresh |
12
| HBM3E | 위 기능 + DBI(Data Bus Inversion) 강화, per-channel error reporting |
13
| HBM4 | 위 기능 + on-die ECC 더 강력 (SECDED → DECTED?), Cyclic Redundancy Check 표준화 |
14

15
AI training cluster에서 *수만 개의 stack*이 *24시간 가동*되면 *soft error*가 *시간당 수회* 발생합니다. *PPR과 ECC* 없이는 *training이 며칠 만에 실패*합니다. 그래서 HBM3부터 *RAS가 사실상 필수 옵션*이 됐습니다.
16

17
## bandwidth 그래프
18

19
세대별 *stack 1개*의 *bandwidth* 진화입니다.
20

21
![세대별 stack 1개의 bandwidth 진화](/images/blog/hardware/hbm/diagrams/ch03-stack-bw.svg)
22

23
GPU/NPU 카드 한 장의 총 BW(stack 5~8개)는 다음과 같습니다.
24

25
| 카드 | stack 수 | per-stack | 효율 | 총 BW |
26
|------|---------|-----------|------|--------|
27
| V100 | 4 | 307 GB/s | 73% | 900 GB/s |
28
| A100 | 5 | 461 GB/s | 87% | 2.0 TB/s |
29
| H100 | 5 | 819 GB/s | 82% | 3.35 TB/s |
30
| H200 | 6 | 1.2 TB/s | 67% | 4.8 TB/s |
31
| B200 | 8 | 1.0 TB/s | 100% | 8 TB/s |
32

33
*8년 만에 6.25배*가 늘었습니다. 같은 기간 *GPU compute*는 *25배*(FP16 기준)가 늘었습니다. *compute가 더 빠르게 늘어* *memory가 병목*이 되는 흐름이 확실합니다. Ch 5에서 이 *memory wall*을 자세히 봅니다.
34

35
## 자주 하는 실수
36

37
### "HBM3E와 HBM3가 *같은 슬롯*에 호환된다"
38

39
JEDEC 핀 정의는 *세대마다 다릅니다*. HBM3와 HBM3E는 *대부분 호환*이지만 일부 신호 정의가 변경됐습니다. 더 큰 문제는 *interposer 라우팅*이 *세대 specific*이라 *동일 GPU die*가 *HBM2E와 HBM3를 함께 쓰지 못합니다*. NVIDIA H100과 H200 die가 *다른 이유*입니다.
40

41
### per-pin rate를 *channel rate*와 혼동
42

43
HBM3 *per-pin*은 6.4 Gbps입니다. 그런데 *DDR이라서 effective rate는 12.8 Gbps* 같은 식의 *오해*가 있습니다. JEDEC HBM3 사양에서 *6.4 Gbps*는 *이미 DDR을 포함한 effective rate*입니다. clock 자체는 *3.2 GHz*입니다.
44

45
### "Samsung·SK·Micron이 *같은 9.6 Gbps*다"
46

47
벤더마다 *몇 Gbps grade*가 다릅니다. NVIDIA가 *qualification*하는 part number도 다릅니다. *H200 launch 시점*에서 SK Hynix가 *9.2 Gbps grade*로 *first-source* 위치를 잡았고, *Samsung은 9.6 Gbps grade가 늦게 통과*되어 *전세대 H100용 8.0 Gbps*로 먼저 시장에 들어갔습니다. *데이터시트의 'grade'*를 보지 않고 *세대 이름만으로 같다고 가정*하면 BOM에 문제가 생깁니다.
48

49
### HBM4를 *HBM3E의 단순한 클럭 업그레이드*로 가정
50

51
HBM4는 *bus width 자체가 2배*입니다. *interposer 라우팅*과 *base die layout*이 *완전히 새로* 설계됩니다. 기존 HBM3E 설계 자산을 *그대로 reuse*할 수 없습니다. *HBM4 GPU/NPU die*는 *재설계*가 필수입니다.
52

53
## 정리
54

55
- HBM은 *2015년 1세대* 이후 *9년 만에 stack BW가 10배*로 늘었습니다.
56
- 세대 간 *변곡점*은 HBM2(PC 도입), HBM3(channel 16개·1.1 V·on-die ECC), HBM4(2048-bit bus)입니다.
57
- *per-pin rate*는 *NRZ를 유지*하면서 *2.4 → 9.8 Gbps*까지 올라갔습니다. signaling 변화 없이 *clock으로 짜냈습니다*.
58
- *DRAM die 밀도*도 *8 → 16 → 24 Gb*로 늘어 *stack capacity*를 *36 GB*까지 끌어올렸습니다.
59
- HBM3에서 *RAS 기능*이 *대거 표준화*됐습니다. on-die ECC, RFM, PPR이 모두 들어갔습니다.
60
- HBM4는 *signaling 한계*를 *bus width 확장(2048-bit)*과 *hybrid bonding*으로 우회합니다.
61
- 벤더별 *pin rate grade*가 다르므로 *세대 이름만으로 호환을 가정*하면 안 됩니다.
62
- 다음 장에서 *반대편의 GDDR*을 봅니다. *32 Gbps per-pin*이 *어떻게 가능한지*가 핵심입니다.
63

64
## 다음 편
65

66
[Ch 4: GDDR6·GDDR6X·GDDR7](/blog/embedded/hardware/hbm/chapter04-gddr)에서는 *PAM4·PAM3* 같은 *멀티 레벨 signaling*이 *어떻게 pin rate를 32 Gbps까지* 끌어올렸는지 봅니다. *PCB 라우팅*과 *signal integrity* 부담도 같이 다룹니다.
67

68
## 관련 항목
69

70
- [Ch 1: 고대역 메모리 개요](/blog/embedded/hardware/hbm/chapter01-overview)
71
- [Ch 2: HBM 스택 구조와 TSV](/blog/embedded/hardware/hbm/chapter02-hbm-stack)
72
- [Ch 4: GDDR6·GDDR6X·GDDR7](/blog/embedded/hardware/hbm/chapter04-gddr)
73
- [Ch 5: 대역폭 계산과 병목 분석](/blog/embedded/hardware/hbm/chapter05-bandwidth-bottleneck)
74
- UCIe Ch 5: 버전 비교 — 표준 세대 진화 패턴

HBM2·HBM2E·HBM3·HBM3E 세대 비교 — JEDEC 표준 진화 흐름

#한 줄 요약

#한눈에 보는 표

#HBM (2015) — 시작

#HBM2 (2018) — 본격화

#HBM2E (2020) — 중간 단계

#HBM3 (2022) — 세대 변곡

#HBM3E (2024) — 현세대

#HBM4 (2025+) — 광폭 인터페이스로

HBM·GDDR 심화 · 3 of 12

관련 글

CXL.mem 분석 — HBM·GDDR·DDR 다음의 메모리 계층

NPU·GPU에서의 HBM 활용 — Weight·Activation·KV Cache 배치 분석

HBM 메모리 컨트롤러 분석 — Bank·Row·Column·Address Mapping·Scheduling

이 글을 참조하는 글 (4)