HBM·GDDR 심화 · 6/12

HBM 열 설계와 전력 관리 — Stack 열 부하·Refresh Cost·냉각 솔루션

2026년 5월 16일 · Hawk · 9분 읽기

#한 줄 요약

“HBM stack 한 개에서 7~12 W가 작은 면적에서 발열합니다.” — 12-Hi stack은 11×11 mm에 12 W를 쏟아내 열 밀도가 GPU die 수준입니다. 공기 냉각은 곧 한계에 닿아 direct-to-die liquid cooling이 데이터센터 표준이 됐습니다. Temperature-compensated refresh와 power state 전환도 대역폭 손실의 trade-off에서 결정됩니다.

Ch 5에서 bandwidth가 어디서 깎이는지를 봤습니다. 이번 장에서는 그 bandwidth를 유지하는 데 드는 전력과 그 전력이 만드는 열을 봅니다. HBM은 빠른 대신 뜨겁습니다. AI 데이터센터의 cooling 비용이 지난 5년간 두 배가 된 이유입니다.

#HBM stack의 전력 분해

HBM3 stack 1개의 전력 분해를 봅니다.

1
HBM3 stack power breakdown (full load, 819 GB/s)
2

3
총 전력: 약 12 W
4

5
├── PHY (IO drive)        : 5.5 W  (47%)
6
│   ├── data lane × 1024  : 4.0 W
7
│   ├── clock distribution: 1.0 W
8
│   └── command/address   : 0.5 W
9
│
10
├── DRAM core              : 3.5 W  (30%)
11
│   ├── sense amp          : 1.5 W
12
│   ├── row decoder/RAS    : 1.0 W
13
│   └── column path        : 1.0 W
14
│
15
├── Refresh                : 2.0 W  (17%)
16
│   ├── auto refresh       : 1.4 W
17
│   └── ASR adjustment     : 0.6 W
18
│
19
└── Base die logic         : 1.0 W  (8%)
20
    ├── ECC engine         : 0.4 W
21
    ├── controller         : 0.4 W
22
    └── BIST/PMU           : 0.2 W

PHY가 거의 절반입니다. 1024-bit의 모든 lane이 동시에 switching하면 상당한 전력이 소모됩니다. 그래서 HBM3는 *DBI(Data Bus Inversion)*로 switching 빈도를 낮추는 기능을 표준으로 제공합니다.

1
DBI 동작
2

3
원본 데이터: 1010_0101_1111_0001  (4번 switching)
4
DBI 적용  : 0101_1010_0000_1110 + DBI bit 1 (3번 switching)
5

6
수신단: DBI bit = 1이면 반전해서 복원
7
효과: 1bit invertion으로 평균 switching 30~40% 감소
8
     → IO power 약 25% 절감

#stack의 열 밀도

12 W를 11×11 mm 면적에서 발산하면 열 밀도는 다음과 같습니다.

HBM3 12-Hi stack heat density — 면적 121 mm² (11 × 11), 전력 12 W → 9.9 W/cm²

비교 대상	열 밀도
일반 CPU die	5 – 15 W/cm²
GPU die (H100) — 3D 적층 X	50 – 80 W/cm²
LED chip	20 – 50 W/cm²
HBM3 stack (top surface 기준)	~10 W/cm²

surface 기준 열 밀도는 GPU보다 낮습니다. 그러나 문제는 3D 적층 구조입니다. 맨 위 die에서 발생한 열이 11장의 die를 통과해 base die까지 빠져나가야 합니다.

3D stack 열 흐름 — cold plate에서 흡수, base die가 가장 뜨거움

문제는 위에서 아래로의 열 흐름입니다.

TIM resistance × 12층이 누적됩니다.
base die가 가장 뜨겁습니다 (PHY 발열 + 모든 die의 열이 모임).
윗단 DRAM은 그나마 cold plate로 직접 발산됩니다.

base die의 정션 온도가 85~95°C에 쉽게 도달합니다. thermal throttling이 바로 그 지점에서 발동합니다.

#Refresh — 발열과 신뢰성의 trade-off

DRAM 데이터는 capacitor에 전하 형태로 저장됩니다. 시간이 지나면 leakage로 사라집니다. 주기적인 refresh가 데이터를 다시 채워 보존합니다.

1
Refresh 주기
2

3
JEDEC HBM3 표준:
4
  tREFI (refresh interval) = 3.9 μs
5
  tRFC (refresh duration) = 350 ns
6

7
64 ms 안에 모든 row 한 번씩:
8
  64 ms / 3.9 μs = 16384 refresh per 64 ms
9

10
문제: 온도가 올라가면 leakage 가속
11
  85°C 미만: 64 ms 충분
12
  85~95°C : 32 ms (2배 자주)
13
  95°C 이상: 16 ms (4배 자주)

고온에서 refresh가 늘어나면 발열이 또 늘어납니다. positive feedback loop가 형성되어 thermal runaway로 이어질 수 있습니다. 그래서 *ASR(Adaptive Self-Refresh)*가 세 단계 자동 전환을 합니다.

ASR (Adaptive Self-Refresh) 전환

Zone	온도	refresh interval
Cold	< 45 °C	× 2 (절약)
Normal	45 – 85 °C	× 1 (표준)
Hot	85 – 95 °C	× 1/2 (강화)
Extreme	> 95 °C	× 1/4 (긴급)

base die에 thermal sensor 8개 zone
온도에 따라 self-refresh mode 자동 전환
host controller는 MRS register로 hint만 제공

ASR이 활성이면 cold일 때 bandwidth가 1~2% 추가 확보되고, hot일 때 3~5% 손실이 발생합니다. 온도 관리가 결국 bandwidth 관리입니다.

#Temperature-Compensated Refresh

ASR의 진화형으로 TC Refresh가 있습니다. die별·zone별로 개별 refresh rate를 적용합니다.

1
TC Refresh
2

3
stack 안 die별 sensor:
4
  die 1 (base 근처) : 92°C → refresh × 2
5
  die 6 (중간)       : 78°C → refresh × 1
6
  die 12 (top)       : 70°C → refresh × 1
7

8
기존 방식: 가장 뜨거운 die에 맞춰 전체 refresh
9
TC 방식 : die별로 다르게 → 평균 refresh 감소 → 평균 power 감소
10

11
효과: 전체 stack power 약 0.5~1 W 절약

HBM3E부터 TC Refresh가 표준 옵션이 됐습니다. NVIDIA H100·H200의 base die controller가 이 기능을 활용합니다.

#Power state

HBM은 몇 가지 power state를 가집니다.

1
HBM power states
2

3
  PD-Exit (active)
4
  ├── Read/Write active
5
  └── ~10~12 W per stack
6

7
  Power-Down
8
  ├── DRAM core clock gated, IO 유지
9
  └── ~5 W per stack
10
  └── tXP (exit latency): ~10 ns
11

12
  Self-Refresh
13
  ├── DRAM 자체 refresh, controller idle 가능
14
  └── ~2.5 W per stack
15
  └── tXSR (exit latency): ~200 ns
16

17
  Deep Sleep (HBM3+ optional)
18
  ├── PLL off, IO termination off
19
  └── ~0.5 W per stack
20
  └── tXDS (exit latency): ~10 μs

AI inference workload는 대부분 active state에 있어 power state 전환 효과가 작습니다. 그러나 training cluster에서 evaluation phase나 checkpoint save 동안 self-refresh로 진입하면 수십 W 절감이 cluster 전체로 수 kW가 됩니다.

#Cooling 솔루션

HBM이 interposer 위에 GPU/NPU 옆에 붙어 있으면 cooling이 둘을 동시에 처리해야 합니다.

H100 / H200 / B200 cooling stack — cold plate에서 BGA까지 단면

공기 냉각의 한계는 500~600 W입니다. NVIDIA H100 SXM이 700 W인데 공기로 어렵습니다. 그래서 서버 차원에서 liquid cooling이 기본이 됐습니다.

GPU	TDP	rack 전력	Cooling
A100	400 W	3.2 kW (8 GPU)	공기 (40 mm front-to-back fan), rack 12 kW
H100	700 W	5.6 kW (8 GPU)	공기 한계점, SXM5 module은 liquid 옵션
B200	1000 W	8 kW (8 GPU)	Liquid 필수, direct-to-die cold plate
GB200 NVL72	1200 W	86 kW per rack (72 GPU)	100 % liquid cooled, facility-level 인프라 필요

NVIDIA의 Blackwell B200은 공기 냉각 옵션이 없습니다. GB200 NVL72 rack은 처음부터 liquid-only로 설계됐습니다.

#Direct-to-die cooling

가장 공격적인 cooling은 direct-to-die입니다. lid를 제거하고 cold plate가 die에 직접 접촉합니다.

Direct-to-die cooling (lapping) — thermal stack 비교

구조	경로	저항
기존 (lid 포함)	cold plate → TIM2 → lid → TIM1 → die	0.04 K/W
Direct-to-die	cold plate → TIM (single, liquid metal) → die	0.015 K/W

효과: junction temperature 약 10 – 15 °C 낮음 → same TDP에서 더 안정적, 또는 같은 온도에서 더 높은 TDP 허용.

대신 기계적 변형 위험이 커서 cold plate flatness가 < 25 μm로 요구됩니다. 대형 데이터센터만 감당할 수 있는 정밀도입니다.

#Thermal throttling

HBM이 임계 온도에 도달하면 thermal throttling이 bandwidth를 자발적으로 깎습니다.

Thermal throttling stages (HBM3 T_j_max = 95 °C)

Stage	온도	동작	BW 영향
1	85 °C	ASR 모드 hot 전환, refresh × 2	−3 %
2	90 °C	Clock frequency −10 %	−10 %
3	95 °C	Clock frequency −25 %	−25 %
4	100 °C	Emergency shutdown, host에 thermal interrupt	— (정지)

H100에서 thermal throttle 발생은 NVIDIA-SMI로 확인됩니다.

1
# throttle 상태 확인
2
nvidia-smi --query-gpu=temperature.memory,clocks_throttle_reasons.active --format=csv
3

4
# 출력 예
5
temperature.memory, clocks_throttle_reasons.active
6
85, 0x0000000000000004    # MEM_THERMAL_SLOWDOWN bit

데이터센터에서는 throttle event가 workload SLA를 깨므로 cooling 인프라를 over-provision합니다.

#Power delivery — VRM 부담

HBM3는 VDD 1.1 V × 12 W = 11 A를 stack 하나에 공급해야 합니다. 5 stack 시스템이면 55 A입니다. 50 mV ripple 이하로 깨끗하게 줘야 합니다.

1
HBM3 power rail
2

3
VDD     1.1 V  ← DRAM core + base die
4
VDDQ    0.4 V  ← IO drivers (1024-bit lanes)
5
VPP     1.8 V  ← word line boost (charge pump 내부)
6

7
per-stack current:
8
  VDD : 11 A (12 W / 1.1 V)
9
  VDDQ: 12 A (4.8 W / 0.4 V)
10
  → 총 24 A 공급 필요
11

12
GPU 패키지 power:
13
  GPU die: 500 W / 0.75 V ≈ 670 A (!)
14
  HBM 5 stack: 60 W / 다중 rail

GPU die에 670 A가 공급되어야 합니다. VRM이 substrate 위에 동심원 배치되고, substrate가 12층 buildup으로 전류 분배를 합니다. Power Integrity가 signal integrity 못지않게 어렵습니다.

#Korea 인더스트리의 cooling 동향

한국 데이터센터의 AI cluster cooling 현황은 다음과 같습니다.

국내 AI 데이터센터 cooling (2025)

사업자	인프라	PUE
KT 클라우드 천안	H100 SXM5 (공기 냉각 700 W)	1.4
네이버 각 춘천	자체 LCM(Liquid Cold-plate Module) 개발	1.2
삼성SDS / SK텔레콤	B200 도입 예정, full liquid cooling 준비, 시설 retrofit 진행	—

Korean fab에서 HBM을 생산하면서도, 국내 AI 인프라는 cooling 측면에서 추격 중입니다.

#자주 하는 실수

#”HBM이 GPU보다 덜 뜨겁다”

surface 열 밀도는 GPU가 5~8배 큽니다. 그러나 HBM은 3D 적층이라 내부 die는 열 빠져나갈 길이 적어 junction temperature는 비슷하게 뜨겁습니다. base die 92°C가 흔합니다.

#refresh 증가가 문제 아님이라는 가정

refresh × 2가 되면 *bandwidth 5%*가 깎이고 power 0.5 W가 늘어납니다. 이게 추가 발열이 되어 또 refresh가 늘어나는 feedback loop입니다. 온도 zone을 Normal 안에 유지하는 게 대역폭 유지에 결정적입니다.

#”공기 냉각으로 충분하다”

H100까지는 가능했습니다. B200·B300은 공기 옵션이 없습니다. NVIDIA가 공기 SKU를 안 만듭니다. cooling 인프라 없이 B200을 도입하는 것은 불가능입니다.

#Cold plate flatness를 과소평가

direct-to-die에서 25 μm flatness가 안 나오면 die corner에 stress가 누적되어 cracking이나 delamination이 발생합니다. 카드 수명이 수개월로 극단적으로 짧아질 수 있습니다.

#RTX 카드의 GDDR cooling과 HBM cooling을 동일시

GDDR은 카드 PCB에 분산되어 카드 fan으로 전체 면적 냉각이 됩니다. HBM은 GPU die 옆 좁은 면적에 집중되어 cold plate에 의존합니다. cooling 전략 자체가 다릅니다.

#정리

HBM3 stack 1개는 7~12 W를 11×11 mm 면적에서 발산합니다.
*PHY가 전력의 47%*를 차지하고, DBI로 switching을 줄여 IO power를 절감합니다.
3D 적층 구조라 base die의 junction temperature가 *90°C+*에 쉽게 도달합니다.
Refresh는 온도에 따라 자동 조정됩니다. ASR과 TC Refresh가 bandwidth와 power의 trade-off를 동적으로 잡습니다.
Power state는 active·power-down·self-refresh·deep-sleep의 네 단계입니다.
공기 냉각의 한계는 500~600 W입니다. H100 이후는 liquid cooling이 기본입니다.
direct-to-die cooling은 lid를 제거해 thermal resistance를 60% 낮춥니다. 대형 데이터센터의 표준입니다.
Thermal throttling은 85°C부터 단계적으로 발동되어 bandwidth가 3~25% 깎입니다.
다음 장에서 메모리 컨트롤러가 HBM을 어떻게 보는지 들어갑니다.

#다음 편

Ch 7: 메모리 컨트롤러 인터페이스에서는 bank·row·column 계층, command scheduling, address mapping XOR hash, per-bank refresh 같은 컨트롤러 설계의 핵심을 다룹니다.

#관련 항목

Ch 2: HBM 스택 구조와 TSV
Ch 5: 대역폭 계산과 병목 분석
Ch 7: 메모리 컨트롤러 인터페이스
UCIe Ch 8: runtime recalibration — 온도 변화 대응