본문으로 건너뛰기
HBM·GDDR 심화 · 6/12

HBM 열 설계와 전력 관리 — Stack 열 부하·Refresh Cost·냉각 솔루션

· Hawk · 9분 읽기

#한 줄 요약

“HBM stack 한 개에서 7~12 W작은 면적에서 발열합니다.” — 12-Hi stack은 11×11 mm12 W를 쏟아내 열 밀도가 GPU die 수준입니다. 공기 냉각은 곧 한계에 닿아 direct-to-die liquid cooling데이터센터 표준이 됐습니다. Temperature-compensated refreshpower state 전환대역폭 손실의 trade-off에서 결정됩니다.

Ch 5에서 bandwidth가 어디서 깎이는지를 봤습니다. 이번 장에서는 그 bandwidth를 유지하는 데 드는 전력그 전력이 만드는 열을 봅니다. HBM은 빠른 대신 뜨겁습니다. AI 데이터센터의 cooling 비용지난 5년간 두 배가 된 이유입니다.

#HBM stack의 전력 분해

HBM3 stack 1개의 전력 분해를 봅니다.

HBM3 stack power breakdown (full load, 819 GB/s)
총 전력: 약 12 W
├── PHY (IO drive) : 5.5 W (47%)
│ ├── data lane × 1024 : 4.0 W
│ ├── clock distribution: 1.0 W
│ └── command/address : 0.5 W
├── DRAM core : 3.5 W (30%)
│ ├── sense amp : 1.5 W
│ ├── row decoder/RAS : 1.0 W
│ └── column path : 1.0 W
├── Refresh : 2.0 W (17%)
│ ├── auto refresh : 1.4 W
│ └── ASR adjustment : 0.6 W
└── Base die logic : 1.0 W (8%)
├── ECC engine : 0.4 W
├── controller : 0.4 W
└── BIST/PMU : 0.2 W

PHY가 거의 절반입니다. 1024-bit모든 lane동시에 switching하면 상당한 전력이 소모됩니다. 그래서 HBM3는 *DBI(Data Bus Inversion)*로 switching 빈도를 낮추는 기능을 표준으로 제공합니다.

DBI 동작
원본 데이터: 1010_0101_1111_0001 (4번 switching)
DBI 적용 : 0101_1010_0000_1110 + DBI bit 1 (3번 switching)
수신단: DBI bit = 1이면 반전해서 복원
효과: 1bit invertion으로 평균 switching 30~40% 감소
→ IO power 약 25% 절감

#stack의 열 밀도

12 W를 11×11 mm 면적에서 발산하면 열 밀도는 다음과 같습니다.

HBM3 12-Hi stack heat density — 면적 121 mm² (11 × 11), 전력 12 W → 9.9 W/cm²

비교 대상열 밀도
일반 CPU die5 – 15 W/cm²
GPU die (H100) — 3D 적층 X50 – 80 W/cm²
LED chip20 – 50 W/cm²
HBM3 stack (top surface 기준)~10 W/cm²

surface 기준 열 밀도는 GPU보다 낮습니다. 그러나 문제는 3D 적층 구조입니다. 맨 위 die에서 발생한 열이 11장의 die를 통과해 base die까지 빠져나가야 합니다.

3D stack 열 흐름 — cold plate에서 흡수, base die가 가장 뜨거움

문제는 위에서 아래로의 열 흐름입니다.

  • TIM resistance × 12층이 누적됩니다.
  • base die가 가장 뜨겁습니다 (PHY 발열 + 모든 die의 열이 모임).
  • 윗단 DRAM은 그나마 cold plate로 직접 발산됩니다.

base die의 정션 온도85~95°C에 쉽게 도달합니다. thermal throttling바로 그 지점에서 발동합니다.

#Refresh — 발열과 신뢰성의 trade-off

DRAM 데이터는 capacitor전하 형태로 저장됩니다. 시간이 지나면 leakage로 사라집니다. 주기적인 refresh데이터를 다시 채워 보존합니다.

Refresh 주기
JEDEC HBM3 표준:
tREFI (refresh interval) = 3.9 μs
tRFC (refresh duration) = 350 ns
64 ms 안에 모든 row 한 번씩:
64 ms / 3.9 μs = 16384 refresh per 64 ms
문제: 온도가 올라가면 leakage 가속
85°C 미만: 64 ms 충분
85~95°C : 32 ms (2배 자주)
95°C 이상: 16 ms (4배 자주)

고온에서 refresh가 늘어나면 발열이 또 늘어납니다. positive feedback loop가 형성되어 thermal runaway로 이어질 수 있습니다. 그래서 *ASR(Adaptive Self-Refresh)*가 세 단계 자동 전환을 합니다.

ASR (Adaptive Self-Refresh) 전환

Zone온도refresh interval
Cold< 45 °C× 2 (절약)
Normal45 – 85 °C× 1 (표준)
Hot85 – 95 °C× 1/2 (강화)
Extreme> 95 °C× 1/4 (긴급)
  • base die에 thermal sensor 8개 zone
  • 온도에 따라 self-refresh mode 자동 전환
  • host controller는 MRS register로 hint만 제공

ASR이 활성이면 cold일 때 bandwidth가 1~2% 추가 확보되고, hot일 때 3~5% 손실이 발생합니다. 온도 관리가 결국 bandwidth 관리입니다.

#Temperature-Compensated Refresh

ASR의 진화형으로 TC Refresh가 있습니다. die별·zone별개별 refresh rate를 적용합니다.

TC Refresh
stack 안 die별 sensor:
die 1 (base 근처) : 92°C → refresh × 2
die 6 (중간) : 78°C → refresh × 1
die 12 (top) : 70°C → refresh × 1
기존 방식: 가장 뜨거운 die에 맞춰 전체 refresh
TC 방식 : die별로 다르게 → 평균 refresh 감소 → 평균 power 감소
효과: 전체 stack power 약 0.5~1 W 절약

HBM3E부터 TC Refresh표준 옵션이 됐습니다. NVIDIA H100·H200의 base die controller가 이 기능을 활용합니다.

#Power state

HBM은 몇 가지 power state를 가집니다.

HBM power states
PD-Exit (active)
├── Read/Write active
└── ~10~12 W per stack
Power-Down
├── DRAM core clock gated, IO 유지
└── ~5 W per stack
└── tXP (exit latency): ~10 ns
Self-Refresh
├── DRAM 자체 refresh, controller idle 가능
└── ~2.5 W per stack
└── tXSR (exit latency): ~200 ns
Deep Sleep (HBM3+ optional)
├── PLL off, IO termination off
└── ~0.5 W per stack
└── tXDS (exit latency): ~10 μs

AI inference workload는 대부분 active state에 있어 power state 전환 효과가 작습니다. 그러나 training cluster에서 evaluation phasecheckpoint save 동안 self-refresh로 진입하면 수십 W 절감cluster 전체수 kW가 됩니다.

#Cooling 솔루션

HBM이 interposer 위GPU/NPU 옆에 붙어 있으면 cooling둘을 동시에 처리해야 합니다.

H100 / H200 / B200 cooling stack — cold plate에서 BGA까지 단면

공기 냉각의 한계500~600 W입니다. NVIDIA H100 SXM이 700 W인데 공기로 어렵습니다. 그래서 서버 차원에서 liquid cooling기본이 됐습니다.

GPUTDPrack 전력Cooling
A100400 W3.2 kW (8 GPU)공기 (40 mm front-to-back fan), rack 12 kW
H100700 W5.6 kW (8 GPU)공기 한계점, SXM5 module은 liquid 옵션
B2001000 W8 kW (8 GPU)Liquid 필수, direct-to-die cold plate
GB200 NVL721200 W86 kW per rack (72 GPU)100 % liquid cooled, facility-level 인프라 필요

NVIDIA의 Blackwell B200공기 냉각 옵션이 없습니다. GB200 NVL72 rack처음부터 liquid-only로 설계됐습니다.

#Direct-to-die cooling

가장 공격적인 cooling은 direct-to-die입니다. lid를 제거하고 cold plate가 die에 직접 접촉합니다.

Direct-to-die cooling (lapping) — thermal stack 비교

구조경로저항
기존 (lid 포함)cold plate → TIM2 → lid → TIM1 → die0.04 K/W
Direct-to-diecold plate → TIM (single, liquid metal) → die0.015 K/W

효과: junction temperature 약 10 – 15 °C 낮음 → same TDP에서 더 안정적, 또는 같은 온도에서 더 높은 TDP 허용.

대신 기계적 변형 위험이 커서 cold plate flatness< 25 μm로 요구됩니다. 대형 데이터센터감당할 수 있는 정밀도입니다.

#Thermal throttling

HBM이 임계 온도에 도달하면 thermal throttlingbandwidth를 자발적으로 깎습니다.

Thermal throttling stages (HBM3 T_j_max = 95 °C)

Stage온도동작BW 영향
185 °CASR 모드 hot 전환, refresh × 2−3 %
290 °CClock frequency −10 %−10 %
395 °CClock frequency −25 %−25 %
4100 °CEmergency shutdown, host에 thermal interrupt— (정지)

H100에서 thermal throttle 발생NVIDIA-SMI로 확인됩니다.

Terminal window
# throttle 상태 확인
nvidia-smi --query-gpu=temperature.memory,clocks_throttle_reasons.active --format=csv
# 출력 예
temperature.memory, clocks_throttle_reasons.active
85, 0x0000000000000004 # MEM_THERMAL_SLOWDOWN bit

데이터센터에서는 throttle eventworkload SLA를 깨므로 cooling 인프라를 over-provision합니다.

#Power delivery — VRM 부담

HBM3는 VDD 1.1 V × 12 W = 11 Astack 하나에 공급해야 합니다. 5 stack 시스템이면 55 A입니다. 50 mV ripple 이하로 깨끗하게 줘야 합니다.

HBM3 power rail
VDD 1.1 V ← DRAM core + base die
VDDQ 0.4 V ← IO drivers (1024-bit lanes)
VPP 1.8 V ← word line boost (charge pump 내부)
per-stack current:
VDD : 11 A (12 W / 1.1 V)
VDDQ: 12 A (4.8 W / 0.4 V)
→ 총 24 A 공급 필요
GPU 패키지 power:
GPU die: 500 W / 0.75 V ≈ 670 A (!)
HBM 5 stack: 60 W / 다중 rail

GPU die에 670 A가 공급되어야 합니다. VRM이 substrate 위에 동심원 배치되고, substrate가 12층 buildup으로 전류 분배를 합니다. Power Integritysignal integrity 못지않게 어렵습니다.

#Korea 인더스트리의 cooling 동향

한국 데이터센터의 AI cluster cooling 현황은 다음과 같습니다.

국내 AI 데이터센터 cooling (2025)

사업자인프라PUE
KT 클라우드 천안H100 SXM5 (공기 냉각 700 W)1.4
네이버 각 춘천자체 LCM(Liquid Cold-plate Module) 개발1.2
삼성SDS / SK텔레콤B200 도입 예정, full liquid cooling 준비, 시설 retrofit 진행

Korean fab에서 HBM을 생산하면서도, 국내 AI 인프라는 cooling 측면에서 추격 중입니다.

#자주 하는 실수

#”HBM이 GPU보다 뜨겁다”

surface 열 밀도는 GPU가 5~8배 큽니다. 그러나 HBM은 3D 적층이라 내부 die열 빠져나갈 길이 적어 junction temperature비슷하게 뜨겁습니다. base die 92°C가 흔합니다.

#refresh 증가가 문제 아님이라는 가정

refresh × 2가 되면 *bandwidth 5%*가 깎이고 power 0.5 W가 늘어납니다. 이게 추가 발열이 되어 또 refresh가 늘어나는 feedback loop입니다. 온도 zoneNormal 안에 유지하는 게 대역폭 유지에 결정적입니다.

#”공기 냉각으로 충분하다”

H100까지는 가능했습니다. B200·B300은 공기 옵션이 없습니다. NVIDIA가 공기 SKU를 안 만듭니다. cooling 인프라 없이 B200을 도입하는 것은 불가능입니다.

#Cold plate flatness를 과소평가

direct-to-die에서 25 μm flatness가 안 나오면 die corner에 stress가 누적되어 cracking이나 delamination이 발생합니다. 카드 수명수개월극단적으로 짧아질 수 있습니다.

#RTX 카드의 GDDR coolingHBM cooling을 동일시

GDDR은 카드 PCB분산되어 카드 fan으로 전체 면적 냉각이 됩니다. HBM은 GPU die 옆 좁은 면적집중되어 cold plate에 의존합니다. cooling 전략 자체가 다릅니다.

#정리

  • HBM3 stack 1개는 7~12 W11×11 mm 면적에서 발산합니다.
  • *PHY가 전력의 47%*를 차지하고, DBIswitching을 줄여 IO power를 절감합니다.
  • 3D 적층 구조base die의 junction temperature가 *90°C+*에 쉽게 도달합니다.
  • Refresh는 온도에 따라 자동 조정됩니다. ASR과 TC Refresh가 bandwidth와 power의 trade-off를 동적으로 잡습니다.
  • Power state는 active·power-down·self-refresh·deep-sleep의 네 단계입니다.
  • 공기 냉각의 한계500~600 W입니다. H100 이후는 liquid cooling기본입니다.
  • direct-to-die coolinglid를 제거thermal resistance를 60% 낮춥니다. 대형 데이터센터의 표준입니다.
  • Thermal throttling85°C부터 단계적으로 발동되어 bandwidth가 3~25% 깎입니다.
  • 다음 장에서 메모리 컨트롤러가 HBM을 어떻게 보는지 들어갑니다.

#다음 편

Ch 7: 메모리 컨트롤러 인터페이스에서는 bank·row·column 계층, command scheduling, address mapping XOR hash, per-bank refresh 같은 컨트롤러 설계의 핵심을 다룹니다.

#관련 항목