HBM 열 설계와 전력 관리 — Stack 열 부하·Refresh Cost·냉각 솔루션
#한 줄 요약
“HBM stack 한 개에서 7~12 W가 작은 면적에서 발열합니다.” — 12-Hi stack은 11×11 mm에 12 W를 쏟아내 열 밀도가 GPU die 수준입니다. 공기 냉각은 곧 한계에 닿아 direct-to-die liquid cooling이 데이터센터 표준이 됐습니다. Temperature-compensated refresh와 power state 전환도 대역폭 손실의 trade-off에서 결정됩니다.
Ch 5에서 bandwidth가 어디서 깎이는지를 봤습니다. 이번 장에서는 그 bandwidth를 유지하는 데 드는 전력과 그 전력이 만드는 열을 봅니다. HBM은 빠른 대신 뜨겁습니다. AI 데이터센터의 cooling 비용이 지난 5년간 두 배가 된 이유입니다.
#HBM stack의 전력 분해
HBM3 stack 1개의 전력 분해를 봅니다.
HBM3 stack power breakdown (full load, 819 GB/s)
총 전력: 약 12 W
├── PHY (IO drive) : 5.5 W (47%)│ ├── data lane × 1024 : 4.0 W│ ├── clock distribution: 1.0 W│ └── command/address : 0.5 W│├── DRAM core : 3.5 W (30%)│ ├── sense amp : 1.5 W│ ├── row decoder/RAS : 1.0 W│ └── column path : 1.0 W│├── Refresh : 2.0 W (17%)│ ├── auto refresh : 1.4 W│ └── ASR adjustment : 0.6 W│└── Base die logic : 1.0 W (8%) ├── ECC engine : 0.4 W ├── controller : 0.4 W └── BIST/PMU : 0.2 WPHY가 거의 절반입니다. 1024-bit의 모든 lane이 동시에 switching하면 상당한 전력이 소모됩니다. 그래서 HBM3는 *DBI(Data Bus Inversion)*로 switching 빈도를 낮추는 기능을 표준으로 제공합니다.
DBI 동작
원본 데이터: 1010_0101_1111_0001 (4번 switching)DBI 적용 : 0101_1010_0000_1110 + DBI bit 1 (3번 switching)
수신단: DBI bit = 1이면 반전해서 복원효과: 1bit invertion으로 평균 switching 30~40% 감소 → IO power 약 25% 절감#stack의 열 밀도
12 W를 11×11 mm 면적에서 발산하면 열 밀도는 다음과 같습니다.
HBM3 12-Hi stack heat density — 면적 121 mm² (11 × 11), 전력 12 W → 9.9 W/cm²
| 비교 대상 | 열 밀도 |
|---|---|
| 일반 CPU die | 5 – 15 W/cm² |
| GPU die (H100) — 3D 적층 X | 50 – 80 W/cm² |
| LED chip | 20 – 50 W/cm² |
| HBM3 stack (top surface 기준) | ~10 W/cm² |
surface 기준 열 밀도는 GPU보다 낮습니다. 그러나 문제는 3D 적층 구조입니다. 맨 위 die에서 발생한 열이 11장의 die를 통과해 base die까지 빠져나가야 합니다.
문제는 위에서 아래로의 열 흐름입니다.
- TIM resistance × 12층이 누적됩니다.
- base die가 가장 뜨겁습니다 (PHY 발열 + 모든 die의 열이 모임).
- 윗단 DRAM은 그나마 cold plate로 직접 발산됩니다.
base die의 정션 온도가 85~95°C에 쉽게 도달합니다. thermal throttling이 바로 그 지점에서 발동합니다.
#Refresh — 발열과 신뢰성의 trade-off
DRAM 데이터는 capacitor에 전하 형태로 저장됩니다. 시간이 지나면 leakage로 사라집니다. 주기적인 refresh가 데이터를 다시 채워 보존합니다.
Refresh 주기
JEDEC HBM3 표준: tREFI (refresh interval) = 3.9 μs tRFC (refresh duration) = 350 ns
64 ms 안에 모든 row 한 번씩: 64 ms / 3.9 μs = 16384 refresh per 64 ms
문제: 온도가 올라가면 leakage 가속 85°C 미만: 64 ms 충분 85~95°C : 32 ms (2배 자주) 95°C 이상: 16 ms (4배 자주)고온에서 refresh가 늘어나면 발열이 또 늘어납니다. positive feedback loop가 형성되어 thermal runaway로 이어질 수 있습니다. 그래서 *ASR(Adaptive Self-Refresh)*가 세 단계 자동 전환을 합니다.
ASR (Adaptive Self-Refresh) 전환
| Zone | 온도 | refresh interval |
|---|---|---|
| Cold | < 45 °C | × 2 (절약) |
| Normal | 45 – 85 °C | × 1 (표준) |
| Hot | 85 – 95 °C | × 1/2 (강화) |
| Extreme | > 95 °C | × 1/4 (긴급) |
- base die에 thermal sensor 8개 zone
- 온도에 따라 self-refresh mode 자동 전환
- host controller는 MRS register로 hint만 제공
ASR이 활성이면 cold일 때 bandwidth가 1~2% 추가 확보되고, hot일 때 3~5% 손실이 발생합니다. 온도 관리가 결국 bandwidth 관리입니다.
#Temperature-Compensated Refresh
ASR의 진화형으로 TC Refresh가 있습니다. die별·zone별로 개별 refresh rate를 적용합니다.
TC Refresh
stack 안 die별 sensor: die 1 (base 근처) : 92°C → refresh × 2 die 6 (중간) : 78°C → refresh × 1 die 12 (top) : 70°C → refresh × 1
기존 방식: 가장 뜨거운 die에 맞춰 전체 refreshTC 방식 : die별로 다르게 → 평균 refresh 감소 → 평균 power 감소
효과: 전체 stack power 약 0.5~1 W 절약HBM3E부터 TC Refresh가 표준 옵션이 됐습니다. NVIDIA H100·H200의 base die controller가 이 기능을 활용합니다.
#Power state
HBM은 몇 가지 power state를 가집니다.
HBM power states
PD-Exit (active) ├── Read/Write active └── ~10~12 W per stack
Power-Down ├── DRAM core clock gated, IO 유지 └── ~5 W per stack └── tXP (exit latency): ~10 ns
Self-Refresh ├── DRAM 자체 refresh, controller idle 가능 └── ~2.5 W per stack └── tXSR (exit latency): ~200 ns
Deep Sleep (HBM3+ optional) ├── PLL off, IO termination off └── ~0.5 W per stack └── tXDS (exit latency): ~10 μsAI inference workload는 대부분 active state에 있어 power state 전환 효과가 작습니다. 그러나 training cluster에서 evaluation phase나 checkpoint save 동안 self-refresh로 진입하면 수십 W 절감이 cluster 전체로 수 kW가 됩니다.
#Cooling 솔루션
HBM이 interposer 위에 GPU/NPU 옆에 붙어 있으면 cooling이 둘을 동시에 처리해야 합니다.
공기 냉각의 한계는 500~600 W입니다. NVIDIA H100 SXM이 700 W인데 공기로 어렵습니다. 그래서 서버 차원에서 liquid cooling이 기본이 됐습니다.
| GPU | TDP | rack 전력 | Cooling |
|---|---|---|---|
| A100 | 400 W | 3.2 kW (8 GPU) | 공기 (40 mm front-to-back fan), rack 12 kW |
| H100 | 700 W | 5.6 kW (8 GPU) | 공기 한계점, SXM5 module은 liquid 옵션 |
| B200 | 1000 W | 8 kW (8 GPU) | Liquid 필수, direct-to-die cold plate |
| GB200 NVL72 | 1200 W | 86 kW per rack (72 GPU) | 100 % liquid cooled, facility-level 인프라 필요 |
NVIDIA의 Blackwell B200은 공기 냉각 옵션이 없습니다. GB200 NVL72 rack은 처음부터 liquid-only로 설계됐습니다.
#Direct-to-die cooling
가장 공격적인 cooling은 direct-to-die입니다. lid를 제거하고 cold plate가 die에 직접 접촉합니다.
Direct-to-die cooling (lapping) — thermal stack 비교
| 구조 | 경로 | 저항 |
|---|---|---|
| 기존 (lid 포함) | cold plate → TIM2 → lid → TIM1 → die | 0.04 K/W |
| Direct-to-die | cold plate → TIM (single, liquid metal) → die | 0.015 K/W |
효과: junction temperature 약 10 – 15 °C 낮음 → same TDP에서 더 안정적, 또는 같은 온도에서 더 높은 TDP 허용.
대신 기계적 변형 위험이 커서 cold plate flatness가 < 25 μm로 요구됩니다. 대형 데이터센터만 감당할 수 있는 정밀도입니다.
#Thermal throttling
HBM이 임계 온도에 도달하면 thermal throttling이 bandwidth를 자발적으로 깎습니다.
Thermal throttling stages (HBM3 T_j_max = 95 °C)
| Stage | 온도 | 동작 | BW 영향 |
|---|---|---|---|
| 1 | 85 °C | ASR 모드 hot 전환, refresh × 2 | −3 % |
| 2 | 90 °C | Clock frequency −10 % | −10 % |
| 3 | 95 °C | Clock frequency −25 % | −25 % |
| 4 | 100 °C | Emergency shutdown, host에 thermal interrupt | — (정지) |
H100에서 thermal throttle 발생은 NVIDIA-SMI로 확인됩니다.
# throttle 상태 확인nvidia-smi --query-gpu=temperature.memory,clocks_throttle_reasons.active --format=csv
# 출력 예temperature.memory, clocks_throttle_reasons.active85, 0x0000000000000004 # MEM_THERMAL_SLOWDOWN bit데이터센터에서는 throttle event가 workload SLA를 깨므로 cooling 인프라를 over-provision합니다.
#Power delivery — VRM 부담
HBM3는 VDD 1.1 V × 12 W = 11 A를 stack 하나에 공급해야 합니다. 5 stack 시스템이면 55 A입니다. 50 mV ripple 이하로 깨끗하게 줘야 합니다.
HBM3 power rail
VDD 1.1 V ← DRAM core + base dieVDDQ 0.4 V ← IO drivers (1024-bit lanes)VPP 1.8 V ← word line boost (charge pump 내부)
per-stack current: VDD : 11 A (12 W / 1.1 V) VDDQ: 12 A (4.8 W / 0.4 V) → 총 24 A 공급 필요
GPU 패키지 power: GPU die: 500 W / 0.75 V ≈ 670 A (!) HBM 5 stack: 60 W / 다중 railGPU die에 670 A가 공급되어야 합니다. VRM이 substrate 위에 동심원 배치되고, substrate가 12층 buildup으로 전류 분배를 합니다. Power Integrity가 signal integrity 못지않게 어렵습니다.
#Korea 인더스트리의 cooling 동향
한국 데이터센터의 AI cluster cooling 현황은 다음과 같습니다.
국내 AI 데이터센터 cooling (2025)
| 사업자 | 인프라 | PUE |
|---|---|---|
| KT 클라우드 천안 | H100 SXM5 (공기 냉각 700 W) | 1.4 |
| 네이버 각 춘천 | 자체 LCM(Liquid Cold-plate Module) 개발 | 1.2 |
| 삼성SDS / SK텔레콤 | B200 도입 예정, full liquid cooling 준비, 시설 retrofit 진행 | — |
Korean fab에서 HBM을 생산하면서도, 국내 AI 인프라는 cooling 측면에서 추격 중입니다.
#자주 하는 실수
#”HBM이 GPU보다 덜 뜨겁다”
surface 열 밀도는 GPU가 5~8배 큽니다. 그러나 HBM은 3D 적층이라 내부 die는 열 빠져나갈 길이 적어 junction temperature는 비슷하게 뜨겁습니다. base die 92°C가 흔합니다.
#refresh 증가가 문제 아님이라는 가정
refresh × 2가 되면 *bandwidth 5%*가 깎이고 power 0.5 W가 늘어납니다. 이게 추가 발열이 되어 또 refresh가 늘어나는 feedback loop입니다. 온도 zone을 Normal 안에 유지하는 게 대역폭 유지에 결정적입니다.
#”공기 냉각으로 충분하다”
H100까지는 가능했습니다. B200·B300은 공기 옵션이 없습니다. NVIDIA가 공기 SKU를 안 만듭니다. cooling 인프라 없이 B200을 도입하는 것은 불가능입니다.
#Cold plate flatness를 과소평가
direct-to-die에서 25 μm flatness가 안 나오면 die corner에 stress가 누적되어 cracking이나 delamination이 발생합니다. 카드 수명이 수개월로 극단적으로 짧아질 수 있습니다.
#RTX 카드의 GDDR cooling과 HBM cooling을 동일시
GDDR은 카드 PCB에 분산되어 카드 fan으로 전체 면적 냉각이 됩니다. HBM은 GPU die 옆 좁은 면적에 집중되어 cold plate에 의존합니다. cooling 전략 자체가 다릅니다.
#정리
- HBM3 stack 1개는 7~12 W를 11×11 mm 면적에서 발산합니다.
- *PHY가 전력의 47%*를 차지하고, DBI로 switching을 줄여 IO power를 절감합니다.
- 3D 적층 구조라 base die의 junction temperature가 *90°C+*에 쉽게 도달합니다.
- Refresh는 온도에 따라 자동 조정됩니다. ASR과 TC Refresh가 bandwidth와 power의 trade-off를 동적으로 잡습니다.
- Power state는 active·power-down·self-refresh·deep-sleep의 네 단계입니다.
- 공기 냉각의 한계는 500~600 W입니다. H100 이후는 liquid cooling이 기본입니다.
- direct-to-die cooling은 lid를 제거해 thermal resistance를 60% 낮춥니다. 대형 데이터센터의 표준입니다.
- Thermal throttling은 85°C부터 단계적으로 발동되어 bandwidth가 3~25% 깎입니다.
- 다음 장에서 메모리 컨트롤러가 HBM을 어떻게 보는지 들어갑니다.
#다음 편
Ch 7: 메모리 컨트롤러 인터페이스에서는 bank·row·column 계층, command scheduling, address mapping XOR hash, per-bank refresh 같은 컨트롤러 설계의 핵심을 다룹니다.
#관련 항목
- Ch 2: HBM 스택 구조와 TSV
- Ch 5: 대역폭 계산과 병목 분석
- Ch 7: 메모리 컨트롤러 인터페이스
- UCIe Ch 8: runtime recalibration — 온도 변화 대응
HBM·GDDR 심화 · 6 of 12
- 1HBM과 GDDR 분기점 분석 — Bandwidth·Capacity·Cost 트레이드오프
- 2HBM 3D 스택 구조 분해 — TSV·Microbump·Base Die의 역할
- 3HBM2·HBM2E·HBM3·HBM3E 세대 비교 — JEDEC 표준 진화 흐름
- 4GDDR6·GDDR6X·GDDR7 분석 — PAM 신호로 32 Gbps 도달한 경로
- 5메모리 대역폭 병목 분석 — Theoretical vs Achievable·Roofline·Memory Wall
- 6HBM 열 설계와 전력 관리 — Stack 열 부하·Refresh Cost·냉각 솔루션
- 7HBM 메모리 컨트롤러 분석 — Bank·Row·Column·Address Mapping·Scheduling
- 8NPU·GPU에서의 HBM 활용 — Weight·Activation·KV Cache 배치 분석
- 9CXL.mem 분석 — HBM·GDDR·DDR 다음의 메모리 계층
- 10CXL.mem 프로토콜 분해 — M2S·S2M 메시지와 HDM Decoder
- 11CXL Type 1·2·3 디바이스 분류 — Cache·Accelerator·Memory
- 12메모리 풀링과 데이터센터 토폴로지 — CXL Switch와 Fabric
관련 글
CXL.mem 분석 — HBM·GDDR·DDR 다음의 메모리 계층
CXL.mem이 메모리 계층에 끼어드는 자리 — on-package HBM과 DRAM DIMM 사이의 새 tier.
NPU·GPU에서의 HBM 활용 — Weight·Activation·KV Cache 배치 분석
Weight·activation·KV cache — HBM 자리잡기와 시리즈 마무리.
HBM 메모리 컨트롤러 분석 — Bank·Row·Column·Address Mapping·Scheduling
Bank·row·column·command — 컨트롤러가 보는 HBM과 scheduling·address mapping.