HBM 3D 스택 구조 분해 — TSV·Microbump·Base Die의 역할
#한 줄 요약
“HBM은 DRAM die를 위로 쌓고, TSV로 수직으로 신호를 통과시킵니다.” — 한 stack은 1개의 base die 위에 4·8·12·16개의 DRAM die를 적층한 구조입니다. 모든 die가 *TSV(Through-Silicon Via)*로 수직 연결되고, base die가 PHY와 채널 라우팅을 담당합니다.
Ch 1에서 HBM이 왜 GDDR과 갈렸는지를 봤습니다. 핵심은 1024-bit 광폭 bus였습니다. 이번 장은 그 1024-bit가 어떻게 한 stack 안에 들어가는지입니다. 물리적으로 어떻게 적층되는지, 전기 신호가 위로 어떻게 통과하는지, 왜 yield가 이렇게 어려운지까지 봅니다.
#stack 단면
HBM3E 12-Hi stack 한 개를 옆에서 잘라 보면 다음과 같습니다.
전체 높이는 약 720 μm입니다. die마다 50~60 μm로 갈아낸(thinned) 두께입니다. 12장을 쌓아도 손가락 마디보다 얇습니다.
JEDEC 표준 max height는 720 μm (HBM3), *775 μm (HBM3E 12-Hi)*입니다. 세대별 실제 stack 높이는 다음과 같습니다.
| 세대 | stack height |
|---|---|
| HBM2 4-Hi | ~400 μm |
| HBM2E 8-Hi | ~720 μm |
| HBM3 12-Hi | ~720 μm (die 50 μm thinning) |
| HBM3E 12-Hi | ~775 μm |
GPU/NPU die의 thickness에 맞춰야 cooling solution이 동일한 cold plate에 닿습니다. 그래서 총 높이가 엄격한 제약입니다.
#base die의 역할
stack 맨 아래에 있는 base die는 DRAM이 아닙니다. 로직 공정으로 만든 전용 die입니다.
base die가 하는 일은 네 가지입니다.
- PHY — host 칩(GPU/NPU)과의 electrical interface. 1024-bit 데이터 신호와 command/address를 microbump로 받아 내부 신호로 변환합니다.
- Channel 라우팅 — 16개 channel을 어느 DRAM die에 매핑할지 결정합니다.
- 테스트·repair — DRAM die의 bad row/column을 redundancy로 우회합니다. KGSD(Known Good Stack Die) 테스트는 base die의 BIST로 수행합니다.
- Refresh·power management — refresh scheduling, self-refresh entry/exit를 base die가 결정합니다.
HBM4부터는 base die에 더 많은 로직을 넣는 방향으로 갑니다. near-memory compute나 ECC stronger 기능이 base die의 logic budget을 차지합니다.
#TSV — 수직으로 통하는 신호
DRAM die가 12장 쌓여 있는데, 신호는 맨 위 die도 맨 아래 base die까지 수직으로 와야 합니다. 이것을 가능하게 하는 게 *TSV(Through-Silicon Via)*입니다.
TSV는 실리콘 본체를 관통하는 구리 비아입니다. 제조 단계는 다음과 같습니다.
TSV 제조 단계 (via-middle 방식):
- CMOS 공정 일부 진행 (active layer 형성)
- Deep Si etch (수직 구멍 뚫기, ~50 μm)
- SiO₂ 절연막 증착
- Ta/TaN barrier + Cu seed 증착
- Cu electroplating (구멍 채우기)
- CMP로 표면 평탄화
- 남은 CMOS 공정 진행 (BEOL)
- wafer thinning (50 μm로 갈아내기)
- 뒷면에 microbump 형성
HBM3에서 TSV 개수는 stack당 약 1000~1500개입니다. HBM4는 2048-bit interface가 되면서 2000~3000개로 늘어납니다.
HBM3 기준 stack당 총 TSV ≈ 1280개의 분담은 다음과 같습니다.
| 용도 | TSV 개수 |
|---|---|
| data signal | 1024 |
| command / address | 80 |
| clock | 16 |
| power / ground | 100 (전류 capacity) |
| test / redundancy | 60 |
#microbump — die 간 연결
TSV가 die 내부의 수직 연결이라면, microbump는 die와 die 사이의 연결입니다.
micropump pitch는 HBM3 기준 55 μm입니다. 1280개 TSV를 모두 microbump로 연결하려면 stack 한 변이 55 μm × √1280 ≈ 1.97 mm가 필요합니다. 실제 HBM3 stack은 약 11 × 11 mm 정사각형이므로 충분한 면적이 나옵니다.
| 세대 | pitch | bump 직경 |
|---|---|---|
| HBM2 | 55 μm | 30 μm |
| HBM3 | 55 μm | 25 μm |
| HBM3E | 50 μm | 22 μm |
| HBM4 (hybrid bonding) | 9 μm | — (Cu-Cu direct) |
HBM4부터는 hybrid bonding으로 솔더 없이 구리끼리 직접 접합합니다. pitch가 한 자릿수 μm로 떨어져 2048-bit도 작은 면적에 들어갑니다.
#Channel과 Pseudo Channel
1024-bit bus는 내부적으로 16개 channel로 나뉩니다.
| 단위 | 폭 | 개수 | 용도 |
|---|---|---|---|
| Stack | 1024-bit | 1 | 전체 |
| Channel | 128-bit | 8 (HBM2) / 16 (HBM3) | 독립 동작 |
| Pseudo Channel | 64-bit | 16 (HBM2) / 32 (HBM3) | 명령 인터리브 |
Pseudo Channel은 같은 channel 안에서 반쪽씩 독립 명령을 발행할 수 있게 한 구조입니다. bank-level parallelism을 위층으로 한 단계 끌어올린 셈입니다. bank conflict가 났을 때 다른 PC가 대신 일을 합니다.
#DRAM die layout
DRAM die 한 장 안에는 여러 channel의 일부가 들어 있습니다.
TSV array가 die 중앙에 자리 잡고, 양쪽으로 DRAM array가 펼쳐집니다. TSV에서 가까운 채널이 latency가 가장 짧고, 멀어질수록 RC 지연이 늘어납니다. 그래서 PHY가 training으로 per-channel timing을 따로 잡습니다.
#yield — HBM의 큰 비용
HBM이 비싸지는 이유 한 가지는 yield입니다.
각 die yield 95%를 가정한 누적 효과는 다음과 같습니다 (stack yield = 0.95^N).
| stack | N (base+DRAM) | naive yield |
|---|---|---|
| 4-Hi | 5 | 77.4% |
| 8-Hi | 9 | 63.0% |
| 12-Hi | 13 | 51.3% |
| 16-Hi | 17 | 41.8% |
실제로는 KGSD test와 repair로 보정하지만, 한 die가 불량이면 stack 전체가 불량이 기본 위험입니다.
12-Hi에서 base + DRAM 13장이 모두 정상이어야 stack 1개가 나옵니다. 그래서 Known Good Die(KGD) test가 die마다 매우 엄격하게 들어갑니다.
HBM 제조 flow
1. DRAM wafer 제조 (Samsung/SK 하이닉스 fab)2. wafer-level test (probe card)3. KGD를 골라 thinning (50 μm)4. base die wafer 제조 (별도 로직 공정)5. base die KGD test6. die-to-die bonding (TSV+microbump)7. 한 층씩 stacking8. KGSD test (Known Good Stack Die)9. encapsulation (mold)10. 최종 test11. CoWoS·interposer 패키징 (TSMC)stack 단계 8번에서 불량이 나면 12장 die가 통째로 폐기됩니다. yield 1% 차이가 stack 가격 수십 달러 차이입니다.
#yield repair — redundancy의 역할
다행히 완전 폐기는 아닙니다. row/column redundancy가 die마다 있어 몇 비트의 불량은 base die가 remap합니다.
한 DRAM die에는 normal row N개와 redundant row 32개 정도가 함께 들어 있습니다. 불량 row가 나오면 redundant row와 swap하고, remap 정보를 base die의 e-fuse에 저장합니다. boot 시 row decoder가 자동으로 redundant로 redirect합니다.
PPR(Post-Package Repair)이라고 부르는 런타임 repair도 있습니다. 현장에서 ECC가 불량 row를 감지하면 redundant row로 영구 교체합니다. HBM3부터는 PPR이 표준입니다.
#자주 하는 실수
#”TSV가 그냥 작은 via다”
via와 치수가 다릅니다. 일반 BEOL via는 100 nm급, TSV는 5 μm급으로 50배 큽니다. 또 깊이가 50 μm에 달해 aspect ratio 10
을 etch와 fill해야 합니다. 별도 공정 단계가 필요합니다.#”더 많이 쌓으면 항상 좋다”
12-Hi → 16-Hi는 capacity 33% 증가지만 yield가 18% 떨어집니다. 게다가 발열·신호 무결성도 악화됩니다. HBM3E는 12-Hi가 sweet spot, HBM4에서 16-Hi가 본격화될 예정입니다.
#base die가 DRAM이라는 오해
base die는 로직 공정입니다. SK 하이닉스의 HBM3 base die는 12 nm급 fin-FET 로직, Samsung은 14 nm급입니다. DRAM 공정과는 전혀 다른 fab line에서 만들어집니다.
#TSV pitch와 microbump pitch를 동일하게 가정
TSV는 die 내부에서 10 μm pitch, microbump는 die 간에서 55 μm pitch입니다. die 내부에서 TSV가 fan-out되어 microbump에 닿는 구조입니다. base die의 redistribution이 그 매개입니다.
#”HBM stack을 socket에 꽂을 수 있다”
불가능합니다. HBM은 interposer에 영구 접합됩니다. 교체나 upgrade는 불가능하고, defective stack 하나가 GPU/NPU 전체를 폐기시킬 수도 있습니다. 그래서 KGSD가 비싸도 필수입니다.
#정리
- HBM stack은 1 base die + 4·8·12·16 DRAM die의 적층 구조입니다.
- 전체 stack 높이는 720~775 μm로 cooling cold plate에 맞춰진 엄격한 제약입니다.
- base die는 로직 공정으로 만든 PHY·controller·test·refresh의 집합입니다.
- TSV(Through-Silicon Via)는 5 μm 직경, 50 μm 깊이의 수직 구리 비아입니다. stack당 1280~3000개가 들어갑니다.
- microbump는 die 간 연결입니다. HBM3는 55 μm pitch, HBM4는 9 μm hybrid bonding입니다.
- 1024-bit bus는 16 channel × 2 pseudo channel로 나뉘어 명령 인터리브를 가능하게 합니다.
- yield는 die 수의 거듭제곱으로 떨어지므로 KGSD test와 redundancy repair가 필수입니다.
- HBM stack은 interposer에 영구 접합되어 교체가 불가능합니다.
#다음 편
Ch 3: HBM2/HBM2E/HBM3/HBM3E 스펙 비교에서는 세대별 발전을 bandwidth·capacity·feature 척도로 정리합니다. HBM4의 2048-bit 인터페이스가 왜 필요했는지도 함께 봅니다.
#관련 항목
- Ch 1: 고대역 메모리 개요
- Ch 3: HBM 세대 비교
- Ch 6: 열 설계와 전력 관리
- UCIe Ch 6: 2.5D 패키징 — interposer 공유
- UCIe Ch 7: 3D 패키징 — hybrid bonding 심화
- BoW Ch 6: 패키징 — bump pitch와 yield
HBM·GDDR 심화 · 2 of 12
- 1HBM과 GDDR 분기점 분석 — Bandwidth·Capacity·Cost 트레이드오프
- 2HBM 3D 스택 구조 분해 — TSV·Microbump·Base Die의 역할
- 3HBM2·HBM2E·HBM3·HBM3E 세대 비교 — JEDEC 표준 진화 흐름
- 4GDDR6·GDDR6X·GDDR7 분석 — PAM 신호로 32 Gbps 도달한 경로
- 5메모리 대역폭 병목 분석 — Theoretical vs Achievable·Roofline·Memory Wall
- 6HBM 열 설계와 전력 관리 — Stack 열 부하·Refresh Cost·냉각 솔루션
- 7HBM 메모리 컨트롤러 분석 — Bank·Row·Column·Address Mapping·Scheduling
- 8NPU·GPU에서의 HBM 활용 — Weight·Activation·KV Cache 배치 분석
- 9CXL.mem 분석 — HBM·GDDR·DDR 다음의 메모리 계층
- 10CXL.mem 프로토콜 분해 — M2S·S2M 메시지와 HDM Decoder
- 11CXL Type 1·2·3 디바이스 분류 — Cache·Accelerator·Memory
- 12메모리 풀링과 데이터센터 토폴로지 — CXL Switch와 Fabric
관련 글
CXL.mem 분석 — HBM·GDDR·DDR 다음의 메모리 계층
CXL.mem이 메모리 계층에 끼어드는 자리 — on-package HBM과 DRAM DIMM 사이의 새 tier.
NPU·GPU에서의 HBM 활용 — Weight·Activation·KV Cache 배치 분석
Weight·activation·KV cache — HBM 자리잡기와 시리즈 마무리.
HBM 메모리 컨트롤러 분석 — Bank·Row·Column·Address Mapping·Scheduling
Bank·row·column·command — 컨트롤러가 보는 HBM과 scheduling·address mapping.