Embedded Performance Engineering
실전 사례 — CXL.mem 추가로 LLM inference KV cache 처리량 회복
70B 모델 KV cache가 HBM 한계를 넘어 throughput이 무너졌을 때, CXL.mem 256 GB pool 추가로 회복한 실전 케이스.
· 7분 읽기
cxl llm-inference
10개의 포스트
70B 모델 KV cache가 HBM 한계를 넘어 throughput이 무너졌을 때, CXL.mem 256 GB pool 추가로 회복한 실전 케이스.
CXL.mem이 메모리 계층에 끼어드는 자리 — on-package HBM과 DRAM DIMM 사이의 새 tier.
Weight·activation·KV cache — HBM 자리잡기와 시리즈 마무리.
Bank·row·column·command — 컨트롤러가 보는 HBM과 scheduling·address mapping.
HBM stack의 열 부하·power state·refresh의 cost와 냉각 솔루션.
Theoretical vs achievable — 메모리 대역폭의 실제와 roofline·memory wall.
세대별 bandwidth·capacity·signaling — JEDEC 표준의 진화 흐름.
Base die + DRAM die stack — 3D 메모리의 구성요소와 TSV·microbump의 역할.
HBM과 GDDR의 분기점 — bandwidth·capacity·cost의 트레이드오프와 시장 분할.
NUMA node topology, numactl 운영, libnuma API, HBM/CXL tier, 자동차 ECU의 mini-NUMA까지 정리합니다.