Modern Embedded Recipes · 94/152

NUMA Memory Topology — numactl·numa_alloc·HBM 적용

2026년 4월 17일 · Hawk · 6분 읽기

#한 줄 요약

“NUMA = node별 local memory.” Local access는 빠르고, remote access는 1.5~2배 느립니다. Topology를 모른 채 thread를 띄우면 성능이 묵묵히 절반으로 떨어집니다.

#어떤 상황에서 쓰나

2-socket 서버에서 thread를 무작정 띄우면 OS scheduler가 socket 사이를 옮겨 다닙니다. 그동안 thread의 hot data는 한 node에만 있어서 다른 socket으로 옮겨갈 때마다 cross-node access가 발생합니다. 같은 코드가 socket 하나에 pin했을 때보다 30~50% 느려지는 경우가 흔합니다.

자동차 central computing의 Cortex-A78AE 8 core SoC도 cluster 두 개로 나뉘고 각 cluster가 다른 L2와 DRAM channel을 갖습니다. 클래식한 NUMA는 아니지만 cluster 간 latency 차이는 같은 형태로 나타납니다. ASIL workload는 cluster 0, infotainment는 cluster 1 같은 분리가 시작점입니다.

#핵심 개념

2-socket 서버의 토폴로지를 그림으로 보면 local과 remote의 차이가 분명합니다.

2-socket NUMA topology — local 80 ns, remote 130 ns

1
Server 2-socket
2
  Socket 0 (CPU 0~15) ── DDR 64 GB (node 0)
3
       │
4
       UPI / QPI / CCIX
5
       │
6
  Socket 1 (CPU 16~31) ── DDR 64 GB (node 1)
7

8
Latency           local 80 ns,  remote 130 ns (1.6x)
9
Bandwidth         local 100 GB/s, remote 60 GB/s

Topology의 핵심 두 가지는 CPU affinity와 memory binding입니다. 둘 중 하나만 묶고 다른 하나가 움직이면 cross-node access가 발생합니다. 둘 다 같은 node에 묶는 것이 NUMA tuning의 기본입니다.

#코드 / 실제 사용 예

#`numactl --hardware`로 토폴로지 확인

1
numactl --hardware
2

3
# available: 2 nodes (0-1)
4
# node 0 cpus: 0 1 2 3 4 5 6 7
5
# node 0 size: 65536 MB
6
# node 1 cpus: 8 9 10 11 12 13 14 15
7
# node 1 size: 65536 MB
8
# node distances:
9
# node   0   1
10
#   0:  10  21
11
#   1:  21  10

distance 값이 10이면 local, 20 이상이면 remote입니다. 이 표가 NUMA tuning의 출발점입니다.

#실행 시 binding

1
numactl --cpunodebind=0 --membind=0 ./prog        # 한 node로 묶음
2
numactl --interleave=all ./prog                   # 큰 workload 분산
3
numactl --localalloc ./prog                       # 자기 node에 자동 alloc

--interleave는 throughput 위주, --membind는 latency 위주의 선택입니다.

#`libnuma`로 명시 alloc

1
#include <numa.h>
2

3
if (numa_available() < 0) return -1;
4

5
int node = numa_node_of_cpu(sched_getcpu());
6
void *p = numa_alloc_onnode(SIZE, node);
7
numa_free(p, SIZE);

또는 thread의 default policy를 바꿔 둡니다.

1
struct bitmask *mask = numa_allocate_nodemask();
2
numa_bitmask_setbit(mask, 0);
3
numa_set_membind(mask);
4
/* 이후 모든 alloc이 node 0에 */

#Per-thread CPU + NUMA pin

1
#include <pthread.h>
2
#include <numa.h>
3

4
void *thread_func(void *p) {
5
    cpu_set_t set;
6
    CPU_ZERO(&set);
7
    CPU_SET(target_cpu, &set);
8
    pthread_setaffinity_np(pthread_self(), sizeof(set), &set);
9

10
    int node = numa_node_of_cpu(target_cpu);
11
    struct bitmask *mask = numa_allocate_nodemask();
12
    numa_bitmask_setbit(mask, node);
13
    numa_set_membind(mask);
14

15
    work();
16
    return NULL;
17
}

CPU affinity와 memory binding을 같은 node로 묶는 패턴입니다. DPDK, 5G UPF, Cassandra가 표준으로 씁니다.

#NUMA-aware allocator

1
LD_PRELOAD=libjemalloc.so ./prog

jemalloc은 per-thread arena를 가지며 NUMA를 인지합니다. tcmalloc도 비슷한 구조입니다. 일반 glibc malloc보다 cross-node fragmentation이 훨씬 적습니다.

#HBM과 CXL을 NUMA node로

1
HBM3 stacked memory (GPU·AI accelerator 옆)
2
  819 GB/s per stack, 5~10 ns latency
3

4
CXL 2.0/3.0
5
  PCIe 기반 coherent memory pool
6
  multi-host 공유 가능

1
/* HBM에 hot, DRAM에 cold */
2
numa_alloc_onnode(hot_data_size, HBM_NODE);
3
numa_alloc_onnode(cold_data_size, DRAM_NODE);

numactl --hardware가 보여주는 node는 HBM과 CXL을 논리적으로 같은 NUMA로 표시합니다. Tiered memory의 표준 인터페이스입니다.

#자동차 ECU의 mini-NUMA

1
Cortex-A78AE x 8 (2 cluster)
2
  cluster 0  4 core + L2 + DRAM channel 0
3
  cluster 1  4 core + L2 + DRAM channel 1
4

5
ASIL workload   cluster 0에 pin
6
Infotainment    cluster 1에 pin

NVIDIA Drive Thor와 Mobileye EyeQ7 같은 자율주행 SoC도 같은 구조입니다. Cluster 간 cache coherence는 보장되지만 latency는 분명히 다릅니다.

#Kernel automatic balancing

1
echo 1 > /proc/sys/kernel/numa_balancing

Kernel이 page와 thread를 자동 migration합니다. 단점은 예측 불가능하다는 것입니다. RT나 latency-critical workload에서는 자동 balancing을 끄고 명시 pinning을 선호합니다.

#측정 — `numastat`

1
numastat -p $(pidof prog)
2

3
#                       Node 0       Node 1
4
# Heap                  12000        200       ← 거의 node 0
5
# Stack                 0.5          0
6
# Private               3000         100

특정 process가 두 node 메모리를 얼마나 쓰는지 한눈에 보입니다.

#`perf`로 cross-node access 측정

1
perf stat -e mem_load_l3_miss_retired.local_dram,\
2
mem_load_l3_miss_retired.remote_dram ./prog

remote_dram 비율이 높으면 cross-node access가 일어나고 있다는 신호입니다. 보통 5% 이하를 목표로 합니다.

#Multi-socket RT tuning

1
isolcpus=8-15 nohz_full=8-15 rcu_nocbs=8-15
2
taskset -c 8-15 numactl --membind=1 ./rt_app

CPU isolation으로 8~15번 코어를 OS scheduler에서 제외하고 그 위에서 RT app을 실행합니다. 산업·자동차·금융 latency-critical 시스템의 표준 패턴입니다.

#측정 / 성능 비교

2-socket Xeon에서 4 GB array sum 결과입니다.

실행	시간	remote DRAM 비율
default (anywhere)	2.30 s	38%
numactl —cpunodebind=0 —membind=0	1.45 s	2%
numactl —interleave=all	1.70 s	50%

Latency 위주면 single-node pin이 가장 빠르고, throughput 위주면 interleave가 안정적입니다.

Cortex-A78AE 8 core SoC에서 image processing pipeline입니다.

1
cluster scheduler 자유                jitter 6.2 ms
2
cluster 0에 pin                       jitter 1.8 ms

Mini-NUMA에서도 pin이 jitter를 크게 줄입니다.

#자주 보는 함정

첫 touch 정책 무시

1
malloc(huge_data);   /* 어느 node? — 첫 page fault가 일어난 CPU의 node */

Main thread가 alloc하고 worker thread가 다른 node에서 쓰면 remote access가 됩니다. numa_alloc_onnode로 명시하거나 worker가 첫 touch하도록 구조를 바꿉니다.

Thread migration 빈번

1
/* 일부 thread만 sched_setaffinity */

CPU affinity가 없는 thread는 OS가 자유롭게 옮깁니다. Hot path thread는 모두 pin하는 편이 안전합니다.

서버에서 NUMA를 무시

큰 array 하나를 main thread가 잡고 모든 worker가 공유하면 remote access가 사방에서 발생합니다. numa_interleave_memory로 분산하거나 per-thread alloc으로 쪼갭니다.

임베디드에서 “NUMA 없음” 가정

Cortex-A dual-cluster SoC도 inter-cluster latency가 있습니다. Mini-NUMA로 다루는 편이 jitter 분석에 유리합니다.

Automatic balancing에만 의존

Kernel auto balancing은 background로 동작하지만 RT spec을 보장하지 못합니다. Hard real-time workload는 명시 pin이 정답입니다.

#정리

NUMA는 node별 local memory를 가지며 remote access는 1.5~2배 느립니다.
CPU affinity와 memory binding을 같은 node로 묶는 것이 기본 패턴입니다.
numactl은 운영용, libnuma는 프로그램용 API입니다.
HBM과 CXL도 NUMA node로 노출되어 tiered memory 인터페이스가 됩니다.
자동차·자율주행 SoC는 cluster 단위 mini-NUMA로 다룹니다.
numastat과 perf remote_dram 이벤트로 cross-node access를 측정합니다.
RT/latency-critical workload는 auto balancing을 끄고 명시 pin을 씁니다.

다음 편은 SIMD intrinsics입니다.

NUMA Memory Topology — numactl·numa_alloc·HBM 적용

#한 줄 요약

#어떤 상황에서 쓰나

#핵심 개념

#코드 / 실제 사용 예

#`numactl --hardware`로 토폴로지 확인

#실행 시 binding

#`libnuma`로 명시 alloc

#Per-thread CPU + NUMA pin

#NUMA-aware allocator

#HBM과 CXL을 NUMA node로

#자동차 ECU의 mini-NUMA

#Kernel automatic balancing

#측정 — `numastat`

#`perf`로 cross-node access 측정

#Multi-socket RT tuning

#측정 / 성능 비교

#자주 보는 함정

#정리

#관련 항목

Modern Embedded Recipes · 95 of 152

관련 글

Linux CXL 드라이버 분석 — cxl_pci·cxl_core·region·DAX

QEMU CXL Type 3 디바이스 에뮬레이션 — 노트북에서 CXL 개발 환경 구축

PCIe → CXL 진화 — 같은 PHY 위 cache-coherent 프로토콜 추가

이 글을 참조하는 글 (2)

#한 줄 요약

#어떤 상황에서 쓰나

#핵심 개념

#코드 / 실제 사용 예

#numactl --hardware로 토폴로지 확인

#실행 시 binding

#libnuma로 명시 alloc

#Per-thread CPU + NUMA pin

#NUMA-aware allocator

#HBM과 CXL을 NUMA node로

#자동차 ECU의 mini-NUMA

#Kernel automatic balancing

#측정 — numastat

#perf로 cross-node access 측정

#Multi-socket RT tuning

#측정 / 성능 비교

#자주 보는 함정

#정리

#관련 항목

Modern Embedded Recipes · 95 of 152

관련 글

Linux CXL 드라이버 분석 — cxl_pci·cxl_core·region·DAX

QEMU CXL Type 3 디바이스 에뮬레이션 — 노트북에서 CXL 개발 환경 구축

PCIe → CXL 진화 — 같은 PHY 위 cache-coherent 프로토콜 추가

이 글을 참조하는 글 (2)

#`numactl --hardware`로 토폴로지 확인

#`libnuma`로 명시 alloc

#측정 — `numastat`

#`perf`로 cross-node access 측정