Embedded Performance Engineering · 55/57

CXL 성능 프로파일링 도구 — cxl-cli·DAMON·perf-mem 활용

2026년 6월 16일 · Hawk · 5분 읽기

cxl cxl-cli damon perf-mem numastat profiling

#한 줄 요약

“CXL 성능 도구는 서로 다른 층을 본다.” — cxl-cli는 토폴로지와 디바이스 상태, DAMON은 page 단위 access 빈도, perf-mem은 CPU의 메모리 접근 분포, numastat은 NUMA 노드별 통계를 봅니다. 한 가지로 다 해결 안 되며 조합이 핵심입니다.

Ch 54에서 측정 결과를 봤습니다. 이 장은 그 측정에 쓴 도구들을 Part 5 (프로파일링 도구) 톤으로 정리합니다.

#어떤 문제를 푸는가

CXL 성능 분석은 기존 메모리 분석과 다른 층이 추가됩니다.

층	도구	본질
디바이스·토폴로지	cxl-cli	어떤 디바이스가 어디 붙어 있나, region/decoder 구성
Page 활동	DAMON·DAMOS	어느 페이지가 hot/cold, 자동 promotion/demotion
CPU access	perf mem·perf c2c	load/store 분포, cache miss source
NUMA 통계	numastat·numactl	노드별 메모리·트래픽
Kernel 트레이싱	bpftrace·ftrace	CXL 드라이버 내부 호출

각 도구가 서로 다른 질문에 답합니다. 한 가지로 다 보려고 하면 실패합니다.

#cxl-cli — 토폴로지와 region 관리

cxl-cli는 Linux 6.0+에서 CXL 서브시스템 표준 CLI입니다.

1
# 전체 토폴로지
2
$ cxl list -RT
3
[
4
  {
5
    "host":"acpi0017:00",
6
    "ports": [
7
      {
8
        "port":"port1",
9
        "host":"0000:00:01.0",
10
        "decoders": [...],
11
        "endpoints": [
12
          {
13
            "memdev":"mem0",
14
            "ram_size":274877906944,
15
            "host":"0000:5e:00.0"
16
          }
17
        ]
18
      }
19
    ]
20
  }
21
]
22

23
# Decoder 매핑 확인
24
$ cxl list -DT
25
[
26
  {
27
    "decoder":"decoder3.0",
28
    "resource":0x80000000,
29
    "size":0x80000000,
30
    "interleave_ways":2,
31
    "interleave_granularity":64
32
  }
33
]
34

35
# Region 생성
36
$ cxl create-region -d decoder0.0 -t ram -s 128G
37
{
38
  "region":"region0",
39
  "resource":0x80000000,
40
  "size":137438953472,
41
  "interleave_ways":2,
42
  "interleave_granularity":64,
43
  "decoder":"decoder0.0",
44
  "mappings": [
45
    {"position":0, "memdev":"mem0"},
46
    {"position":1, "memdev":"mem1"}
47
  ]
48
}
49

50
# DAX 또는 System RAM 모드 전환
51
$ daxctl reconfigure-device dax0.0 -m system-ram

핵심 명령은 list·create-region·set-partition·set-event-irq 5가지입니다.

#DAMON — Page 단위 access 추적

DAMON은 *kernel 5.15+*에서 page 활동을 적은 오버헤드로 측정합니다.

1
# 1. DAMON 활성화
2
$ echo on > /sys/kernel/mm/damon/admin/kdamonds/0/state
3

4
# 2. 결과 확인
5
$ damo report access
6
target_id  region(KB)  access(%)  node
7
0          0-32M       82.3       0
8
0          32M-128M    45.1       0
9
0          128M-1G     8.2        2  # CXL — cool
10
0          1G-256G     1.1        2  # CXL — cold
11

12
# 3. DAMOS scheme — 자동 promotion/demotion
13
$ cat /sys/kernel/mm/damon/admin/kdamonds/0/contexts/0/schemes/0/access_pattern/min_nr_accesses
14
1
15
$ cat /sys/kernel/mm/damon/admin/kdamonds/0/contexts/0/schemes/0/action
16
migrate_hot   # hot page를 빠른 tier로 이동

DAMON의 핵심 파라미터:

파라미터	의미	권장
sample_interval	한 region을 얼마나 자주 sample	5ms (default)
aggr_interval	aggregation 주기	100ms
min_nr_regions	최소 region 분할	10
max_nr_regions	최대 region 분할	1000

aggr_interval이 크면 DAMON 오버헤드가 작아지지만 반응이 느림. 작으면 정확도 높아지지만 오버헤드 증가. tradeoff입니다.

#perf-mem — CPU의 메모리 접근 분포

perf mem은 CPU PMU의 메모리 이벤트를 캡처합니다.

1
# Load latency 분포 측정
2
$ perf mem record -- ./workload
3
$ perf mem report
4

5
# Sample 출력
6
        Local Weight   Memory Access     Symbol             DSO
7
        ── 12.45%      cxl-mem (node 2) workload::process   workload
8
        ── 35.20%      L3 hit            workload::cache    workload
9
        ── 8.10%       L1 hit            workload::hot      workload
10

11
# CXL 노드 access만 필터
12
$ perf mem report --sort=mem,symbol | grep "node 2"
13

14
# Snoop 트래픽
15
$ perf c2c record -- ./workload
16
$ perf c2c report

Local Weight는 각 access의 latency 비중입니다. cxl-mem (node 2)가 큰 비중이면 CXL.mem이 hot path에 있는 신호.

#numastat — NUMA 노드별 통계

CXL은 별도 NUMA 노드로 등록되어 numastat이 자연스럽게 통합 분석을 제공합니다.

1
# 전체 노드 통계
2
$ numastat -m
3
                  Node 0     Node 1     Node 2 (CXL)
4
MemTotal      262144000  262144000  274877906944
5
MemFree         5120000     6291000    8589934592
6
Active(anon)  198976000  201342000  198945792000
7
Inactive       2048000     1532000     1073741824
8

9
# 프로세스별 노드 사용
10
$ numastat -p <pid>
11
Per-node process memory usage (in MBs)
12
                Node 0  Node 1  Node 2  Total
13
Huge               0      0       0      0
14
Heap            1234   2345    98765  102344
15
Stack              0      0       0      0
16
Private         1098   1872    87654   90624
17

18
# Memory miss·hit 통계
19
$ numastat
20
                       node0     node1     node2
21
numa_hit          103294827   85928301  29384720
22
numa_miss            382910     482910   1834820  # CXL — miss 많음
23
numa_foreign         482910     382910      0
24
local_node        102911917   85445391  29384720
25
other_node           382910     482910   1834820

numa_miss가 CXL 노드에 집중이면 application이 자기 노드 외 메모리를 자주 접근하는 신호.

#bpftrace — CXL 드라이버 동적 트레이싱

CXL 드라이버 내부 호출을 동적으로 캡처:

1
# CXL mailbox 명령 추적
2
$ bpftrace -e '
3
  kprobe:cxl_mbox_send_cmd {
4
    @cmds[arg1] = count();
5
  }
6
  interval:s:5 {
7
    print(@cmds);
8
    clear(@cmds);
9
  }
10
'
11

12
# 출력 예
13
@cmds[0x4400]: 1234   # Get Health Info
14
@cmds[0x4300]: 567    # Get LSA
15
@cmds[0x4302]: 89     # Set LSA
16

17
# Page migration 추적 (DAMON 동작 검증)
18
$ bpftrace -e '
19
  tracepoint:migrate:mm_migrate_pages_start {
20
    @migrations[args->from_node, args->to_node] = sum(args->nr_pages);
21
  }
22
'
23

24
# CXL 인터럽트 빈도
25
$ bpftrace -e '
26
  kprobe:cxl_event_irq_handler {
27
    @[probe] = count();
28
  }
29
'

bpftrace는 문제가 의심되는 좁은 영역을 수정 없이 깊이 추적할 때 강력합니다.

#도구 조합 — 실전 워크플로

CXL 환경 디버깅의 일반 흐름:

단계	도구	묻는 질문
1. 토폴로지 확인	`cxl list -RT`	어떤 디바이스가 어디 붙어 있나
2. NUMA 등록	`numactl --hardware`	노드 분리 잘 되어 있나
3. 워크로드 시작	`perf mem record`	CPU가 어느 노드 자주 접근
4. Access 분포	`damo report access`	hot/cold 분류 잘 되어 있나
5. Tier 동작	`bpftrace migrate`	promotion/demotion 자동 실행되나
6. RAS 이벤트	`cxl monitor`	디바이스에 이상 신호 없나

#자주 보는 함정과 안티패턴

⚠️ cxl list만 보고 토폴로지 단정

cxl list 출력은 현재 활성 디바이스만. hot-plug 가능 슬롯은 별도 옵션 (-i)으로 봐야 합니다. 구성 가능한 슬롯과 활성 디바이스를 혼동하면 용량 계획이 틀려집니다.

⚠️ DAMON sample_interval 너무 작게 설정

5ms 이하면 DAMON 자체 오버헤드가 워크로드의 5% 이상. 측정 결과가 측정 행위로 왜곡됩니다. 100ms 단위가 일반 권장.

⚠️ perf mem로 throughput 측정

perf mem은 sampling입니다. 실제 throughput은 못 봅니다. throughput은 STREAM·mlc가 맞고, perf mem은 어디서 latency가 나오는지 분포 분석에 씁니다.

⚠️ numastat의 numa_foreign 항목 무시

numa_foreign은 자기 노드 메모리가 다른 노드 프로세스에 할당된 경우. 큰 값은 자원 공유 충돌. CXL pool 환경에서는 항상 모니터링해야 할 지표.

#정리

CXL 성능 분석은 cxl-cli·DAMON·perf-mem·numastat·bpftrace 5개 도구가 서로 다른 층을 봅니다.
cxl-cli는 토폴로지와 region 관리, DAMON은 page 활동, perf-mem은 CPU access 분포, numastat은 NUMA 통계, bpftrace는 드라이버 동적 추적입니다.
워크플로 권장: 토폴로지 → NUMA → 워크로드 시작 → access 분포 → tier 동작 → RAS의 6단계 순.
DAMON sample_interval 5ms 이하는 위험, 100ms가 일반적입니다.
perf mem은 분포 분석 전용, throughput은 STREAM·mlc가 정답입니다.

다음 편은 Ch 56: 실전 사례 — CXL.mem 추가로 LLM inference KV cache 처리량 회복 — Ch 8(HBM)에서 본 LLaMA 70B 메모리 문제의 해결편 case study입니다.

CXL 성능 프로파일링 도구 — cxl-cli·DAMON·perf-mem 활용

#한 줄 요약

#어떤 문제를 푸는가

#cxl-cli — 토폴로지와 region 관리

#DAMON — Page 단위 access 추적

#perf-mem — CPU의 메모리 접근 분포

#numastat — NUMA 노드별 통계

#bpftrace — CXL 드라이버 동적 트레이싱

#도구 조합 — 실전 워크플로

#자주 보는 함정과 안티패턴

#정리

#관련 항목

Embedded Performance Engineering · 56 of 57

관련 글

실전 사례 — CXL.mem 추가로 LLM inference KV cache 처리량 회복

CXL.mem 지연·대역폭 실측 — Direct·Switch·Pooled 토폴로지 비교

연속 프로파일링 — Parca·Pixie·Pyroscope·Tetragon

이 글을 참조하는 글 (2)