Memory Diagnostics · 6/7

CXL 메모리 진단 — RAS·Poison List·Media Error 추적

2026년 6월 18일 · Hawk · 3분 읽기

cxl memory-diagnostics ras poison numa cxl-cli

Twitter LinkedIn

#CXL.mem은 일반 메모리와 무엇이 다른가

DDR DIMM과 달리 CXL 메모리 디바이스는:

별도 NUMA 노드로 등록됨 — numastat에 별도 항목
RAS 이벤트 채널이 존재 — poison list, event log
Mailbox 명령으로 디바이스 상태 query 가능
Tiered memory 컨텍스트에서 promotion/demotion 트래픽 발생

기존 메모리 진단 도구(heaptrack·jemalloc profile)는 프로세스 관점입니다. CXL은 디바이스 관점 추가 진단이 필요합니다.

#NUMA 노드별 사용량

numastat에서 CXL 노드 사용량 확인:

1
# 전체 노드 통계
2
$ numastat -m
3
                  Node 0     Node 1     Node 2 (CXL)
4
MemTotal      262144000  262144000  274877906944
5
MemFree         5120000     6291000    8589934592
6
MemUsed       257024000  255853000  266287972352
7
Anon          198976000  201342000  198945792000
8
Active(file)    2048000     1532000     1073741824
9

10
# 프로세스별 노드 할당
11
$ numastat -p <pid>
12
Per-node process memory usage (in MBs)
13
                Node 0  Node 1  Node 2  Total
14
Huge               0      0       0      0
15
Heap            1234   2345    98765  102344
16
Stack              0      0       0      0
17
Private         1098   1872    87654   90624
18
----------------------------------
19
Total           2332   4217   186419  192968

Node 2 (CXL)에 메모리 의외로 많이 가 있으면 원하지 않은 placement입니다. mbind() 또는 numactl로 제어해야 합니다.

#cxl-cli로 디바이스 상태

1
# 1. 전체 토폴로지
2
$ cxl list -RT
3
[
4
  {
5
    "memdev":"mem0",
6
    "ram_size":274877906944,
7
    "host":"0000:5e:00.0"
8
  }
9
]
10

11
# 2. 디바이스 health
12
$ cxl health -m mem0
13
{
14
  "memdev":"mem0",
15
  "health_status":"normal",
16
  "media_status":"normal",
17
  "ext_status":"normal",
18
  "life_used_percent":12,
19
  "temperature":42,
20
  "dirty_shutdown_count":3
21
}
22

23
# 3. Poison list — bad media 추적
24
$ cxl list -m mem0 -P
25
{
26
  "poison":[
27
    {"address":"0x80012340", "length":64, "source":"injected"},
28
    {"address":"0x80015800", "length":64, "source":"internal"}
29
  ]
30
}
31

32
# 4. Event log
33
$ cxl monitor -m mem0
34
[2026-06-18 09:10:23] Info: Mailbox cmd 0x4400 completed in 1.2ms
35
[2026-06-18 09:11:45] Warning: Correctable ECC error at 0x80045000
36
[2026-06-18 09:12:01] Failure: Media error at 0x80067800 — added to poison list

#RAS 이벤트 분류

등급	의미	대응
Information	정보성 (mailbox completion 등)	무시 가능
Warning	Correctable error	카운트 모니터링
Failure	Uncorrectable, 단일 영역	poison list 격리, 페이지 unmap
Fatal	디바이스 오류	디바이스 reset 또는 교체

Linux 6.2+에서는 Failure 이벤트 발생 시 자동 page offline과 MCE 이벤트 발생이 통합됩니다.

#DAMON으로 access 패턴

CXL 메모리가 cold tier로 잘 활용되는지 확인:

1
# DAMON 활성화
2
$ echo on > /sys/kernel/mm/damon/admin/kdamonds/0/state
3

4
# 결과 분포
5
$ damo report access
6
target_id  region(KB)  access(%)  node
7
0          0-32M       82.3       0  # DDR — hot
8
0          32M-128M    45.1       0  # DDR — warm
9
0          128M-1G     8.2        2  # CXL — cool
10
0          1G-256G     1.1        2  # CXL — cold

*CXL 노드의 access %*가 DDR 대비 작아야 정상입니다. 비슷하면 promotion이 잘 안 되고 있는 신호.

#자주 만나는 함정

증상	원인
CXL 노드 메모리 안 보임	`cxl create-region` 안 함 — region 생성해야 사용 가능
`numastat`에 node 2 없음	`daxctl reconfigure-device -m system-ram` 누락
Poison list 늘어남	media wear 또는 ECC marginal — 디바이스 교체 검토
Health “warning”으로 떨어짐	`life_used_percent` 또는 dirty_shutdown 증가 — log 확인
`cxl monitor` 무응답	event interrupt 비활성. `cxl set-event-irq -m memX`
DAMON CXL 노드 무시	DAMON 6.2+ tiered memory awareness 활성 확인
`temperature` 비현실적 (255 또는 0)	디바이스 firmware bug — sensor 미초기화
갑작스러운 throughput 저하	thermal throttling 가능 — `cxl health` 확인
Multi-host pool에서 access 실패	LD(Logical Device) 할당 충돌 — Fabric Manager 확인
Page offline 빈번	bad media 진행 — poison rate 모니터링

#진단 워크플로

numastat -m — 노드별 전체 통계
cxl health -m memX — 디바이스 자체 상태
cxl list -m memX -P — poison list 변화 추적
cxl monitor -m memX — 실시간 event log
damo report access — access pattern 분포
dmesg | grep -E "cxl|mce|memory_failure" — kernel 측 이벤트

#정리

CXL 메모리는 별도 NUMA 노드로 등록되어 numastat에서 디바이스 관점 진단이 가능합니다.
cxl-cli가 디바이스 health·poison·event를 노출하는 표준 도구입니다.
RAS 이벤트는 Information·Warning·Failure·Fatal 네 단계로 분류되며 Failure 이상에서 page offline이 trigger됩니다.
DAMON으로 CXL 노드의 access pattern을 확인해 tier 정렬이 잘 동작하는지 검증합니다.
운영에서는 poison rate·life_used·dirty_shutdown 세 지표를 장기 추적합니다.