Kernel Debugging · 6/9

crash와 drgn 분석 — vmcore에서 커널 상태 복원하기

2026년 5월 25일 · Hawk · 4분 읽기

커널 panic 후 시스템이 죽었습니다. 재현은 안 됩니다. kdump가 재부팅 직전 RAM을 vmcore 파일로 저장해 줬다면 — crash 또는 drgn으로 부검합니다. 이건 user-space의 core dump 분석(gdb exe core)에 해당하는 커널 버전.

#kdump 셋업

vmcore를 만드는 건 kdump. 커널 패닉 직전에 예약된 메모리에서 2차 커널을 부팅해 RAM을 디스크로 저장.

#활성화

1
# Fedora/RHEL
2
$ sudo dnf install kexec-tools
3
$ sudo systemctl enable --now kdump
4

5
# Ubuntu/Debian
6
$ sudo apt install kdump-tools linux-crashdump
7
$ sudo systemctl enable --now kdump-tools
8

9
# 부팅 옵션 — 예약 메모리
10
# /etc/default/grub
11
GRUB_CMDLINE_LINUX="... crashkernel=512M"
12
$ sudo update-grub
13
$ sudo reboot

crashkernel=512M이 재부팅 시 2차 커널용 메모리 예약. 너무 작으면 vmcore 못 만듦.

#상태 확인

1
$ sudo kdumpctl status
2
kdump: Kdump is operational
3

4
$ cat /proc/iomem | grep Crash
5
  04000000-23ffffff : Crash kernel    # 예약된 영역

#강제 패닉으로 테스트

1
$ echo c | sudo tee /proc/sysrq-trigger
2
[Sysrq: Trigger a crash]
3
[BUG: kernel NULL pointer dereference]
4
[panic +14s]
5
[kdump: kexec'ing into crash kernel]
6
[2차 커널 부팅, vmcore 저장]
7
[reboot]
8

9
# 재부팅 후
10
$ ls /var/crash/
11
127.0.0.1-2026-05-15-12:34:56/
12
$ ls /var/crash/127.0.0.1-*/
13
vmcore  vmcore-dmesg.txt  kexec-dmesg.log

vmcore가 본체 (수 GB), vmcore-dmesg.txt는 panic 직전 dmesg.

#crash — 전통 도구

1
$ sudo dnf install crash kernel-debuginfo-$(uname -r)
2

3
$ sudo crash /usr/lib/debug/.../vmlinux /var/crash/.../vmcore
4

5
      KERNEL: /usr/lib/debug/.../vmlinux
6
    DUMPFILE: /var/crash/.../vmcore  [PARTIAL DUMP]
7
        CPUS: 4
8
        DATE: Sun May 11 03:21:14 KST 2026
9
      UPTIME: 23:45:12
10
LOAD AVERAGE: 0.42, 0.30, 0.18
11
       TASKS: 234
12
    NODENAME: prod-01
13
     RELEASE: 6.5.0-...
14
     VERSION: ...
15
     MACHINE: x86_64
16
      MEMORY: 16 GB
17
       PANIC: "BUG: kernel NULL pointer dereference, address: 0000..."
18
         PID: 1234
19
     COMMAND: "myprog"
20
        TASK: ffff... [...]
21
         CPU: 2
22
       STATE: TASK_RUNNING (PANIC)
23

24
crash>

자동으로 panic 원인·시간·메모리·CPU·죽은 task 표시.

#기본 명령

1
crash> bt                       # 현재 task의 콜스택
2
crash> bt -a                    # 모든 CPU
3
crash> ps                       # 프로세스 목록
4
crash> ps -k                    # 커널 스레드
5
crash> log                      # dmesg
6
crash> log | tail               # 마지막 로그
7
crash> sys                      # 시스템 정보
8
crash> mach                     # CPU 정보
9
crash> mount                    # 마운트
10
crash> net                      # 네트워크 디바이스
11
crash> files                    # 열린 파일
12
crash> vm <pid>                 # 그 task의 VM 정보
13
crash> task <pid>               # task_struct
14
crash> kmem -s                  # slab 통계
15
crash> kmem -i                  # 메모리 요약
16
crash> p <var>                  # 전역 변수
17
crash> rd <addr>                # 메모리 읽기
18
crash> dis <func>               # 디스어셈블
19
crash> struct task_struct <addr> # 구조체 출력
20
crash> list <addr>              # linked list 순회
21
crash> tree <addr>              # tree 순회 (rbtree)

#한 예 — panic 원인 추적

1
crash> bt
2
PID: 1234     TASK: ffff... CPU: 2  COMMAND: "myprog"
3
 #0 [ffff...] machine_kexec at ffffffff8104a123
4
 #1 [ffff...] __crash_kexec at ffffffff8108b456
5
 #2 [ffff...] panic at ffffffff8108c789
6
 #3 [ffff...] oops_end at ffffffff8102d012
7
 #4 [ffff...] no_context at ffffffff8106f345
8
 #5 [ffff...] __do_page_fault at ffffffff8106f678
9
 #6 [ffff...] do_page_fault at ffffffff8106f9ab
10
 #7 [ffff...] page_fault at ffffffff819c5678
11
    [exception RIP: my_driver_handler+0x42]
12
    RIP: ffffffffc0123456 RSP: ffff...
13
    RAX: 0000000000000000 ...
14
 #8 [ffff...] __handle_irq_event_percpu at ffffffff810abc01
15
 ...
16

17
crash> dis my_driver_handler
18
0xffffffffc0123410 <my_driver_handler>:  push %rbp
19
...
20
0xffffffffc0123456 <my_driver_handler+0x42>:  mov 0x10(%rax),%rcx
21
                                              ^^^ %rax = 0 → NULL deref
22

23
crash> sym ffffffffc0123456
24
my_driver_handler+0x42 at drivers/my_module.c:42

NULL 역참조 위치 + 소스 줄. my_module.c:42의 *(p + 0x10)에서 p == NULL.

#list 순회 — 자료구조

1
crash> p init_task
2
init_task = $1 = {
3
  state = 0,
4
  ...
5
  tasks = {
6
    next = 0xffff...,
7
    prev = 0xffff...
8
  },
9
  ...
10
}
11

12
crash> list -H init_task.tasks task_struct.tasks -s task_struct.comm | head
13
ffff...
14
  comm = "init"
15
ffff...
16
  comm = "kthreadd"
17
...

linked list 순회 + struct member 추출.

#drgn — Python 기반 모더 도구

drgn — Meta가 만든 Python interactive.

1
$ sudo dnf install drgn
2
# 또는
3
$ pip install drgn

#진입

1
$ sudo drgn -k -c /var/crash/.../vmcore  # vmcore
2
$ sudo drgn                              # 라이브 커널 (/proc/kcore)
3

4
>>>

Python REPL. 모든 커널 변수·구조체에 직접 접근.

1
>>> from drgn.helpers.linux import *
2

3
# 현재 init_task
4
>>> init = prog['init_task']
5
>>> init.comm
6
(char [16])"swapper/0"
7

8
# 모든 task 순회
9
>>> for task in for_each_task(prog):
10
...     print(task.pid.value_(), task.comm.string_().decode())
11
0 swapper/0
12
1 init
13
2 kthreadd
14
3 rcu_gp
15
...

#Helper 함수

drgn에 수많은 helper. drgn.helpers.linux.*:

1
from drgn.helpers.linux import (
2
    for_each_task,
3
    for_each_online_cpu,
4
    list_for_each_entry,
5
    find_task,
6
    pid_for_each_thread,
7
    find_inode_by_path,
8
    block_device_name,
9
    ...
10
)
11

12
# 특정 PID
13
task = find_task(prog, 1234)
14
print(task.comm.string_())
15

16
# 그 task의 fd
17
from drgn.helpers.linux.fs import fget
18
file = fget(task, 3)        # fd 3
19
print(file.f_path.dentry.d_name.name.string_())

#콜스택

1
>>> task = find_task(prog, 1234)
2
>>> for frame in task.stack_trace():
3
...     print(frame)
4
#0  page_fault+0x...  at arch/x86/kernel/...
5
#1  do_page_fault+0x...  at arch/x86/mm/...
6
#2  my_function+0x42  at drivers/foo.c:42
7
...

#vs crash

	crash	drgn
언어	자체 DSL	Python
표현력	제한적	무제한
학습 곡선	중	낮음 (Python 알면)
자료구조	bt/list/tree 등	for, dict, list comprehension
자체 도구	bash + crash 스크립트	Python 함수
속도	빠름	비슷
커뮤니티	옛, 안정	활발 (Meta·Red Hat)

drgn이 작성하기 쉽고 Python 생태계와 자연스럽게 통합. crash는 전통 사용자가 익숙.

#자체 분석 스크립트

1
#!/usr/bin/env drgn
2
# crash-info.py — vmcore 진단 자동화
3

4
from drgn.helpers.linux import for_each_task
5

6
print(f"Kernel: {prog['linux_banner'].string_().decode().strip()}")
7
print(f"Uptime: ...")
8
print()
9

10
# CPU별 콜스택
11
print("=== Per-CPU active task ===")
12
for cpu in for_each_online_cpu(prog):
13
    task = per_cpu(prog['current_task'], cpu)
14
    print(f"CPU {cpu}: {task.comm.string_().decode()} pid={task.pid.value_()}")
15

16
# blocked task (D state)
17
print("\n=== Tasks in D state (uninterruptible) ===")
18
for task in for_each_task(prog):
19
    if task.__state.value_() == 0x2:  # TASK_UNINTERRUPTIBLE
20
        print(f"  {task.comm.string_().decode()} pid={task.pid.value_()}")

1
$ sudo drgn -k -c vmcore -s crash-info.py

운영 환경에서 모든 panic에 같은 분석을 자동 실행.

#라이브 디버깅 — drgn on /proc/kcore

1
$ sudo drgn
2

3
# 라이브 커널의 task list (운영 서비스 분석에 유용)
4
>>> for t in for_each_task(prog):
5
...     if t.__state.value_() == 0x2:
6
...         print(t.comm.string_(), t.pid.value_())

vmcore 없이 동작 중 시스템 분석. 커널 패닉 안 일으키므로 안전.

#자주 만나는 사고 유형

#NULL 역참조

1
PANIC: "BUG: kernel NULL pointer dereference, address: 0000000000000010"

→ bt로 콜스택, dis로 명령, RAX/RDI 등으로 어떤 포인터가 NULL인지.

#Soft lockup

1
PANIC: "Kernel panic - not syncing: softlockup: hung tasks"

→ bt -a로 모든 CPU. 한 CPU가 한 함수에서 영원히 무한 루프.

#Hung task

1
PANIC: "Kernel panic - not syncing: hung_task: blocked tasks"

→ D state task 추적 (drgn 스크립트 위 참고).

#Use-after-free

1
PANIC: "BUG: KASAN: use-after-free in ..."

→ KASAN 빌드여야. shadow memory에 alloc/free 사이트.

#Out of memory

1
PANIC: "Out of memory: Killed process N (myprog) ..."

→ kmem -i로 메모리 요약. vm <pid>로 oom-killed task의 메모리.

#kdump-anon — clouddump

운영 환경에서 vmcore를 디스크 대신 네트워크로.

1
nfs <nfs-server>:/path/to/dumps
2
# 또는
3
ssh user@<remote-server>
4
ssh_key /root/.ssh/kdump_rsa

panic 시 2차 커널이 NFS 마운트 → vmcore 업로드. 자체 디스크가 없는 클라우드 VM에서.

#kpoke — debugfs 디버깅 헬퍼

debugfs 안에 커널 구조체를 보기 좋게 출력하는 인터페이스. drivers/는 이걸 활용해 자체 상태를 노출.

1
$ ls /sys/kernel/debug/
2
$ cat /sys/kernel/debug/tracing/trace
3
$ cat /sys/kernel/debug/btrfs/<uuid>/...
4
$ cat /sys/kernel/debug/kprobes/list

각 서브시스템이 자체적으로 출력. 자체 driver 작성 시 debugfs로 디버그 인터페이스 제공.

#자주 만나는 함정

증상	원인
`crash: cannot read vmlinux`	debuginfo 패키지 안 깔림
vmcore 크기 0	crashkernel= 옵션 안 켰음
kdump 서비스 실패	crashkernel 메모리 너무 작음 또는 부팅 옵션 누락
crash가 wrong kernel 거부	vmlinux build-id ≠ vmcore의
`drgn: cannot determine kernel version`	`-k`로 커널 모드 명시
모듈 심볼 없음	해당 모듈의 debuginfo 별도
vmcore 매우 큼 (수십 GB)	`makedumpfile -d 31`로 user pages 제외

#정리

kdump가 panic 직전 RAM을 vmcore로.
crash (전통) 와 drgn (Python) 두 도구.
crash는 자체 DSL, drgn은 Python — 표현력 ↑.
helper 함수로 모든 task / cpu / fd / inode 순회.
live 분석은 /proc/kcore + drgn.
사고 유형: NULL deref / softlockup / hung / use-after-free / OOM.
클라우드 환경은 NFS·SSH로 vmcore 업로드.

#다음 장 예고

Ch 7 (마지막) — Kernel panic / Oops 메시지 해석. crash 없이 dmesg만으로 분석.

#관련 항목

Ch 5: kdb / kgdb
Ch 7: Panic / Oops 해석
Postmortem Debugging 시리즈 — user-space core
drgn 공식
crash 매뉴얼
Documentation/admin-guide/kdump/kdump.rst

Kernel Debugging · 6 of 9

CXL 커널 드라이버 디버깅 — ftrace·bpftrace·drgn 활용

Linux drivers/cxl/ 서브시스템 디버깅 — ftrace로 probe 흐름 추적, bpftrace로 mailbox 명령 캡처, drgn으로 커널 상태 검사.

2026년 6월 18일·cxl

Kernel Panic·Oops 메시지 해석 — Decoder Ring 만들기

dmesg 한 줄로 정확한 위치 찾기. RIP, Call Trace, BUG, Tainted 디코딩.

2026년 5월 25일·kernel

kdb·kgdb 인터랙티브 커널 디버깅 — Source-level Step·Breakpoint

별 머신 또는 시리얼로 커널을 step-debug. kgdb 셋업, gdb 연결, 실전 흐름.

2026년 5월 25일·kernel

crash와 drgn 분석 — vmcore에서 커널 상태 복원하기

#kdump 셋업

#활성화

#상태 확인

#강제 패닉으로 테스트

#crash — 전통 도구

#기본 명령

#한 예 — panic 원인 추적

#list 순회 — 자료구조

#drgn — Python 기반 모더 도구

#진입

#Helper 함수

#콜스택

#vs crash

#자체 분석 스크립트

#라이브 디버깅 — drgn on /proc/kcore

#자주 만나는 사고 유형

#NULL 역참조

#Soft lockup

#Hung task

#Use-after-free

#Out of memory

#kdump-anon — clouddump

#kpoke — debugfs 디버깅 헬퍼

#자주 만나는 함정

#정리

#다음 장 예고

#관련 항목

Kernel Debugging · 6 of 9

관련 글

CXL 커널 드라이버 디버깅 — ftrace·bpftrace·drgn 활용

Kernel Panic·Oops 메시지 해석 — Decoder Ring 만들기

kdb·kgdb 인터랙티브 커널 디버깅 — Source-level Step·Breakpoint

이 글을 참조하는 글 (6)