커널 모듈 기초 — init/exit·Parameter·KBuild·DKMS
#한 줄 요약
“Kernel module =
.ko한 개로 동적 로드하는 driver 단위.”module_init과module_exit두 함수만 있으면 시작은 끝이고, 나머지 작업은 KBuild·sysfs·devm 인프라가 받쳐줍니다.
#어떤 상황에서 쓰나
새 PCIe 카드를 받아 register 매핑부터 확인해야 하거나, 기존 vendor driver에 작은 패치를 얹어 출하 라인에서 동작을 바꿔야 할 때가 있습니다. Kernel image 자체를 다시 빌드하면 부팅 절차와 QA 까지 모두 영향을 받으니, 보통은 .ko 한 개로 작업합니다. 양산 단계에서도 modprobe로 끼웠다 빼며 회귀 테스트를 돌리는 편이 훨씬 빠릅니다.
VMware·NVIDIA·WireGuard처럼 외부에서 배포하는 driver도 모두 module 형태입니다. Kernel 버전이 바뀔 때마다 다시 빌드해야 하니, 양산 환경에서는 DKMS로 자동 재빌드를 거는 패턴이 표준입니다.
#핵심 개념
Kernel module은 크게 네 가지 요소로 정의됩니다.
- 진입점 —
module_init/module_exit - 메타데이터 —
MODULE_LICENSE/AUTHOR/DESCRIPTION - 빌드 — KBuild Makefile + 커널 source 트리
- 로드 —
insmod/rmmod/modprobe+depmod
라이선스 문자열은 단순한 문서가 아니라 taint flag에 영향을 주는 실제 동작입니다. "GPL"이 아니면 _GPL 접미사가 붙은 export symbol에 접근할 수 없고, 커널 oops 메시지에 Proprietary 표시가 남습니다.
#코드 / 실제 사용 예
#Hello 모듈 한 장
#include <linux/module.h>#include <linux/init.h>#include <linux/kernel.h>
static int __init hello_init(void) { pr_info("hello: loaded on kernel %s\n", utsname()->release); return 0;}
static void __exit hello_exit(void) { pr_info("hello: unloaded\n");}
module_init(hello_init);module_exit(hello_exit);
MODULE_LICENSE("GPL v2");MODULE_AUTHOR("Sang-Deok Yoon");MODULE_DESCRIPTION("Minimal kernel module");MODULE_VERSION("1.0");__init과 __exit 매크로는 함수 코드를 별도 섹션에 모아 두었다가 초기화가 끝나면 해제할 수 있도록 합니다. Module로 빌드하면 큰 차이가 없지만, 같은 코드를 built-in으로 컴파일할 때는 메모리 절약 효과가 분명합니다.
#KBuild Makefile
# Makefileobj-m += hello.o
KDIR ?= /lib/modules/$(shell uname -r)/buildPWD := $(shell pwd)
all: $(MAKE) -C $(KDIR) M=$(PWD) modules
clean: $(MAKE) -C $(KDIR) M=$(PWD) clean
install: $(MAKE) -C $(KDIR) M=$(PWD) modules_install depmod -a-C 옵션이 커널 source의 KBuild를 호출하고, M=$(PWD) 가 우리 디렉터리를 가리킵니다. Cross compile에는 ARCH·CROSS_COMPILE을 추가합니다.
make ARCH=arm64 CROSS_COMPILE=aarch64-linux-gnu- \ KDIR=/work/linux-bsp modules#Module 파라미터
static int sample_rate = 48000;module_param(sample_rate, int, 0644);MODULE_PARM_DESC(sample_rate, "Sample rate in Hz");
static char *device_name = "default";module_param(device_name, charp, 0444);MODULE_PARM_DESC(device_name, "Underlying device name");
static int chans[4];static int chans_count;module_param_array(chans, int, &chans_count, 0644);sudo insmod sample.ko sample_rate=96000 device_name=hw:0,0 chans=1,2,3,4
# 런타임 확인 / 수정cat /sys/module/sample/parameters/sample_rateecho 44100 > /sys/module/sample/parameters/sample_rate파라미터 mode가 0이면 sysfs에 노출되지 않습니다. 외부에 보여줄 값만 0644로 두면 됩니다.
#insmod·modprobe·rmmod
sudo insmod ./hello.ko # 단일 파일만 로드sudo modprobe hello # 의존성 자동 해결sudo rmmod hello # 언로드
lsmod | head # 로드된 모듈modinfo hello # 메타데이터modprobe는 /lib/modules/$(uname -r)/modules.dep을 참고해 의존 module을 먼저 로드합니다. 그래서 make modules_install 후에는 반드시 depmod -a로 dependency를 갱신합니다.
#printk loglevel과 dmesg
pr_emerg("hello: kernel panic candidate\n"); /* KERN_EMERG = 0 */pr_alert("hello: alert\n"); /* KERN_ALERT = 1 */pr_err ("hello: error %d\n", err); /* KERN_ERR = 3 */pr_warn ("hello: warning\n"); /* KERN_WARNING= 4 */pr_info ("hello: info\n"); /* KERN_INFO = 6 */pr_debug("hello: trace value=%u\n", v); /* KERN_DEBUG = 7 */dmesg -wH # follow + human timedmesg --level=err,warn # 필터링echo 8 > /proc/sys/kernel/printk # console에 debug까지 표시pr_debug는 DEBUG 매크로나 dynamic_debug가 켜져 있을 때만 출력됩니다.
#부팅 시 자동 로드
samplei2c-devoptions sample sample_rate=96000blacklist nouveaumodules-load.d는 어떤 모듈을 자동 로드할지, modprobe.d는 어떻게 로드할지를 정합니다.
#측정 / 성능 비교
.ko 한 개 로드에 드는 시간은 대부분 1 ms 이하지만, 의존성이 깊거나 firmware blob을 같이 가져오면 수십 ms까지 늘어납니다.
| 모듈 | size | load time |
|---|---|---|
| sample (hello) | 8 KB | 0.4 ms |
| sample + sysfs group | 12 KB | 0.5 ms |
| ath10k_pci + firmware | 540 KB | 48 ms |
| nvidia (proprietary) | 28 MB | 320 ms |
부팅 시간을 줄여야 한다면 자주 쓰는 driver를 built-in으로 옮기고, drone·infotainment처럼 USB 디바이스 종류가 다양한 환경에서는 module로 유지해 hot-plug에 맞춥니다.
#자주 보는 함정
라이선스 누락 또는 잘못 표기
/* MODULE_LICENSE 없음 */Module verification failed: signature and/or required key missing - tainting kernel가 dmesg에 찍히고 Tainted: P 플래그가 영구적으로 남습니다. "GPL v2" 또는 "Dual MIT/GPL"처럼 인정된 문자열을 반드시 적습니다.
ABI 호환성 가정
struct device_driver { ... }; /* 커널 버전마다 필드가 늘어남 */Vermagic이 일치하지 않으면 modprobe가 거부합니다. 사용자 빌드 환경의 linux-headers 버전을 정확히 맞추거나, DKMS로 자동 재빌드를 거는 편이 안전합니다.
kmalloc(GFP_KERNEL)을 ISR에서 호출
static irqreturn_t isr(int irq, void *d) { void *p = kmalloc(64, GFP_KERNEL); /* sleep 가능 */}ISR이나 spinlock 안에서는 GFP_ATOMIC을 써야 합니다. might_sleep() 매크로를 곳곳에 두면 디버그 빌드에서 위반을 잡아 줍니다.
__exit에서 등록 해제 누락
static void __exit sample_exit(void) { /* sysfs_remove_group 호출 잊음 */}rmmod 후 다시 insmod 시 sysfs: cannot create duplicate filename 오류가 나면 거의 항상 cleanup 누락입니다. 가능하면 devm_* 또는 managed API로 등록과 해제를 한 쌍으로 묶습니다.
Out-of-tree 빌드 시 헤더 경로
make: *** /lib/modules/5.15.0/build: No such file or directorylinux-headers-$(uname -r) 패키지 또는 Yocto SDK의 kernel-devsrc가 필요합니다. 양산 BSP에서는 KDIR을 BSP 트리로 명시합니다.
#정리
- 진입점은
module_init·module_exit한 쌍이고, 라이선스는 단순 문서가 아니라 동작에 영향을 줍니다. - KBuild Makefile은
obj-m과 커널 source를-C로 가리키는 두 줄이 핵심입니다. - 파라미터는
module_param으로 선언하고 mode를0644로 두면/sys/module/.../parameters에 노출됩니다. insmod는 단일 파일,modprobe는 dependency까지 처리합니다.depmod -a로 dependency 캐시를 갱신해야 합니다.- 부팅 시 자동 로드는
/etc/modules-load.d, 옵션은/etc/modprobe.d로 분리합니다. - DKMS는 커널 업데이트 때마다 모듈을 자동 재빌드해 vendor가 외부 driver를 배포할 때 표준입니다.
- 디버그 출력은
pr_*매크로와 dynamic debug, 메모리는GFP_KERNEL과GFP_ATOMIC을 분명히 구분합니다.
다음 편은 mmap의 네 가지 모드입니다.
#관련 항목
Modern Embedded Recipes · 81 of 152
- 1Modern Embedded Recipes — 모던 임베디드 실전 레시피 시리즈 소개
- 2디지털 신호 기초 — Voltage Level·Edge·Setup/Hold 분석
- 3임베디드 클럭과 타이밍 — Skew·Jitter·PLL·MMCM 분석
- 4GPIO 내부 구조 분해 — Push-Pull·Open-Drain·Schmitt Trigger
- 5UART 하드웨어 동작 분석 — Baud Rate·Framing·FIFO
- 6SPI 하드웨어 분석 — Clock Mode·MOSI/MISO·Chip Select
- 7I2C 하드웨어 분석 — Open-Drain·Clock Stretching·Arbitration
- 8ADC 동작 원리 — SAR·Sigma-Delta·Pipelined 비교
- 9DAC 동작 원리 — R-2R Ladder·Sigma-Delta·Settling Time
- 10PWM 신호 생성 분석 — Duty·Frequency·Dead Time·Center-Aligned
- 11CAN 버스 전기적 특성 — Differential·Termination·Dominant/Recessive
- 12RS-485·RS-422 차동 신호 분석 — Termination·Biasing·Topology
- 13LVDS 차동 신호 분석 — Common-Mode·Impedance·Eye Pattern
- 14ARM Cortex-M 시리즈 비교 — M0·M3·M4·M7·M33·M55 분석
- 15ARM Cortex-A 시리즈 비교 — A53·A55·A72·A78·X1 분석
- 16ARM 레지스터 구조 분석 — R0~R15·CPSR·SPSR·Banked Registers
- 17Cortex-M 예외 처리 — Vector Table·NVIC·Tail-Chaining 추적
- 18ARM 메모리 맵 분석 — Normal·Device·Strongly-Ordered Region
- 19ARM L1·L2 캐시 분석 — Set Associative·Inclusive·Maintenance
- 20ARM MPU 활용 — Region·Attribute·Privilege Separation
- 21ARM MMU 기초 분석 — Translation Table·TLB·ASID
- 22ARM TrustZone-M 기초 — Secure/Non-Secure·NSC·MPC
- 23ARM Memory Barrier 실전 — DMB·DSB·ISB·DMA·MMIO
- 24임베디드 크로스 컴파일러 분석 — GCC·Clang·Sysroot 구성
- 25C 컴파일 4단계 — Preprocess·Compile·Assemble·Link 추적
- 26ELF 파일 구조 분석 — Section·Segment·Symbol Table·DWARF
- 27링커 스크립트 기초 — SECTIONS·MEMORY·entry point
- 28링커 스크립트 고급 — Overlay·BSS·init_array·LMA/VMA
- 29임베디드 스타트업 코드 분석 — Reset_Handler·Vector Table·SystemInit
- 30C 런타임 crt0 분석 — Stack·BSS Zero·Data Copy·atexit
- 31임베디드 메모리 레이아웃 — .text·.rodata·.data·.bss·.heap·.stack
- 32임베디드 컴파일러 최적화 분석 — -O0~-O3·-Os·-LTO 비교
- 33Map 파일 분석 — Symbol·Section·Size 추적으로 코드 크기 진단
- 34Make·CMake 크로스 컴파일 — Toolchain File·Sysroot 통합
- 35임베디드 Bootloader 체인 — BootROM·SPL·U-Boot·Kernel·Secure Boot
- 36첫 bare-metal 프로그램 작성 — Linker·Startup·main의 최소 구성
- 37MMIO 레지스터 직접 접근 — volatile·Memory Map·Aliasing 분석
- 38GPIO 드라이버 직접 구현 — STM32 HAL 없이 레지스터로
- 39임베디드 클럭 설정 분석 — HSE·PLL·SYSCLK·AHB/APB 분주
- 40Cortex-M 인터럽트 핸들링 — NVIC·Priority·Vector·EXTI
- 41SysTick 타이머 활용 — 24-bit Counter·1ms Tick·delay 구현
- 42UART 드라이버 구현 — polling·interrupt·DMA 3가지 방식 비교
- 43SPI 드라이버 구현 — Master·Slave·CRC·DMA
- 44I2C 드라이버 구현 — Master·7-bit/10-bit·Clock Stretching 처리
- 45임베디드 DMA 기초 — Memory-to-Memory·Peripheral·Circular Mode
- 46저전력 모드 분석 — Sleep·Stop·Standby·Wake-up Source
- 47IWDG·WWDG 워치독 구현 — Independent vs Window 비교
- 48임베디드 Flash 프로그래밍 — Erase·Program·Read While Write
- 49DDR 초기화 실패 진단 — Timing·Calibration·Walking Bit Test
- 50PWM 출력 실전 — LED 밝기·모터 속도 제어
- 51DC 모터 제어 — H-Bridge·PWM Duty·Encoder Feedback
- 52스테퍼 모터 제어 — Full Step·Half Step·Microstepping
- 53서보 모터 제어 — PWM 1ms~2ms·Closed Loop·PID
- 54Character LCD 제어 — HD44780·4-bit Mode·Custom Char
- 55SPI OLED 제어 — SSD1306·Frame Buffer·Page 단위 갱신
- 56TFT 디스플레이 구동 — RGB565·FSMC·LTDC·DMA2D
- 57환경 센서 활용 — BME280 온습압·SHT3x·BMP180 비교
- 58IMU 센서 활용 — MPU6050·LSM6DSO·Sensor Fusion
- 59CAN 통신 구현 — bxCAN·Filter·Mailbox·CAN-FD
- 60USB Device 기초 — Descriptor·Enumeration·Endpoint·HID/CDC
- 61Ethernet MAC+PHY 통합 — RMII·lwIP·DMA Descriptor
- 62SD Card + FatFs 구현 — SPI/SDIO 모드·CSD/CID·Wear
- 63RTC 활용 — Calendar·Alarm·Wake-up Timer·Backup Domain
- 64RTOS 도입 결정 분석 — Super Loop vs RTOS 트레이드오프
- 65RTOS Task 설계 패턴 — 우선순위·스택·State Machine
- 66RTOS Scheduler 동작 분석 — Tick·Context Switch·Yield
- 67RTOS Semaphore 활용 — Binary·Counting·ISR Give
- 68RTOS Mutex 활용 — Recursive·Priority Inheritance 적용
- 69RTOS Queue 활용 — By-Value·By-Reference·Timeout 패턴
- 70RTOS Event Group 활용 — Bit Wait·Sync·Notify
- 71RTOS Software Timer 활용 — One-shot·Auto-reload·Daemon Task
- 72ISR-Safe API 설계 — Reentrant·Atomic·Defer 패턴
- 73Priority Inversion 진단·예방 — Mars Pathfinder Lesson 추적
- 74Timer Wheel 분석 — Hashed·Hierarchical·O(1) Tick
- 75RTOS 디버깅 기법 — Tracealyzer·SystemView·Stack 추적
- 76임베디드 Linux 부팅 흐름 분석 — BootROM·U-Boot·Kernel·init
- 77U-Boot 활용 — bootcmd·env·tftp·boot.scr 분석
- 78Device Tree 실전 — DTS·DTB·Overlay·Phandle 추적
- 79Device Tree Overlay 적용 — Runtime fragment·dtoverlay
- 80임베디드 커널 빌드 — defconfig·menuconfig·Image·zImage
- 81커널 모듈 기초 — init/exit·Parameter·KBuild·DKMS
- 82캐릭터 드라이버 작성 — file_operations·cdev·register_chrdev
- 83Platform 드라이버 작성 — probe·remove·of_match·DT 바인딩
- 84mmap 4가지 모드 — Anonymous·File·Shared·Huge Page
- 85epoll 실전 — LT·ET·ONESHOT·EXCLUSIVE 비교
- 86UIO·VFIO 분석 — User-Space Driver와 IOMMU 격리
- 87sysfs·configfs 활용 — kobject 기반 User 인터페이스
- 88IRQ Affinity 튜닝 — smp_affinity·isolcpus·irqbalance
- 89루트 파일시스템 구축 — Buildroot 기초·Package·Toolchain
- 90임베디드 동적 메모리 — malloc 위험·결정성·대안 분석
- 91메모리 정렬과 패딩 분석 — Natural·Strict Alignment·Trap
- 92Cache Line Alignment — alignas·Padding·SoA 적용
- 93DMA-Friendly Allocator — dma_alloc_coherent·IOMMU·Pool
- 94Zero-Copy Pipeline — DMA-BUF·sendfile·io_uring·splice
- 95NUMA Memory Topology — numactl·numa_alloc·HBM 적용
- 96SIMD 활용 분석 — Intrinsics·Auto-Vectorization·OpenMP SIMD
- 97ARM NEON 심화 — Matrix Multiply·FFT·Image Filter 적용
- 98임베디드 스택 분석 — high-water·overflow 탐지
- 99임베디드 코드 크기 최적화 — -Os·LTO·Section Garbage Collection
- 100임베디드 전력 최적화 — Sleep Mode·Clock Gating·DVFS
- 101WCET 분석 기법 — Static·Measurement·Hybrid 방법론
- 102Lock-Free Ring Buffer 구현 — SPSC·Power-of-2·Memory Order
- 103Wait-Free Signaling — Atomic Flag·Sequence·Latest-Value
- 104RCU (Read-Copy-Update) 기초 — Quiescent State·Grace Period
- 105Hazard Pointer 분석 — Lock-Free Memory Reclamation
- 106Compare-And-Swap 패턴 — Stack·Counter·Linked List 적용
- 107Atomic Operation 비용 분석 — Fence·Cache Line·Contention
- 108Spinlock vs Mutex 결정 가이드 — Context Switch·Hold Time
- 109ABA 문제 회피 — Tagged Pointer·Hazard·Generation Counter
- 110False Sharing 해결 — Cache Line Padding·SoA 적용
- 111MPMC Queue 구현 — Multi-producer Multi-consumer Lock-Free
- 112임베디드 디버깅 마인드셋 — 가설·격리·재현·이분탐색
- 113JTAG·SWD 안 붙을 때 — 핀·전압·속도·세션 진단
- 114GDB 원격 디버깅 — OpenOCD·J-Link·target remote 구성
- 115Cortex-M 하드폴트 분석 — Stacked Frame·CFSR 읽기
- 116UART 안 찍힐 때 — Bare-metal 체크리스트
- 117임베디드 부팅 실패 진단 — 단계별 Isolation
- 118인터럽트 누락·중복 진단 — Priority·Pending·Re-entry 추적
- 119메모리 오버플로우·오염 진단 — Canary·MPU·Pattern 분석
- 120타이밍·Race 진단 — Heisenbug 잡는 법
- 121통신 프로토콜 분석 — Logic Analyzer와 Protocol Decoder
- 122임베디드 로깅 시스템 설계 — 레벨·버퍼·SWO·Deferred
- 123임베디드 포스트모템 분석 — Core Dump와 Field Crash
- 124FPGA 기초 분석 — LUT·FF·BRAM·DSP 자원 구조
- 125Vivado 사용법 — Project·Constraint·Synth·Impl·Bitstream
- 126PCIe BAR 매핑 분석 — Config Space·Enumeration·MMIO 접근
- 127AXI 인터페이스 — AXI4·AXI4-Lite·AXI-Stream 비교
- 128Zynq PS-PL 통신 — GP·HP·ACP 인터페이스 선택
- 129Mailbox Protocol 분석 — Host와 Accelerator를 잇는 Doorbell
- 130Command Queue·Submission Queue — NVMe·XDMA 공통 패턴
- 131DMA Completion 메커니즘 — Interrupt·Polling·Completion Ring
- 132PCIe Streaming 분석 — BAR Type·MSI-X·Kernel Bypass
- 133Vitis HLS 분석 — Pragma·Pipeline II·Dataflow 실전 감각
- 134HLS 최적화 기법 — Pipeline·Unroll·Partition·Dataflow
- 135Vitis AI 분석 — DPU·xmodel·VART
- 136OpenCL on FPGA — Kernel·Channel·Burst Memory 분석
- 137Intel Quartus 사용법 — Platform Designer·Nios II·HLS
- 138Edge Inference 분석 — Cloud vs Edge·Latency·Privacy
- 139NPU 아키텍처 분석 — Ethos·Hexagon·Systolic Array 비교
- 140딥러닝 Quantization 분석 — PTQ·QAT·INT8·INT4·Calibration
- 141TensorRT 분석 — ONNX→Engine·FP16·INT8·DLA·Multi-Stream
- 142TFLite Micro 분석 — Op Resolver·Tensor Arena·Cortex-M
- 143ONNX Runtime 분석 — Execution Provider와 Cross-Platform 배포
- 144Edge Thermal Management — Throttling·DVFS·Fan Curve·Sustained
- 145NVIDIA Jetson 분석 — Nano·Xavier·Orin·Thor·JetPack·DLA·VPI
- 146Zero-Copy Camera Pipeline — V4L2·DMA-BUF·GPU Import·NPU 직결
- 147온디바이스 LLM 추론 — llama.cpp·GGUF·MLX·KV Cache·NPU Backend
- 148Cortex-M33 TF-M·TrustZone — Secure Firmware·PSA·MCUboot
- 149Matter·Thread 분석 — IoT 통합 표준·Commissioning·Multi-Fabric
- 150PCIe → CXL 진화 — 같은 PHY 위 cache-coherent 프로토콜 추가
- 151QEMU CXL Type 3 디바이스 에뮬레이션 — 노트북에서 CXL 개발 환경 구축
- 152Linux CXL 드라이버 분석 — cxl_pci·cxl_core·region·DAX
관련 글
Linux CXL 드라이버 분석 — cxl_pci·cxl_core·region·DAX
Linux kernel 6.x의 CXL 서브시스템 — cxl_pci·cxl_core·cxl_mem·region·DAX 모듈의 역할과 probe 흐름.
QEMU CXL Type 3 디바이스 에뮬레이션 — 노트북에서 CXL 개발 환경 구축
QEMU 8.0+ CXL 지원 — 노트북에서 CXL Type 3 디바이스를 에뮬레이션해 드라이버·BIOS 개발 환경 만들기.
PCIe → CXL 진화 — 같은 PHY 위 cache-coherent 프로토콜 추가
PCIe 5.0/6.0 PHY 위에서 CXL이 어떻게 cache coherency를 얹는지 — Flex Bus, 세 프로토콜 다중화, Type 1/2/3 디바이스 구분.
이 글을 참조하는 글 (8)
- 루트 파일시스템 구축 — Buildroot 기초·Package·Toolchain— Modern Embedded Recipes
- sysfs·configfs 활용 — kobject 기반 User 인터페이스— Modern Embedded Recipes
- UIO·VFIO 분석 — User-Space Driver와 IOMMU 격리— Modern Embedded Recipes
- mmap 4가지 모드 — Anonymous·File·Shared·Huge Page— Modern Embedded Recipes
- Platform 드라이버 작성 — probe·remove·of_match·DT 바인딩— Modern Embedded Recipes
- 캐릭터 드라이버 작성 — file_operations·cdev·register_chrdev— Modern Embedded Recipes
- 임베디드 커널 빌드 — defconfig·menuconfig·Image·zImage— Modern Embedded Recipes
- Device Tree Overlay 적용 — Runtime fragment·dtoverlay— Modern Embedded Recipes