mmap 4가지 모드 — Anonymous·File·Shared·Huge Page
#한 줄 요약
“mmap = page 단위로 메모리를 빌리는 가장 일반적인 syscall.” Anonymous로 큰 buffer를 얻든, file-backed로 zero-copy를 하든, shared로 IPC를 하든 모두 같은 시스템 콜 하나로 끝납니다.
#어떤 상황에서 쓰나
embedded DB 한 개가 수 GB 파일을 다루는데 read·write로 page cache를 두 번 거치면 사실상 RAM 대역폭이 절반으로 떨어집니다. LMDB나 SQLite 같은 라이브러리가 mmap 기반 access를 기본으로 쓰는 이유입니다.
DPDK·SPDK·V4L2처럼 user space에서 직접 hardware buffer를 보는 경우도 mmap이 통로 역할을 합니다. UIO·VFIO가 노출하는 MMIO 영역도 같은 mmap API로 잡습니다. Buffer를 한 번 mapping해 두면 syscall 없이 pointer access로 끝나니, kernel/user 경계 비용을 가장 직접적으로 줄이는 도구입니다.
#핵심 개념
mmap은 네 가지 조합으로 정리됩니다.
| Flags | 용도 |
|---|---|
MAP_PRIVATE + 익명 | malloc 대체 (큰 할당, page-aligned) |
MAP_SHARED + 익명 | fork된 자식과 page 공유 |
MAP_PRIVATE + 파일 | 실행파일 로드 (Copy-on-Write) |
MAP_SHARED + 파일 | DB·IPC (변경이 디스크로 반영) |
여기에 MAP_HUGETLB(2 MB·1 GB page), MAP_LOCKED(swap 차단), MAP_POPULATE(미리 page fault 처리) 같은 플래그가 더해집니다. Kernel은 mapping 정보를 VMA(struct vm_area_struct) 단위로 관리하고, 첫 접근에서 page fault가 일어날 때 실제 page를 할당합니다.
#코드 / 실제 사용 예
#1) Anonymous private — malloc 대체
size_t SZ = 16 * 1024 * 1024; /* 16 MB */void *p = mmap(NULL, SZ, PROT_READ | PROT_WRITE, MAP_PRIVATE | MAP_ANONYMOUS, -1, 0);if (p == MAP_FAILED) return -1;
memset(p, 0, SZ);munmap(p, SZ);glibc malloc도 큰 할당(기본 128 KB 이상)은 내부적으로 mmap을 호출합니다. 직접 부르면 page 정렬을 보장 받고, MAP_HUGETLB나 MAP_LOCKED 같은 플래그를 자유롭게 결합할 수 있습니다.
#2) Anonymous shared — fork 사이 공유
void *p = mmap(NULL, SZ, PROT_READ | PROT_WRITE, MAP_SHARED | MAP_ANONYMOUS, -1, 0);
pid_t pid = fork();if (pid == 0) { /* 자식 */ ((int*)p)[0] = 42; _exit(0);}wait(NULL);printf("%d\n", ((int*)p)[0]); /* 42 */MAP_PRIVATE였다면 자식이 COW로 새 page를 받아 부모에게 값이 보이지 않습니다. 작은 IPC면 pipe로 충분하지만, 수십 MB 데이터를 자주 주고받아야 하면 shared mmap이 가장 단순합니다.
#3) File-backed private — 실행파일 로드
int fd = open("/usr/lib/libssl.so.3", O_RDONLY);struct stat st; fstat(fd, &st);
void *p = mmap(NULL, st.st_size, PROT_READ | PROT_EXEC, MAP_PRIVATE, fd, 0);
/* 코드 실행은 가능, write는 COW로 새 page */munmap(p, st.st_size);close(fd);리눅스의 모든 실행파일·라이브러리는 이 모드로 로드됩니다. .text 섹션은 공유되고, .data는 첫 write 시 복제됩니다.
#4) File-backed shared — DB·로그·zero-copy
int fd = open("data.bin", O_RDWR);struct stat st; fstat(fd, &st);
uint32_t *p = mmap(NULL, st.st_size, PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0);p[0]++; /* 디스크에 반영됨 */msync(p, sizeof(uint32_t), MS_SYNC);munmap(p, st.st_size);close(fd);LMDB·SQLite mmap mode·boltdb가 모두 이 패턴입니다. read·write보다 syscall이 적고, 같은 파일을 두 process가 mmap하면 같은 physical page를 봅니다.
#madvise — kernel에 힌트 주기
madvise(p, SZ, MADV_SEQUENTIAL); /* 읽기 순방향 → readahead 강화 */madvise(p, SZ, MADV_RANDOM); /* readahead 끔 */madvise(p, SZ, MADV_DONTNEED); /* page 해제, 다음 접근 = zero-fill */madvise(p, SZ, MADV_HUGEPAGE); /* THP 사용 시도 */madvise(p, SZ, MADV_WILLNEED); /* 미리 readahead */비디오 player처럼 sequential read가 분명하면 MADV_SEQUENTIAL이 first-byte latency를 줄여 줍니다. DB index lookup처럼 random이면 MADV_RANDOM으로 readahead로 인한 cache 오염을 막습니다.
#Huge Page — TLB miss 줄이기
/* 2 MB huge page, x86_64 기준 */void *p = mmap(NULL, 32 * 1024 * 1024, PROT_READ | PROT_WRITE, MAP_PRIVATE | MAP_ANONYMOUS | MAP_HUGETLB, -1, 0);echo 1024 > /proc/sys/vm/nr_hugepages # 사전 예약cat /proc/meminfo | grep HugeARM은 page size에 따라 16 KB·32 KB·64 KB·2 MB 등 단계가 다양합니다. THP(Transparent Huge Page)를 켜 두면 kernel이 백그라운드에서 4 KB page를 2 MB로 합쳐 줍니다.
#mlock — swap 차단·page fault 회피
void *p = mmap(NULL, SZ, PROT_READ | PROT_WRITE, MAP_PRIVATE | MAP_ANONYMOUS | MAP_LOCKED, -1, 0);mlock(p, SZ);/* 또는 mlockall(MCL_CURRENT | MCL_FUTURE); */PREEMPT_RT 응용은 시작 시 모든 page를 prefault하고 lock합니다. 제어 루프 도중 disk page fault가 들어오면 수십 ms 단위 지연이 생기기 때문입니다.
#UIO·V4L2에서 DMA 영역 mmap
int fd = open("/dev/uio0", O_RDWR);void *bar = mmap(NULL, 4096, PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0);
volatile uint32_t *reg = bar;reg[CTRL] = 1; /* MMIO write */UIO·VFIO가 매핑하는 영역은 자동으로 non-cacheable 또는 device memory로 설정됩니다. volatile을 빼면 compiler가 register 접근을 제거할 수 있으니 주의합니다.
#측정 / 성능 비교
1 GB 파일을 sequential하게 한 번 훑었을 때입니다.
| 방식 | 시간 | CPU |
|---|---|---|
| read(fd, 4K) 루프 | 0.85 s | 58% |
| mmap + memcpy | 0.41 s | 30% |
| mmap + 직접 access | 0.30 s | 18% |
| mmap + MADV_SEQUENTIAL | 0.24 s | 16% |
TLB miss 영향이 큰 워크로드에 huge page를 적용했을 때입니다.
| 구성 | TLB miss/sec | 실행 시간 |
|---|---|---|
| 4 KB page | 12 M | 1.80 s |
| THP (2 MB) 자동 | 1.4 M | 1.05 s |
MAP_HUGETLB 명시 (2 MB) | 0.9 M | 0.92 s |
| 1 GB huge page | 0.1 M | 0.81 s |
DPDK 성능 가이드가 huge page를 강하게 권장하는 이유가 여기에 있습니다.
#자주 보는 함정
파일 크기 vs mapping 크기
int fd = open("data.bin", O_RDWR);void *p = mmap(NULL, 1 << 20, PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0);((char*)p)[1 << 20 - 1] = 'x'; /* SIGBUS 가능 */mapping 길이가 실제 파일보다 크면 hole 영역에 접근할 때 SIGBUS가 발생합니다. 미리 ftruncate로 크기를 맞추는 것이 안전합니다.
Page 정렬 가정
void *p = mmap(NULL, 5000, ...); /* size 비정렬 */mmap은 길이를 page size로 올림합니다. 반환된 영역의 정확한 끝은 sysconf(_SC_PAGESIZE)로 확인해 두는 편이 안전합니다.
fork직후MAP_PRIVATEpage에 대량 쓰기
void *p = mmap(NULL, BIG, PROT_READ | PROT_WRITE, MAP_PRIVATE | MAP_ANONYMOUS, -1, 0);fork();/* 자식이 모든 page에 write → COW 폭주 */자식이 큰 mapping을 통째로 dirty 시키면 fork 직후 수백 ms 단위 latency가 튀어 오릅니다. 큰 buffer는 MAP_SHARED 또는 MAP_ANONYMOUS | MAP_SHARED로 두는 편이 안정적입니다.
mmap후munmap누락
void *p = mmap(...);return; /* munmap 빠짐 */RAII가 없는 C에서는 잊기 쉽습니다. process가 끝날 때 정리되지만, 장시간 동작하는 daemon에서는 VMA 수가 누적돼 vm.max_map_count를 넘기는 사고가 종종 발생합니다.
Huge page 부족
void *p = mmap(..., MAP_HUGETLB, -1, 0); /* ENOMEM *//proc/meminfo의 HugePages_Free가 0이면 실패합니다. 부팅 cmdline에 hugepages=나 sysctl로 미리 확보합니다.
#정리
mmap은 anonymous·file 두 축에 private·shared 두 축을 곱한 네 가지 모드가 모두 같은 API로 표현됩니다.- 큰 buffer는
mmap한 번이malloc보다 정렬·flag 측면에서 자유롭습니다. madvise로 sequential·random·DONTNEED·HUGEPAGE 같은 힌트를 명시하면 page cache 효율이 분명히 달라집니다.- Huge page는 TLB miss가 많은 워크로드에서 수 배 단위 개선을 만들고, DPDK·DB가 표준으로 사용합니다.
mlock은 RT 응용에서 page fault로 인한 jitter를 차단합니다.- UIO·VFIO 디바이스의 MMIO 영역도 mmap 한 줄로 user space에서 접근할 수 있습니다.
- 파일 크기·page 정렬·HugePages 예약 같은 환경 조건이 안 맞으면
mmap은 조용히SIGBUS나ENOMEM을 던집니다.
다음 편은 epoll입니다.
#관련 항목
Modern Embedded Recipes · 84 of 152
- 1Modern Embedded Recipes — 모던 임베디드 실전 레시피 시리즈 소개
- 2디지털 신호 기초 — Voltage Level·Edge·Setup/Hold 분석
- 3임베디드 클럭과 타이밍 — Skew·Jitter·PLL·MMCM 분석
- 4GPIO 내부 구조 분해 — Push-Pull·Open-Drain·Schmitt Trigger
- 5UART 하드웨어 동작 분석 — Baud Rate·Framing·FIFO
- 6SPI 하드웨어 분석 — Clock Mode·MOSI/MISO·Chip Select
- 7I2C 하드웨어 분석 — Open-Drain·Clock Stretching·Arbitration
- 8ADC 동작 원리 — SAR·Sigma-Delta·Pipelined 비교
- 9DAC 동작 원리 — R-2R Ladder·Sigma-Delta·Settling Time
- 10PWM 신호 생성 분석 — Duty·Frequency·Dead Time·Center-Aligned
- 11CAN 버스 전기적 특성 — Differential·Termination·Dominant/Recessive
- 12RS-485·RS-422 차동 신호 분석 — Termination·Biasing·Topology
- 13LVDS 차동 신호 분석 — Common-Mode·Impedance·Eye Pattern
- 14ARM Cortex-M 시리즈 비교 — M0·M3·M4·M7·M33·M55 분석
- 15ARM Cortex-A 시리즈 비교 — A53·A55·A72·A78·X1 분석
- 16ARM 레지스터 구조 분석 — R0~R15·CPSR·SPSR·Banked Registers
- 17Cortex-M 예외 처리 — Vector Table·NVIC·Tail-Chaining 추적
- 18ARM 메모리 맵 분석 — Normal·Device·Strongly-Ordered Region
- 19ARM L1·L2 캐시 분석 — Set Associative·Inclusive·Maintenance
- 20ARM MPU 활용 — Region·Attribute·Privilege Separation
- 21ARM MMU 기초 분석 — Translation Table·TLB·ASID
- 22ARM TrustZone-M 기초 — Secure/Non-Secure·NSC·MPC
- 23ARM Memory Barrier 실전 — DMB·DSB·ISB·DMA·MMIO
- 24임베디드 크로스 컴파일러 분석 — GCC·Clang·Sysroot 구성
- 25C 컴파일 4단계 — Preprocess·Compile·Assemble·Link 추적
- 26ELF 파일 구조 분석 — Section·Segment·Symbol Table·DWARF
- 27링커 스크립트 기초 — SECTIONS·MEMORY·entry point
- 28링커 스크립트 고급 — Overlay·BSS·init_array·LMA/VMA
- 29임베디드 스타트업 코드 분석 — Reset_Handler·Vector Table·SystemInit
- 30C 런타임 crt0 분석 — Stack·BSS Zero·Data Copy·atexit
- 31임베디드 메모리 레이아웃 — .text·.rodata·.data·.bss·.heap·.stack
- 32임베디드 컴파일러 최적화 분석 — -O0~-O3·-Os·-LTO 비교
- 33Map 파일 분석 — Symbol·Section·Size 추적으로 코드 크기 진단
- 34Make·CMake 크로스 컴파일 — Toolchain File·Sysroot 통합
- 35임베디드 Bootloader 체인 — BootROM·SPL·U-Boot·Kernel·Secure Boot
- 36첫 bare-metal 프로그램 작성 — Linker·Startup·main의 최소 구성
- 37MMIO 레지스터 직접 접근 — volatile·Memory Map·Aliasing 분석
- 38GPIO 드라이버 직접 구현 — STM32 HAL 없이 레지스터로
- 39임베디드 클럭 설정 분석 — HSE·PLL·SYSCLK·AHB/APB 분주
- 40Cortex-M 인터럽트 핸들링 — NVIC·Priority·Vector·EXTI
- 41SysTick 타이머 활용 — 24-bit Counter·1ms Tick·delay 구현
- 42UART 드라이버 구현 — polling·interrupt·DMA 3가지 방식 비교
- 43SPI 드라이버 구현 — Master·Slave·CRC·DMA
- 44I2C 드라이버 구현 — Master·7-bit/10-bit·Clock Stretching 처리
- 45임베디드 DMA 기초 — Memory-to-Memory·Peripheral·Circular Mode
- 46저전력 모드 분석 — Sleep·Stop·Standby·Wake-up Source
- 47IWDG·WWDG 워치독 구현 — Independent vs Window 비교
- 48임베디드 Flash 프로그래밍 — Erase·Program·Read While Write
- 49DDR 초기화 실패 진단 — Timing·Calibration·Walking Bit Test
- 50PWM 출력 실전 — LED 밝기·모터 속도 제어
- 51DC 모터 제어 — H-Bridge·PWM Duty·Encoder Feedback
- 52스테퍼 모터 제어 — Full Step·Half Step·Microstepping
- 53서보 모터 제어 — PWM 1ms~2ms·Closed Loop·PID
- 54Character LCD 제어 — HD44780·4-bit Mode·Custom Char
- 55SPI OLED 제어 — SSD1306·Frame Buffer·Page 단위 갱신
- 56TFT 디스플레이 구동 — RGB565·FSMC·LTDC·DMA2D
- 57환경 센서 활용 — BME280 온습압·SHT3x·BMP180 비교
- 58IMU 센서 활용 — MPU6050·LSM6DSO·Sensor Fusion
- 59CAN 통신 구현 — bxCAN·Filter·Mailbox·CAN-FD
- 60USB Device 기초 — Descriptor·Enumeration·Endpoint·HID/CDC
- 61Ethernet MAC+PHY 통합 — RMII·lwIP·DMA Descriptor
- 62SD Card + FatFs 구현 — SPI/SDIO 모드·CSD/CID·Wear
- 63RTC 활용 — Calendar·Alarm·Wake-up Timer·Backup Domain
- 64RTOS 도입 결정 분석 — Super Loop vs RTOS 트레이드오프
- 65RTOS Task 설계 패턴 — 우선순위·스택·State Machine
- 66RTOS Scheduler 동작 분석 — Tick·Context Switch·Yield
- 67RTOS Semaphore 활용 — Binary·Counting·ISR Give
- 68RTOS Mutex 활용 — Recursive·Priority Inheritance 적용
- 69RTOS Queue 활용 — By-Value·By-Reference·Timeout 패턴
- 70RTOS Event Group 활용 — Bit Wait·Sync·Notify
- 71RTOS Software Timer 활용 — One-shot·Auto-reload·Daemon Task
- 72ISR-Safe API 설계 — Reentrant·Atomic·Defer 패턴
- 73Priority Inversion 진단·예방 — Mars Pathfinder Lesson 추적
- 74Timer Wheel 분석 — Hashed·Hierarchical·O(1) Tick
- 75RTOS 디버깅 기법 — Tracealyzer·SystemView·Stack 추적
- 76임베디드 Linux 부팅 흐름 분석 — BootROM·U-Boot·Kernel·init
- 77U-Boot 활용 — bootcmd·env·tftp·boot.scr 분석
- 78Device Tree 실전 — DTS·DTB·Overlay·Phandle 추적
- 79Device Tree Overlay 적용 — Runtime fragment·dtoverlay
- 80임베디드 커널 빌드 — defconfig·menuconfig·Image·zImage
- 81커널 모듈 기초 — init/exit·Parameter·KBuild·DKMS
- 82캐릭터 드라이버 작성 — file_operations·cdev·register_chrdev
- 83Platform 드라이버 작성 — probe·remove·of_match·DT 바인딩
- 84mmap 4가지 모드 — Anonymous·File·Shared·Huge Page
- 85epoll 실전 — LT·ET·ONESHOT·EXCLUSIVE 비교
- 86UIO·VFIO 분석 — User-Space Driver와 IOMMU 격리
- 87sysfs·configfs 활용 — kobject 기반 User 인터페이스
- 88IRQ Affinity 튜닝 — smp_affinity·isolcpus·irqbalance
- 89루트 파일시스템 구축 — Buildroot 기초·Package·Toolchain
- 90임베디드 동적 메모리 — malloc 위험·결정성·대안 분석
- 91메모리 정렬과 패딩 분석 — Natural·Strict Alignment·Trap
- 92Cache Line Alignment — alignas·Padding·SoA 적용
- 93DMA-Friendly Allocator — dma_alloc_coherent·IOMMU·Pool
- 94Zero-Copy Pipeline — DMA-BUF·sendfile·io_uring·splice
- 95NUMA Memory Topology — numactl·numa_alloc·HBM 적용
- 96SIMD 활용 분석 — Intrinsics·Auto-Vectorization·OpenMP SIMD
- 97ARM NEON 심화 — Matrix Multiply·FFT·Image Filter 적용
- 98임베디드 스택 분석 — high-water·overflow 탐지
- 99임베디드 코드 크기 최적화 — -Os·LTO·Section Garbage Collection
- 100임베디드 전력 최적화 — Sleep Mode·Clock Gating·DVFS
- 101WCET 분석 기법 — Static·Measurement·Hybrid 방법론
- 102Lock-Free Ring Buffer 구현 — SPSC·Power-of-2·Memory Order
- 103Wait-Free Signaling — Atomic Flag·Sequence·Latest-Value
- 104RCU (Read-Copy-Update) 기초 — Quiescent State·Grace Period
- 105Hazard Pointer 분석 — Lock-Free Memory Reclamation
- 106Compare-And-Swap 패턴 — Stack·Counter·Linked List 적용
- 107Atomic Operation 비용 분석 — Fence·Cache Line·Contention
- 108Spinlock vs Mutex 결정 가이드 — Context Switch·Hold Time
- 109ABA 문제 회피 — Tagged Pointer·Hazard·Generation Counter
- 110False Sharing 해결 — Cache Line Padding·SoA 적용
- 111MPMC Queue 구현 — Multi-producer Multi-consumer Lock-Free
- 112임베디드 디버깅 마인드셋 — 가설·격리·재현·이분탐색
- 113JTAG·SWD 안 붙을 때 — 핀·전압·속도·세션 진단
- 114GDB 원격 디버깅 — OpenOCD·J-Link·target remote 구성
- 115Cortex-M 하드폴트 분석 — Stacked Frame·CFSR 읽기
- 116UART 안 찍힐 때 — Bare-metal 체크리스트
- 117임베디드 부팅 실패 진단 — 단계별 Isolation
- 118인터럽트 누락·중복 진단 — Priority·Pending·Re-entry 추적
- 119메모리 오버플로우·오염 진단 — Canary·MPU·Pattern 분석
- 120타이밍·Race 진단 — Heisenbug 잡는 법
- 121통신 프로토콜 분석 — Logic Analyzer와 Protocol Decoder
- 122임베디드 로깅 시스템 설계 — 레벨·버퍼·SWO·Deferred
- 123임베디드 포스트모템 분석 — Core Dump와 Field Crash
- 124FPGA 기초 분석 — LUT·FF·BRAM·DSP 자원 구조
- 125Vivado 사용법 — Project·Constraint·Synth·Impl·Bitstream
- 126PCIe BAR 매핑 분석 — Config Space·Enumeration·MMIO 접근
- 127AXI 인터페이스 — AXI4·AXI4-Lite·AXI-Stream 비교
- 128Zynq PS-PL 통신 — GP·HP·ACP 인터페이스 선택
- 129Mailbox Protocol 분석 — Host와 Accelerator를 잇는 Doorbell
- 130Command Queue·Submission Queue — NVMe·XDMA 공통 패턴
- 131DMA Completion 메커니즘 — Interrupt·Polling·Completion Ring
- 132PCIe Streaming 분석 — BAR Type·MSI-X·Kernel Bypass
- 133Vitis HLS 분석 — Pragma·Pipeline II·Dataflow 실전 감각
- 134HLS 최적화 기법 — Pipeline·Unroll·Partition·Dataflow
- 135Vitis AI 분석 — DPU·xmodel·VART
- 136OpenCL on FPGA — Kernel·Channel·Burst Memory 분석
- 137Intel Quartus 사용법 — Platform Designer·Nios II·HLS
- 138Edge Inference 분석 — Cloud vs Edge·Latency·Privacy
- 139NPU 아키텍처 분석 — Ethos·Hexagon·Systolic Array 비교
- 140딥러닝 Quantization 분석 — PTQ·QAT·INT8·INT4·Calibration
- 141TensorRT 분석 — ONNX→Engine·FP16·INT8·DLA·Multi-Stream
- 142TFLite Micro 분석 — Op Resolver·Tensor Arena·Cortex-M
- 143ONNX Runtime 분석 — Execution Provider와 Cross-Platform 배포
- 144Edge Thermal Management — Throttling·DVFS·Fan Curve·Sustained
- 145NVIDIA Jetson 분석 — Nano·Xavier·Orin·Thor·JetPack·DLA·VPI
- 146Zero-Copy Camera Pipeline — V4L2·DMA-BUF·GPU Import·NPU 직결
- 147온디바이스 LLM 추론 — llama.cpp·GGUF·MLX·KV Cache·NPU Backend
- 148Cortex-M33 TF-M·TrustZone — Secure Firmware·PSA·MCUboot
- 149Matter·Thread 분석 — IoT 통합 표준·Commissioning·Multi-Fabric
- 150PCIe → CXL 진화 — 같은 PHY 위 cache-coherent 프로토콜 추가
- 151QEMU CXL Type 3 디바이스 에뮬레이션 — 노트북에서 CXL 개발 환경 구축
- 152Linux CXL 드라이버 분석 — cxl_pci·cxl_core·region·DAX
관련 글
Linux CXL 드라이버 분석 — cxl_pci·cxl_core·region·DAX
Linux kernel 6.x의 CXL 서브시스템 — cxl_pci·cxl_core·cxl_mem·region·DAX 모듈의 역할과 probe 흐름.
QEMU CXL Type 3 디바이스 에뮬레이션 — 노트북에서 CXL 개발 환경 구축
QEMU 8.0+ CXL 지원 — 노트북에서 CXL Type 3 디바이스를 에뮬레이션해 드라이버·BIOS 개발 환경 만들기.
PCIe → CXL 진화 — 같은 PHY 위 cache-coherent 프로토콜 추가
PCIe 5.0/6.0 PHY 위에서 CXL이 어떻게 cache coherency를 얹는지 — Flex Bus, 세 프로토콜 다중화, Type 1/2/3 디바이스 구분.