DMA-Friendly Allocator — dma_alloc_coherent·IOMMU·Pool
#한 줄 요약
“DMA buffer는 physically contiguous, cache-coherent 또는 non-cacheable, line-aligned여야 한다.” 일반
malloc결과는 세 조건 모두 충족하지 못합니다.
#어떤 상황에서 쓰나
Cortex-M7 보드에서 ADC가 DMA로 buffer에 값을 채우는데 CPU가 읽으면 옛 값만 보입니다. Cache가 invalidate되지 않은 탓입니다. 반대로 CPU가 buffer에 데이터를 채우고 DMA를 시작했는데 실제 송신된 내용이 예전 값이라면 cache가 flush되지 않은 것입니다.
Linux 드라이버에서는 IOMMU 없는 SoC에 malloc으로 잡은 buffer를 그대로 DMA address로 넘기면 가상 주소를 물리 주소로 착각해 엉뚱한 메모리가 전송됩니다. DMA buffer만큼은 일반 allocator와 분리해서 다뤄야 합니다.
#핵심 개념
DMA buffer가 만족해야 할 다섯 가지입니다.
- Physically contiguous — DMA는 MMU를 모름
- Cache 일관성 — coherent or 명시 maintenance
- Alignment — burst, SIMD, cache line
- DMA addressable — 32-bit 또는 64-bit 한계
- Allocator overhead 적음 — 자주 alloc/free하는 경우
Coherent와 streaming 두 모드를 구분해서 씁니다. Coherent는 non-cacheable 또는 cache-coherent 영역에서 잡아 매 접근마다 cache 관리를 생략합니다. Streaming은 일반 cacheable buffer를 임시로 DMA에 빌려주고 시작·완료 시점에 cache flush/invalidate를 명시합니다.
#코드 / 실제 사용 예
#Linux dma_alloc_coherent
#include <linux/dma-mapping.h>
dma_addr_t dma_handle;void *cpu_addr = dma_alloc_coherent(dev, 4096, &dma_handle, GFP_KERNEL);/* cpu_addr = virtual, dma_handle = physical 또는 IOVA */
memcpy(cpu_addr, data, len);HW_REG_SET_DMA_ADDR(dma_handle);HW_REG_DMA_START();
dma_free_coherent(dev, 4096, cpu_addr, dma_handle);Coherent는 cache 관리 호출이 필요 없습니다. Audio·video·network ring처럼 오래 유지하는 buffer에 어울립니다.
#Streaming mapping
dma_addr_t dma = dma_map_single(dev, kbuf, len, DMA_TO_DEVICE);HW_DMA_TX(dma, len);wait_dma_done();dma_unmap_single(dev, dma, len, DMA_TO_DEVICE);방향별 cache 동작입니다.
| Direction | Cache 동작 |
|---|---|
DMA_TO_DEVICE | flush before, no invalidate after |
DMA_FROM_DEVICE | no flush, invalidate after |
DMA_BIDIRECTIONAL | flush before, invalidate after |
일반 cacheable buffer를 그대로 활용할 수 있어 CPU read/write가 잦은 경우 coherent보다 빠릅니다.
#Scatter-Gather
struct sg_table sgt;sg_alloc_table(&sgt, NUM_BUFS, GFP_KERNEL);
for (int i = 0; i < NUM_BUFS; i++) { sg_set_buf(&sgt.sgl[i], buffers[i], BUF_SIZE);}
dma_map_sg(dev, sgt.sgl, NUM_BUFS, DMA_TO_DEVICE);hw_dma_start_sg(&sgt);여러 비연속 buffer를 한 transaction으로 묶습니다. 네트워크 NIC와 NVMe 드라이버가 표준으로 씁니다.
#CMA — 큰 연속 영역 예약
reserved-memory { cma_buffer: cma_buffer { compatible = "shared-dma-pool"; reusable; size = <0x40000000>; /* 1 GB */ alignment = <0x100000>; linux,cma-default; };};void *p = dma_alloc_coherent(dev, 16 * 1024 * 1024, &handle, GFP_KERNEL);/* CMA pool에서 16 MB 연속 */카메라 frame, 디스플레이 buffer, video codec처럼 수십 MB 단위 연속 메모리가 필요한 경우 CMA가 표준입니다.
#IOMMU/SMMU
IOMMU 없음 DMA address = physical address device가 임의 physical memory 접근 가능 (보안 약함)
IOMMU 있음 (ARM SMMU) DMA address = IOVA SMMU page table이 허용된 영역만 translate container/VM 격리 가능dma_addr_t iova = dma_map_single(dev, kbuf, len, DMA_TO_DEVICE);/* iova != physical addr, SMMU가 translate */자동차와 서버 SoC는 SMMU가 표준입니다. DMA address를 그대로 physical로 가정하면 안 됩니다.
#FreeRTOS static DMA pool
__attribute__((section(".dma_buffer"), aligned(64)))static uint8_t dma_pool_storage[POOL_SIZE * BLOCK_SIZE];
struct dma_pool { uint8_t *free_list; SemaphoreHandle_t lock;};
void *dma_pool_alloc(struct dma_pool *p) { xSemaphoreTake(p->lock, portMAX_DELAY); void *b = p->free_list; if (b) p->free_list = *(void**)b; xSemaphoreGive(p->lock); return b;}Linker section으로 DMA 전용 SRAM bank에 박아 두고 MPU에서 non-cacheable로 설정합니다. Cache 관리 자체가 필요 없어집니다.
#Linker script로 non-cacheable 영역 지정
MEMORY { AXI_SRAM (rwx) : ORIGIN = 0x24000000, LENGTH = 512K DMA_RAM (rwx) : ORIGIN = 0x30000000, LENGTH = 32K /* SRAM2 */}
SECTIONS { .dma_buffer (NOLOAD) : { *(.dma_buffer) } > DMA_RAM}STM32H7는 AXI SRAM과 별도의 SRAM bank를 가지므로 DMA 전용으로 한 bank를 통째로 비워둘 수 있습니다.
#Cortex-M7 MPU non-cacheable region
HAL_MPU_Disable();
MPU_Region_InitTypeDef region = {0};region.BaseAddress = 0x30000000;region.Size = MPU_REGION_SIZE_32KB;region.AccessPermission = MPU_REGION_FULL_ACCESS;region.IsBufferable = MPU_ACCESS_BUFFERABLE;region.IsCacheable = MPU_ACCESS_NOT_CACHEABLE;region.IsShareable = MPU_ACCESS_NOT_SHAREABLE;region.Number = MPU_REGION_NUMBER0;HAL_MPU_ConfigRegion(®ion);
HAL_MPU_Enable(MPU_PRIVILEGED_DEFAULT);이 영역의 buffer는 cache 관리 호출이 필요 없습니다. DMA가 쓴 값을 CPU가 바로 읽고, CPU가 쓴 값을 DMA가 바로 가져갑니다.
#DPDK HugePages
rte_eal_init(argc, argv);struct rte_mempool *mp = rte_pktmbuf_pool_create("MP", 8192, 256, 0, RTE_MBUF_DEFAULT_BUF_SIZE, rte_socket_id());10G 이상의 네트워크는 user space에서 HugePages 기반 buffer를 잡아 NIC에 직접 mapping합니다. Kernel을 우회하면서 IOMMU page walk overhead도 줄어듭니다.
#측정 / 성능 비교
STM32H7 ADC를 16 kHz로 받는 코드에서 buffer 위치를 바꿔 측정한 결과입니다.
| Buffer 위치 | cache 관리 | latency 변동 |
|---|---|---|
| AXI SRAM cacheable | Clean+Invalidate | 큼 (수 µs jitter) |
| DTCM (cacheable) | Clean+Invalidate | 작음 |
| SRAM2 non-cacheable MPU | 없음 | 가장 작음 |
Cache 관리는 line 단위로 동작하므로 buffer 크기에 비례해 latency가 커집니다. RT 경로에서는 non-cacheable 영역이 가장 예측 가능합니다.
Linux NVMe 4 KB read일반 buffer + map_single ~120 µsHugePage + pre-mapped ~80 µsio_uring + fixed buffer ~60 µsMapping overhead를 한 번에 끝내는 fixed buffer 방식이 latency를 절반 가까이 줄입니다.
#자주 보는 함정
malloc결과를 DMA로
uint8_t *buf = malloc(1024);HAL_DMA_Start(&hdma, src, (uint32_t)buf, 1024);malloc은 cacheable, 단편화된 가상 주소를 돌려줍니다. DMA buffer는 별도 풀에서 잡아야 합니다.
Stack에 DMA buffer
void func(void) { uint8_t buf[256]; HAL_DMA_Start_IT(&hdma, src, (uint32_t)buf, 256); return; /* buf 사라진 뒤에도 DMA 진행 중 */}Static이나 heap에 잡습니다. ISR 모드 DMA는 호출자가 buffer를 살려 두어야 합니다.
Cache maintenance 누락
fill_data(dma_buf, len);DMA_start(dma_buf, len); /* DMA가 옛 cache 값을 read */Cacheable buffer를 streaming으로 쓸 때는 SCB_CleanDCache_by_Addr나 dma_map_single을 명시해야 합니다.
가상 주소를 DMA address로
DMA_REG = (uint32_t)cpu_addr; /* 가상 주소 — IOMMU/MMU 환경에서 깨짐 */dma_handle이나 physical 주소를 써야 합니다.
32B line MCU에서 64B 정렬만 신경 쓰는 경우
Cache 관리 단위는 line 크기 그대로입니다. 정렬은 line 크기에 맞춰야 invalidate가 옆 line을 건드리지 않습니다.
#정리
- DMA buffer는 contiguous, 정렬, cache 관리 세 조건을 모두 충족해야 합니다.
- Coherent는 cache 관리 없이 단순하고, streaming은 cacheable 성능을 활용합니다.
- 큰 연속 영역은 CMA로 boot 시 예약합니다.
- IOMMU/SMMU 환경에서는 DMA address가 IOVA이지 physical이 아닙니다.
- Cortex-M에서는 MPU non-cacheable region + linker section이 가장 단순합니다.
- Stack과 일반
malloc결과는 DMA buffer로 쓰지 않습니다. - 측정 시 cache 관리 호출이 latency jitter의 주요 원인인지 우선 확인합니다.
다음 편은 Zero-Copy Pipeline입니다.
#관련 항목
Modern Embedded Recipes · 93 of 152
- 1Modern Embedded Recipes — 모던 임베디드 실전 레시피 시리즈 소개
- 2디지털 신호 기초 — Voltage Level·Edge·Setup/Hold 분석
- 3임베디드 클럭과 타이밍 — Skew·Jitter·PLL·MMCM 분석
- 4GPIO 내부 구조 분해 — Push-Pull·Open-Drain·Schmitt Trigger
- 5UART 하드웨어 동작 분석 — Baud Rate·Framing·FIFO
- 6SPI 하드웨어 분석 — Clock Mode·MOSI/MISO·Chip Select
- 7I2C 하드웨어 분석 — Open-Drain·Clock Stretching·Arbitration
- 8ADC 동작 원리 — SAR·Sigma-Delta·Pipelined 비교
- 9DAC 동작 원리 — R-2R Ladder·Sigma-Delta·Settling Time
- 10PWM 신호 생성 분석 — Duty·Frequency·Dead Time·Center-Aligned
- 11CAN 버스 전기적 특성 — Differential·Termination·Dominant/Recessive
- 12RS-485·RS-422 차동 신호 분석 — Termination·Biasing·Topology
- 13LVDS 차동 신호 분석 — Common-Mode·Impedance·Eye Pattern
- 14ARM Cortex-M 시리즈 비교 — M0·M3·M4·M7·M33·M55 분석
- 15ARM Cortex-A 시리즈 비교 — A53·A55·A72·A78·X1 분석
- 16ARM 레지스터 구조 분석 — R0~R15·CPSR·SPSR·Banked Registers
- 17Cortex-M 예외 처리 — Vector Table·NVIC·Tail-Chaining 추적
- 18ARM 메모리 맵 분석 — Normal·Device·Strongly-Ordered Region
- 19ARM L1·L2 캐시 분석 — Set Associative·Inclusive·Maintenance
- 20ARM MPU 활용 — Region·Attribute·Privilege Separation
- 21ARM MMU 기초 분석 — Translation Table·TLB·ASID
- 22ARM TrustZone-M 기초 — Secure/Non-Secure·NSC·MPC
- 23ARM Memory Barrier 실전 — DMB·DSB·ISB·DMA·MMIO
- 24임베디드 크로스 컴파일러 분석 — GCC·Clang·Sysroot 구성
- 25C 컴파일 4단계 — Preprocess·Compile·Assemble·Link 추적
- 26ELF 파일 구조 분석 — Section·Segment·Symbol Table·DWARF
- 27링커 스크립트 기초 — SECTIONS·MEMORY·entry point
- 28링커 스크립트 고급 — Overlay·BSS·init_array·LMA/VMA
- 29임베디드 스타트업 코드 분석 — Reset_Handler·Vector Table·SystemInit
- 30C 런타임 crt0 분석 — Stack·BSS Zero·Data Copy·atexit
- 31임베디드 메모리 레이아웃 — .text·.rodata·.data·.bss·.heap·.stack
- 32임베디드 컴파일러 최적화 분석 — -O0~-O3·-Os·-LTO 비교
- 33Map 파일 분석 — Symbol·Section·Size 추적으로 코드 크기 진단
- 34Make·CMake 크로스 컴파일 — Toolchain File·Sysroot 통합
- 35임베디드 Bootloader 체인 — BootROM·SPL·U-Boot·Kernel·Secure Boot
- 36첫 bare-metal 프로그램 작성 — Linker·Startup·main의 최소 구성
- 37MMIO 레지스터 직접 접근 — volatile·Memory Map·Aliasing 분석
- 38GPIO 드라이버 직접 구현 — STM32 HAL 없이 레지스터로
- 39임베디드 클럭 설정 분석 — HSE·PLL·SYSCLK·AHB/APB 분주
- 40Cortex-M 인터럽트 핸들링 — NVIC·Priority·Vector·EXTI
- 41SysTick 타이머 활용 — 24-bit Counter·1ms Tick·delay 구현
- 42UART 드라이버 구현 — polling·interrupt·DMA 3가지 방식 비교
- 43SPI 드라이버 구현 — Master·Slave·CRC·DMA
- 44I2C 드라이버 구현 — Master·7-bit/10-bit·Clock Stretching 처리
- 45임베디드 DMA 기초 — Memory-to-Memory·Peripheral·Circular Mode
- 46저전력 모드 분석 — Sleep·Stop·Standby·Wake-up Source
- 47IWDG·WWDG 워치독 구현 — Independent vs Window 비교
- 48임베디드 Flash 프로그래밍 — Erase·Program·Read While Write
- 49DDR 초기화 실패 진단 — Timing·Calibration·Walking Bit Test
- 50PWM 출력 실전 — LED 밝기·모터 속도 제어
- 51DC 모터 제어 — H-Bridge·PWM Duty·Encoder Feedback
- 52스테퍼 모터 제어 — Full Step·Half Step·Microstepping
- 53서보 모터 제어 — PWM 1ms~2ms·Closed Loop·PID
- 54Character LCD 제어 — HD44780·4-bit Mode·Custom Char
- 55SPI OLED 제어 — SSD1306·Frame Buffer·Page 단위 갱신
- 56TFT 디스플레이 구동 — RGB565·FSMC·LTDC·DMA2D
- 57환경 센서 활용 — BME280 온습압·SHT3x·BMP180 비교
- 58IMU 센서 활용 — MPU6050·LSM6DSO·Sensor Fusion
- 59CAN 통신 구현 — bxCAN·Filter·Mailbox·CAN-FD
- 60USB Device 기초 — Descriptor·Enumeration·Endpoint·HID/CDC
- 61Ethernet MAC+PHY 통합 — RMII·lwIP·DMA Descriptor
- 62SD Card + FatFs 구현 — SPI/SDIO 모드·CSD/CID·Wear
- 63RTC 활용 — Calendar·Alarm·Wake-up Timer·Backup Domain
- 64RTOS 도입 결정 분석 — Super Loop vs RTOS 트레이드오프
- 65RTOS Task 설계 패턴 — 우선순위·스택·State Machine
- 66RTOS Scheduler 동작 분석 — Tick·Context Switch·Yield
- 67RTOS Semaphore 활용 — Binary·Counting·ISR Give
- 68RTOS Mutex 활용 — Recursive·Priority Inheritance 적용
- 69RTOS Queue 활용 — By-Value·By-Reference·Timeout 패턴
- 70RTOS Event Group 활용 — Bit Wait·Sync·Notify
- 71RTOS Software Timer 활용 — One-shot·Auto-reload·Daemon Task
- 72ISR-Safe API 설계 — Reentrant·Atomic·Defer 패턴
- 73Priority Inversion 진단·예방 — Mars Pathfinder Lesson 추적
- 74Timer Wheel 분석 — Hashed·Hierarchical·O(1) Tick
- 75RTOS 디버깅 기법 — Tracealyzer·SystemView·Stack 추적
- 76임베디드 Linux 부팅 흐름 분석 — BootROM·U-Boot·Kernel·init
- 77U-Boot 활용 — bootcmd·env·tftp·boot.scr 분석
- 78Device Tree 실전 — DTS·DTB·Overlay·Phandle 추적
- 79Device Tree Overlay 적용 — Runtime fragment·dtoverlay
- 80임베디드 커널 빌드 — defconfig·menuconfig·Image·zImage
- 81커널 모듈 기초 — init/exit·Parameter·KBuild·DKMS
- 82캐릭터 드라이버 작성 — file_operations·cdev·register_chrdev
- 83Platform 드라이버 작성 — probe·remove·of_match·DT 바인딩
- 84mmap 4가지 모드 — Anonymous·File·Shared·Huge Page
- 85epoll 실전 — LT·ET·ONESHOT·EXCLUSIVE 비교
- 86UIO·VFIO 분석 — User-Space Driver와 IOMMU 격리
- 87sysfs·configfs 활용 — kobject 기반 User 인터페이스
- 88IRQ Affinity 튜닝 — smp_affinity·isolcpus·irqbalance
- 89루트 파일시스템 구축 — Buildroot 기초·Package·Toolchain
- 90임베디드 동적 메모리 — malloc 위험·결정성·대안 분석
- 91메모리 정렬과 패딩 분석 — Natural·Strict Alignment·Trap
- 92Cache Line Alignment — alignas·Padding·SoA 적용
- 93DMA-Friendly Allocator — dma_alloc_coherent·IOMMU·Pool
- 94Zero-Copy Pipeline — DMA-BUF·sendfile·io_uring·splice
- 95NUMA Memory Topology — numactl·numa_alloc·HBM 적용
- 96SIMD 활용 분석 — Intrinsics·Auto-Vectorization·OpenMP SIMD
- 97ARM NEON 심화 — Matrix Multiply·FFT·Image Filter 적용
- 98임베디드 스택 분석 — high-water·overflow 탐지
- 99임베디드 코드 크기 최적화 — -Os·LTO·Section Garbage Collection
- 100임베디드 전력 최적화 — Sleep Mode·Clock Gating·DVFS
- 101WCET 분석 기법 — Static·Measurement·Hybrid 방법론
- 102Lock-Free Ring Buffer 구현 — SPSC·Power-of-2·Memory Order
- 103Wait-Free Signaling — Atomic Flag·Sequence·Latest-Value
- 104RCU (Read-Copy-Update) 기초 — Quiescent State·Grace Period
- 105Hazard Pointer 분석 — Lock-Free Memory Reclamation
- 106Compare-And-Swap 패턴 — Stack·Counter·Linked List 적용
- 107Atomic Operation 비용 분석 — Fence·Cache Line·Contention
- 108Spinlock vs Mutex 결정 가이드 — Context Switch·Hold Time
- 109ABA 문제 회피 — Tagged Pointer·Hazard·Generation Counter
- 110False Sharing 해결 — Cache Line Padding·SoA 적용
- 111MPMC Queue 구현 — Multi-producer Multi-consumer Lock-Free
- 112임베디드 디버깅 마인드셋 — 가설·격리·재현·이분탐색
- 113JTAG·SWD 안 붙을 때 — 핀·전압·속도·세션 진단
- 114GDB 원격 디버깅 — OpenOCD·J-Link·target remote 구성
- 115Cortex-M 하드폴트 분석 — Stacked Frame·CFSR 읽기
- 116UART 안 찍힐 때 — Bare-metal 체크리스트
- 117임베디드 부팅 실패 진단 — 단계별 Isolation
- 118인터럽트 누락·중복 진단 — Priority·Pending·Re-entry 추적
- 119메모리 오버플로우·오염 진단 — Canary·MPU·Pattern 분석
- 120타이밍·Race 진단 — Heisenbug 잡는 법
- 121통신 프로토콜 분석 — Logic Analyzer와 Protocol Decoder
- 122임베디드 로깅 시스템 설계 — 레벨·버퍼·SWO·Deferred
- 123임베디드 포스트모템 분석 — Core Dump와 Field Crash
- 124FPGA 기초 분석 — LUT·FF·BRAM·DSP 자원 구조
- 125Vivado 사용법 — Project·Constraint·Synth·Impl·Bitstream
- 126PCIe BAR 매핑 분석 — Config Space·Enumeration·MMIO 접근
- 127AXI 인터페이스 — AXI4·AXI4-Lite·AXI-Stream 비교
- 128Zynq PS-PL 통신 — GP·HP·ACP 인터페이스 선택
- 129Mailbox Protocol 분석 — Host와 Accelerator를 잇는 Doorbell
- 130Command Queue·Submission Queue — NVMe·XDMA 공통 패턴
- 131DMA Completion 메커니즘 — Interrupt·Polling·Completion Ring
- 132PCIe Streaming 분석 — BAR Type·MSI-X·Kernel Bypass
- 133Vitis HLS 분석 — Pragma·Pipeline II·Dataflow 실전 감각
- 134HLS 최적화 기법 — Pipeline·Unroll·Partition·Dataflow
- 135Vitis AI 분석 — DPU·xmodel·VART
- 136OpenCL on FPGA — Kernel·Channel·Burst Memory 분석
- 137Intel Quartus 사용법 — Platform Designer·Nios II·HLS
- 138Edge Inference 분석 — Cloud vs Edge·Latency·Privacy
- 139NPU 아키텍처 분석 — Ethos·Hexagon·Systolic Array 비교
- 140딥러닝 Quantization 분석 — PTQ·QAT·INT8·INT4·Calibration
- 141TensorRT 분석 — ONNX→Engine·FP16·INT8·DLA·Multi-Stream
- 142TFLite Micro 분석 — Op Resolver·Tensor Arena·Cortex-M
- 143ONNX Runtime 분석 — Execution Provider와 Cross-Platform 배포
- 144Edge Thermal Management — Throttling·DVFS·Fan Curve·Sustained
- 145NVIDIA Jetson 분석 — Nano·Xavier·Orin·Thor·JetPack·DLA·VPI
- 146Zero-Copy Camera Pipeline — V4L2·DMA-BUF·GPU Import·NPU 직결
- 147온디바이스 LLM 추론 — llama.cpp·GGUF·MLX·KV Cache·NPU Backend
- 148Cortex-M33 TF-M·TrustZone — Secure Firmware·PSA·MCUboot
- 149Matter·Thread 분석 — IoT 통합 표준·Commissioning·Multi-Fabric
- 150PCIe → CXL 진화 — 같은 PHY 위 cache-coherent 프로토콜 추가
- 151QEMU CXL Type 3 디바이스 에뮬레이션 — 노트북에서 CXL 개발 환경 구축
- 152Linux CXL 드라이버 분석 — cxl_pci·cxl_core·region·DAX
관련 글
DMA Completion 메커니즘 — Interrupt·Polling·Completion Ring
DMA가 끝났음을 알려주는 세 가지 방식을 비교합니다. Interrupt, polling, completion ring과 IRQ coalescing의 trade-off를 정리합니다.
임베디드 동적 메모리 — malloc 위험·결정성·대안 분석
Malloc의 fragmentation과 비결정성, pool/arena/slab 대안, FreeRTOS heap_4/5와 정적 대안까지 임베디드의 메모리 전략을 정리합니다.
UIO·VFIO 분석 — User-Space Driver와 IOMMU 격리
UIO·VFIO로 user space에서 hardware를 다루는 방법, IOMMU 기반 DMA 안전성, DPDK·SPDK 사용 패턴을 정리합니다.