UIO·VFIO 분석 — User-Space Driver와 IOMMU 격리
#한 줄 요약
“UIO는 user space에서 MMIO·IRQ를 보고, VFIO는 거기에 IOMMU 격리를 더한다.” Kernel module은 얇은 wrapper로 두고, 정책과 fast path를 user space에 두는 것이 두 framework의 공통 목표입니다.
#어떤 상황에서 쓰나
FPGA 보드의 신규 register block을 일주일 안에 테스트해야 하면, 정식 kernel driver를 정성스럽게 만들기보다 UIO로 노출한 뒤 user space 코드로 동작을 확인하는 편이 훨씬 빠릅니다. Crash가 나도 process만 죽고 kernel은 안전합니다.
NIC·NVMe 같은 고성능 device를 다룰 때도 user space driver가 표준이 되었습니다. DPDK는 10G NIC에서 line rate를 받기 위해 kernel network stack을 우회하고, SPDK는 NVMe IOPS 100만을 user space에서 처리합니다. 두 경우 모두 IOMMU 보호가 필수라서 VFIO를 사용합니다.
#핵심 개념
UIO와 VFIO는 layer가 다릅니다.
UIO : MMIO 영역과 IRQ를 /dev/uioN으로 노출 DMA는 user가 알아서 (보통은 안 한다) 작은 PCI/Platform device, FPGA bring-up
VFIO : IOMMU group 단위로 device를 user에 위임 DMA address를 IOMMU가 변환·보호 DPDK·SPDK·KVM passthrough 표준UIO는 kernel side가 매우 얇습니다. uio_register_device 한 번이면 충분합니다. VFIO는 IOMMU·container·group이라는 세 가지 객체를 ioctl로 조립해야 합니다. Setup 복잡도가 늘어나는 대신, user process가 임의 physical memory에 DMA를 거는 사고를 원천 차단합니다.
#코드 / 실제 사용 예
#UIO kernel side 최소 구현
#include <linux/uio_driver.h>#include <linux/platform_device.h>
struct sample_dev { struct uio_info info; void __iomem *regs;};
static irqreturn_t sample_isr(int irq, struct uio_info *info) { struct sample_dev *d = container_of(info, struct sample_dev, info); /* 인터럽트 ack 후 0 반환 = handled */ writel(0x1, d->regs + IRQ_ACK); return IRQ_HANDLED;}
static int sample_probe(struct platform_device *pdev) { struct sample_dev *d = devm_kzalloc(&pdev->dev, sizeof(*d), GFP_KERNEL); struct resource *r = platform_get_resource(pdev, IORESOURCE_MEM, 0);
d->regs = devm_ioremap_resource(&pdev->dev, r); d->info.name = "sample-uio"; d->info.version= "1.0"; d->info.mem[0].addr = r->start; d->info.mem[0].size = resource_size(r); d->info.mem[0].memtype = UIO_MEM_PHYS; d->info.irq = platform_get_irq(pdev, 0); d->info.handler = sample_isr;
return uio_register_device(&pdev->dev, &d->info);}UIO_MEM_PHYS로 등록된 BAR가 /dev/uio0로 노출됩니다. 보통 /sys/class/uio/uio0/maps/map0/size에서 크기를 확인합니다.
#UIO user side
#include <fcntl.h>#include <sys/mman.h>#include <unistd.h>
int fd = open("/dev/uio0", O_RDWR);
size_t map_size = 4096;void *regs = mmap(NULL, map_size, PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0);
volatile uint32_t *r = regs;r[CTRL] = 1;uint32_t st = r[STATUS];
/* IRQ wait: read는 인터럽트 발생까지 블록 */uint32_t count;read(fd, &count, sizeof(count));
/* UIO는 ack 후 IRQ를 disable 함. 다시 활성화 */uint32_t enable = 1;write(fd, &enable, sizeof(enable));interrupt loop은 별도 thread로 돌리고, register polling fast path는 mmap pointer로 처리하는 구조가 일반적입니다.
#VFIO PCI device 준비
# 기존 driver 분리echo 0000:01:00.0 > /sys/bus/pci/drivers/nvme/unbind
# vfio-pci 바인딩echo "8086 0a54" > /sys/bus/pci/drivers/vfio-pci/new_id
# 결과 확인ls /dev/vfio# 0 vfio ← '0' 이 group idIOMMU group은 PCIe topology에 따라 결정됩니다. 같은 group의 device들은 한꺼번에 묶여 user에게 위임됩니다.
#VFIO user side 골격
#include <linux/vfio.h>
int container = open("/dev/vfio/vfio", O_RDWR);int group = open("/dev/vfio/0", O_RDWR);
ioctl(group, VFIO_GROUP_SET_CONTAINER, &container);ioctl(container, VFIO_SET_IOMMU, VFIO_TYPE1_IOMMU);
int dev = ioctl(group, VFIO_GROUP_GET_DEVICE_FD, "0000:01:00.0");
struct vfio_region_info reg = { .argsz = sizeof(reg), .index = 0 };ioctl(dev, VFIO_DEVICE_GET_REGION_INFO, ®);void *bar0 = mmap(NULL, reg.size, PROT_READ | PROT_WRITE, MAP_SHARED, dev, reg.offset);
/* DMA buffer를 user에서 만들고 IOMMU에 매핑 */void *dma = mmap(NULL, 1 << 20, PROT_READ | PROT_WRITE, MAP_PRIVATE | MAP_ANONYMOUS, -1, 0);
struct vfio_iommu_type1_dma_map m = { .argsz = sizeof(m), .vaddr = (uintptr_t)dma, .iova = 0x10000000, .size = 1 << 20, .flags = VFIO_DMA_MAP_FLAG_READ | VFIO_DMA_MAP_FLAG_WRITE,};ioctl(container, VFIO_IOMMU_MAP_DMA, &m);
/* HW에는 iova(0x10000000)를 알려준다 */((volatile uint32_t*)bar0)[DMA_ADDR] = 0x10000000;iova는 user가 정한 가상 주소이고, IOMMU가 이를 실제 physical로 변환합니다. user process가 잘못된 영역을 적어도 DMA가 그 영역으로 가지 않습니다.
#DPDK PMD가 VFIO를 쓰는 방식
dpdk-devbind.py --bind=vfio-pci 0000:81:00.0sudo ./l3fwd -l 0-3 -n 4 -- -p 0x1 --config="(0,0,1)"DPDK는 NIC를 VFIO로 grab한 뒤 PMD(Poll Mode Driver)가 RX queue를 polling합니다. IRQ가 아니라 user thread가 직접 ring을 읽으니 1 µs 단위 latency가 가능합니다.
#SPDK가 NVMe를 직접 잡는 방식
spdk_nvme_probe(NULL, NULL, probe_cb, attach_cb, NULL);/* attach_cb 안에서 namespace를 잡아 read/write 직접 발행 */SPDK도 내부적으로 VFIO를 사용합니다. NVMe queue를 user space에서 만들고, doorbell write로 명령을 제출합니다. Linux block layer를 거치지 않으니 1 M IOPS, p99 latency 10 µs 같은 수치가 가능합니다.
#vfio-platform — SoC 내장 IP
# Device Tree에서 reserved-memory와 status="okay" 설정 후echo myip > /sys/bus/platform/drivers/vfio-platform/bindls /dev/vfioPCIe가 아닌 platform bus의 IP block도 VFIO로 user에 위임할 수 있습니다. ARM SoC의 image accelerator나 video codec을 user space에서 다룰 때 유용합니다.
#측정 / 성능 비교
NVMe SSD를 같은 하드웨어에서 측정한 결과입니다.
| 스택 | IOPS(4KB QD32) | p99 latency |
|---|---|---|
| Linux block + io_uring | 720 K | 48 µs |
| SPDK (VFIO) | 1.05 M | 12 µs |
10 GbE NIC에서 64-byte packet을 forwarding했을 때입니다.
| 스택 | PPS | latency |
|---|---|---|
| Linux kernel + napi | 2.3 Mpps | 18 µs |
| DPDK + VFIO | 14.8 Mpps | 2.5 µs |
UIO는 보통 throughput보다 간편함이 이유입니다. FPGA bring-up에서 driver 한 줄도 새로 짜지 않고 register polling을 시작할 수 있다는 점이 큰 가치입니다.
#자주 보는 함정
UIO에서 user가 직접 DMA 주소를 만든 경우
HW_REG_DMA_ADDR = (uint32_t)buf; /* virtual = physical 아님 */UIO는 IOMMU 없이 physical address를 그대로 씁니다. user space의 가상 주소를 그대로 적으면 무관한 메모리를 침범하거나 SMMU fault가 납니다. DMA가 필요하면 VFIO나 정식 kernel driver를 씁니다.
VFIO group을 통째로 받지 않은 경우
# 같은 group에 있는 다른 device가 host driver에 묶여 있음# → VFIO_GROUP_GET_DEVICE_FD가 -EINVALIOMMU group의 모든 device가 vfio-pci에 묶여 있어야 합니다. /sys/kernel/iommu_groups/<id>/devices 목록을 먼저 확인합니다.
IOMMU 비활성 BIOS
dmesg | grep -i iommu# DMAR: IOMMU disabledintel_iommu=on 또는 iommu=pt amd_iommu=on을 kernel cmdline에 추가하거나, ARM 보드에서는 SMMU가 켜져 있는지 확인합니다. IOMMU가 꺼져 있으면 VFIO는 일반 모드로 동작할 수 없습니다.
UIO IRQ를 enable하지 않음
read(fd, &count, sizeof(count)); /* 첫 인터럽트는 도착 *//* 그러나 write로 enable 다시 안 함 */UIO는 ISR 안에서 IRQ를 자동 disable합니다. user가 처리 후 write(fd, &one, 4)로 다시 enable해야 다음 인터럽트가 옵니다.
/dev/mem으로 우회
int fd = open("/dev/mem", O_RDWR);void *r = mmap(NULL, 4096, ..., fd, PHYS);/dev/mem은 전체 물리 메모리에 접근할 수 있어 production에서는 금지입니다. 같은 작업이 UIO·VFIO로 가능합니다.
#정리
- UIO는 user space에서 MMIO와 IRQ를 다루는 가장 단순한 방법이고, FPGA bring-up과 prototyping에 잘 맞습니다.
- VFIO는 IOMMU 격리를 더해 DMA를 안전하게 user space에 위임합니다.
- DPDK는 NIC을 VFIO로 grab해 PMD가 polling으로 packet을 처리하고, SPDK는 NVMe queue를 직접 다룹니다.
- IOMMU group은 PCIe 토폴로지가 결정하며, 같은 group의 device는 함께 vfio-pci로 묶어야 합니다.
- UIO는 IRQ를 자동 disable하므로 처리 후
write(fd, &one, 4)로 다시 enable합니다. - IOMMU가 꺼져 있거나 group이 분리되지 않으면 VFIO는 setup 단계에서 실패합니다.
/dev/mem은 부트업 디버그용으로만 두고, 실제 production driver는 UIO·VFIO를 거치는 편이 안전합니다.
다음 편은 sysfs입니다.
#관련 항목
Modern Embedded Recipes · 86 of 152
- 1Modern Embedded Recipes — 모던 임베디드 실전 레시피 시리즈 소개
- 2디지털 신호 기초 — Voltage Level·Edge·Setup/Hold 분석
- 3임베디드 클럭과 타이밍 — Skew·Jitter·PLL·MMCM 분석
- 4GPIO 내부 구조 분해 — Push-Pull·Open-Drain·Schmitt Trigger
- 5UART 하드웨어 동작 분석 — Baud Rate·Framing·FIFO
- 6SPI 하드웨어 분석 — Clock Mode·MOSI/MISO·Chip Select
- 7I2C 하드웨어 분석 — Open-Drain·Clock Stretching·Arbitration
- 8ADC 동작 원리 — SAR·Sigma-Delta·Pipelined 비교
- 9DAC 동작 원리 — R-2R Ladder·Sigma-Delta·Settling Time
- 10PWM 신호 생성 분석 — Duty·Frequency·Dead Time·Center-Aligned
- 11CAN 버스 전기적 특성 — Differential·Termination·Dominant/Recessive
- 12RS-485·RS-422 차동 신호 분석 — Termination·Biasing·Topology
- 13LVDS 차동 신호 분석 — Common-Mode·Impedance·Eye Pattern
- 14ARM Cortex-M 시리즈 비교 — M0·M3·M4·M7·M33·M55 분석
- 15ARM Cortex-A 시리즈 비교 — A53·A55·A72·A78·X1 분석
- 16ARM 레지스터 구조 분석 — R0~R15·CPSR·SPSR·Banked Registers
- 17Cortex-M 예외 처리 — Vector Table·NVIC·Tail-Chaining 추적
- 18ARM 메모리 맵 분석 — Normal·Device·Strongly-Ordered Region
- 19ARM L1·L2 캐시 분석 — Set Associative·Inclusive·Maintenance
- 20ARM MPU 활용 — Region·Attribute·Privilege Separation
- 21ARM MMU 기초 분석 — Translation Table·TLB·ASID
- 22ARM TrustZone-M 기초 — Secure/Non-Secure·NSC·MPC
- 23ARM Memory Barrier 실전 — DMB·DSB·ISB·DMA·MMIO
- 24임베디드 크로스 컴파일러 분석 — GCC·Clang·Sysroot 구성
- 25C 컴파일 4단계 — Preprocess·Compile·Assemble·Link 추적
- 26ELF 파일 구조 분석 — Section·Segment·Symbol Table·DWARF
- 27링커 스크립트 기초 — SECTIONS·MEMORY·entry point
- 28링커 스크립트 고급 — Overlay·BSS·init_array·LMA/VMA
- 29임베디드 스타트업 코드 분석 — Reset_Handler·Vector Table·SystemInit
- 30C 런타임 crt0 분석 — Stack·BSS Zero·Data Copy·atexit
- 31임베디드 메모리 레이아웃 — .text·.rodata·.data·.bss·.heap·.stack
- 32임베디드 컴파일러 최적화 분석 — -O0~-O3·-Os·-LTO 비교
- 33Map 파일 분석 — Symbol·Section·Size 추적으로 코드 크기 진단
- 34Make·CMake 크로스 컴파일 — Toolchain File·Sysroot 통합
- 35임베디드 Bootloader 체인 — BootROM·SPL·U-Boot·Kernel·Secure Boot
- 36첫 bare-metal 프로그램 작성 — Linker·Startup·main의 최소 구성
- 37MMIO 레지스터 직접 접근 — volatile·Memory Map·Aliasing 분석
- 38GPIO 드라이버 직접 구현 — STM32 HAL 없이 레지스터로
- 39임베디드 클럭 설정 분석 — HSE·PLL·SYSCLK·AHB/APB 분주
- 40Cortex-M 인터럽트 핸들링 — NVIC·Priority·Vector·EXTI
- 41SysTick 타이머 활용 — 24-bit Counter·1ms Tick·delay 구현
- 42UART 드라이버 구현 — polling·interrupt·DMA 3가지 방식 비교
- 43SPI 드라이버 구현 — Master·Slave·CRC·DMA
- 44I2C 드라이버 구현 — Master·7-bit/10-bit·Clock Stretching 처리
- 45임베디드 DMA 기초 — Memory-to-Memory·Peripheral·Circular Mode
- 46저전력 모드 분석 — Sleep·Stop·Standby·Wake-up Source
- 47IWDG·WWDG 워치독 구현 — Independent vs Window 비교
- 48임베디드 Flash 프로그래밍 — Erase·Program·Read While Write
- 49DDR 초기화 실패 진단 — Timing·Calibration·Walking Bit Test
- 50PWM 출력 실전 — LED 밝기·모터 속도 제어
- 51DC 모터 제어 — H-Bridge·PWM Duty·Encoder Feedback
- 52스테퍼 모터 제어 — Full Step·Half Step·Microstepping
- 53서보 모터 제어 — PWM 1ms~2ms·Closed Loop·PID
- 54Character LCD 제어 — HD44780·4-bit Mode·Custom Char
- 55SPI OLED 제어 — SSD1306·Frame Buffer·Page 단위 갱신
- 56TFT 디스플레이 구동 — RGB565·FSMC·LTDC·DMA2D
- 57환경 센서 활용 — BME280 온습압·SHT3x·BMP180 비교
- 58IMU 센서 활용 — MPU6050·LSM6DSO·Sensor Fusion
- 59CAN 통신 구현 — bxCAN·Filter·Mailbox·CAN-FD
- 60USB Device 기초 — Descriptor·Enumeration·Endpoint·HID/CDC
- 61Ethernet MAC+PHY 통합 — RMII·lwIP·DMA Descriptor
- 62SD Card + FatFs 구현 — SPI/SDIO 모드·CSD/CID·Wear
- 63RTC 활용 — Calendar·Alarm·Wake-up Timer·Backup Domain
- 64RTOS 도입 결정 분석 — Super Loop vs RTOS 트레이드오프
- 65RTOS Task 설계 패턴 — 우선순위·스택·State Machine
- 66RTOS Scheduler 동작 분석 — Tick·Context Switch·Yield
- 67RTOS Semaphore 활용 — Binary·Counting·ISR Give
- 68RTOS Mutex 활용 — Recursive·Priority Inheritance 적용
- 69RTOS Queue 활용 — By-Value·By-Reference·Timeout 패턴
- 70RTOS Event Group 활용 — Bit Wait·Sync·Notify
- 71RTOS Software Timer 활용 — One-shot·Auto-reload·Daemon Task
- 72ISR-Safe API 설계 — Reentrant·Atomic·Defer 패턴
- 73Priority Inversion 진단·예방 — Mars Pathfinder Lesson 추적
- 74Timer Wheel 분석 — Hashed·Hierarchical·O(1) Tick
- 75RTOS 디버깅 기법 — Tracealyzer·SystemView·Stack 추적
- 76임베디드 Linux 부팅 흐름 분석 — BootROM·U-Boot·Kernel·init
- 77U-Boot 활용 — bootcmd·env·tftp·boot.scr 분석
- 78Device Tree 실전 — DTS·DTB·Overlay·Phandle 추적
- 79Device Tree Overlay 적용 — Runtime fragment·dtoverlay
- 80임베디드 커널 빌드 — defconfig·menuconfig·Image·zImage
- 81커널 모듈 기초 — init/exit·Parameter·KBuild·DKMS
- 82캐릭터 드라이버 작성 — file_operations·cdev·register_chrdev
- 83Platform 드라이버 작성 — probe·remove·of_match·DT 바인딩
- 84mmap 4가지 모드 — Anonymous·File·Shared·Huge Page
- 85epoll 실전 — LT·ET·ONESHOT·EXCLUSIVE 비교
- 86UIO·VFIO 분석 — User-Space Driver와 IOMMU 격리
- 87sysfs·configfs 활용 — kobject 기반 User 인터페이스
- 88IRQ Affinity 튜닝 — smp_affinity·isolcpus·irqbalance
- 89루트 파일시스템 구축 — Buildroot 기초·Package·Toolchain
- 90임베디드 동적 메모리 — malloc 위험·결정성·대안 분석
- 91메모리 정렬과 패딩 분석 — Natural·Strict Alignment·Trap
- 92Cache Line Alignment — alignas·Padding·SoA 적용
- 93DMA-Friendly Allocator — dma_alloc_coherent·IOMMU·Pool
- 94Zero-Copy Pipeline — DMA-BUF·sendfile·io_uring·splice
- 95NUMA Memory Topology — numactl·numa_alloc·HBM 적용
- 96SIMD 활용 분석 — Intrinsics·Auto-Vectorization·OpenMP SIMD
- 97ARM NEON 심화 — Matrix Multiply·FFT·Image Filter 적용
- 98임베디드 스택 분석 — high-water·overflow 탐지
- 99임베디드 코드 크기 최적화 — -Os·LTO·Section Garbage Collection
- 100임베디드 전력 최적화 — Sleep Mode·Clock Gating·DVFS
- 101WCET 분석 기법 — Static·Measurement·Hybrid 방법론
- 102Lock-Free Ring Buffer 구현 — SPSC·Power-of-2·Memory Order
- 103Wait-Free Signaling — Atomic Flag·Sequence·Latest-Value
- 104RCU (Read-Copy-Update) 기초 — Quiescent State·Grace Period
- 105Hazard Pointer 분석 — Lock-Free Memory Reclamation
- 106Compare-And-Swap 패턴 — Stack·Counter·Linked List 적용
- 107Atomic Operation 비용 분석 — Fence·Cache Line·Contention
- 108Spinlock vs Mutex 결정 가이드 — Context Switch·Hold Time
- 109ABA 문제 회피 — Tagged Pointer·Hazard·Generation Counter
- 110False Sharing 해결 — Cache Line Padding·SoA 적용
- 111MPMC Queue 구현 — Multi-producer Multi-consumer Lock-Free
- 112임베디드 디버깅 마인드셋 — 가설·격리·재현·이분탐색
- 113JTAG·SWD 안 붙을 때 — 핀·전압·속도·세션 진단
- 114GDB 원격 디버깅 — OpenOCD·J-Link·target remote 구성
- 115Cortex-M 하드폴트 분석 — Stacked Frame·CFSR 읽기
- 116UART 안 찍힐 때 — Bare-metal 체크리스트
- 117임베디드 부팅 실패 진단 — 단계별 Isolation
- 118인터럽트 누락·중복 진단 — Priority·Pending·Re-entry 추적
- 119메모리 오버플로우·오염 진단 — Canary·MPU·Pattern 분석
- 120타이밍·Race 진단 — Heisenbug 잡는 법
- 121통신 프로토콜 분석 — Logic Analyzer와 Protocol Decoder
- 122임베디드 로깅 시스템 설계 — 레벨·버퍼·SWO·Deferred
- 123임베디드 포스트모템 분석 — Core Dump와 Field Crash
- 124FPGA 기초 분석 — LUT·FF·BRAM·DSP 자원 구조
- 125Vivado 사용법 — Project·Constraint·Synth·Impl·Bitstream
- 126PCIe BAR 매핑 분석 — Config Space·Enumeration·MMIO 접근
- 127AXI 인터페이스 — AXI4·AXI4-Lite·AXI-Stream 비교
- 128Zynq PS-PL 통신 — GP·HP·ACP 인터페이스 선택
- 129Mailbox Protocol 분석 — Host와 Accelerator를 잇는 Doorbell
- 130Command Queue·Submission Queue — NVMe·XDMA 공통 패턴
- 131DMA Completion 메커니즘 — Interrupt·Polling·Completion Ring
- 132PCIe Streaming 분석 — BAR Type·MSI-X·Kernel Bypass
- 133Vitis HLS 분석 — Pragma·Pipeline II·Dataflow 실전 감각
- 134HLS 최적화 기법 — Pipeline·Unroll·Partition·Dataflow
- 135Vitis AI 분석 — DPU·xmodel·VART
- 136OpenCL on FPGA — Kernel·Channel·Burst Memory 분석
- 137Intel Quartus 사용법 — Platform Designer·Nios II·HLS
- 138Edge Inference 분석 — Cloud vs Edge·Latency·Privacy
- 139NPU 아키텍처 분석 — Ethos·Hexagon·Systolic Array 비교
- 140딥러닝 Quantization 분석 — PTQ·QAT·INT8·INT4·Calibration
- 141TensorRT 분석 — ONNX→Engine·FP16·INT8·DLA·Multi-Stream
- 142TFLite Micro 분석 — Op Resolver·Tensor Arena·Cortex-M
- 143ONNX Runtime 분석 — Execution Provider와 Cross-Platform 배포
- 144Edge Thermal Management — Throttling·DVFS·Fan Curve·Sustained
- 145NVIDIA Jetson 분석 — Nano·Xavier·Orin·Thor·JetPack·DLA·VPI
- 146Zero-Copy Camera Pipeline — V4L2·DMA-BUF·GPU Import·NPU 직결
- 147온디바이스 LLM 추론 — llama.cpp·GGUF·MLX·KV Cache·NPU Backend
- 148Cortex-M33 TF-M·TrustZone — Secure Firmware·PSA·MCUboot
- 149Matter·Thread 분석 — IoT 통합 표준·Commissioning·Multi-Fabric
- 150PCIe → CXL 진화 — 같은 PHY 위 cache-coherent 프로토콜 추가
- 151QEMU CXL Type 3 디바이스 에뮬레이션 — 노트북에서 CXL 개발 환경 구축
- 152Linux CXL 드라이버 분석 — cxl_pci·cxl_core·region·DAX
관련 글
PCIe Streaming 분석 — BAR Type·MSI-X·Kernel Bypass
PCIe로 streaming traffic을 다룰 때 알아야 할 BAR 종류, prefetchable 의미, MSI-X 분산, posted/non-posted 순서, kernel bypass 패턴을 정리합니다.
DMA-Friendly Allocator — dma_alloc_coherent·IOMMU·Pool
DMA buffer 할당 패턴을 coherent와 streaming, CMA, IOMMU, MPU non-cacheable 영역으로 나눠 정리합니다.
Linux CXL 드라이버 분석 — cxl_pci·cxl_core·region·DAX
Linux kernel 6.x의 CXL 서브시스템 — cxl_pci·cxl_core·cxl_mem·region·DAX 모듈의 역할과 probe 흐름.
이 글을 참조하는 글 (5)
- Vitis HLS 분석 — Pragma·Pipeline II·Dataflow 실전 감각— Modern Embedded Recipes
- PCIe Streaming 분석 — BAR Type·MSI-X·Kernel Bypass— Modern Embedded Recipes
- Command Queue·Submission Queue — NVMe·XDMA 공통 패턴— Modern Embedded Recipes
- Mailbox Protocol 분석 — Host와 Accelerator를 잇는 Doorbell— Modern Embedded Recipes
- mmap 4가지 모드 — Anonymous·File·Shared·Huge Page— Modern Embedded Recipes