본문으로 건너뛰기
Modern Embedded Recipes · 126/152

AXI 인터페이스 — AXI4·AXI4-Lite·AXI-Stream 비교

· Hawk · 7분 읽기

#한 줄 요약

“AXI는 control은 AXI4-Lite, memory는 AXI4 full, streaming은 AXI-Stream으로 나눠 쓰는 인터페이스 세트입니다.” Ready/valid handshake와 5 channel 구조를 알면 셋이 같은 가족이라는 게 보입니다.

#어떤 상황에서 쓰나

Zynq나 Versal 같은 SoC에서 PS(Cortex-A·R)와 PL(FPGA) 사이를 잇는 표준 인터페이스가 AXI입니다. HLS IP, custom RTL block, AXI DMA, Ethernet MAC, DDR controller 모두 AXI 변종 중 하나로 묶입니다.

ARM IP를 가져다 쓰는 SoC라면 PCIe 영역을 제외한 거의 모든 내부 버스가 AXI 위에 서 있습니다. AXI 셋의 차이만 명확히 알아도 datasheet 읽는 속도와 IP integration 작업이 크게 빨라집니다.

#핵심 개념

세 변종을 한 줄로 정리합니다.

AXI4 (full) address + 5 channel, burst 1-256, OoO, outstanding
메모리·DMA 같은 대용량 transfer
AXI4-Lite address + 5 channel, single-beat only, no burst/ID
control register (HLS s_axilite)
AXI-Stream address 없음, valid/ready/last/keep/user
video·audio·sensor·DMA의 data plane

AXI4 full의 5 channel은 모두 VALID·READY handshake로 움직입니다.

AXI4 5 channel — master와 slave 사이의 read/write 분리

ChannelName방향비고
ARAddress Readmaster → slave
RRead Dataslave → master+ RLAST
AWAddress Writemaster → slave
WWrite Datamaster → slave+ WLAST
BWrite Responseslave → master

VALID·READY 둘 다 1인 cycle에 한 beat가 옮겨집니다. Slave가 못 받으면 READY=0이 되고 master는 데이터를 유지합니다. 자연스러운 backpressure가 protocol에 박혀 있습니다.

#코드 / 실제 사용 예

#AXI4-Lite — control register

void accel(int *in, int *out, int n, int mode) {
#pragma HLS INTERFACE m_axi port=in offset=slave bundle=gmem
#pragma HLS INTERFACE m_axi port=out offset=slave bundle=gmem
#pragma HLS INTERFACE s_axilite port=in bundle=ctrl
#pragma HLS INTERFACE s_axilite port=out bundle=ctrl
#pragma HLS INTERFACE s_axilite port=n bundle=ctrl
#pragma HLS INTERFACE s_axilite port=mode bundle=ctrl
#pragma HLS INTERFACE s_axilite port=return bundle=ctrl
/* ... */
}

s_axilite 쪽이 register map으로 합성됩니다. Linux side에서는 pci_iomap 또는 ioremap으로 잡은 뒤 다음처럼 다룹니다.

struct accel_regs {
volatile uint32_t ap_ctrl; /* bit0 START, bit1 DONE, bit2 IDLE */
volatile uint32_t ap_gie;
volatile uint32_t ier;
volatile uint32_t isr;
volatile uint32_t in_addr_lo;
volatile uint32_t in_addr_hi;
/* ... */
};
void accel_start(struct accel_regs *r, dma_addr_t in, dma_addr_t out, int n) {
r->in_addr_lo = lower_32_bits(in);
r->in_addr_hi = upper_32_bits(in);
r->out_addr_lo = lower_32_bits(out);
r->out_addr_hi = upper_32_bits(out);
r->n = n;
wmb();
r->ap_ctrl = 0x1; /* START */
}

ap_ctrl의 START·DONE·IDLE 비트는 Vitis HLS가 자동 생성하는 표준 control 레이아웃입니다.

#AXI4 full — burst length

#pragma HLS INTERFACE m_axi port=buf offset=slave bundle=gmem \
max_read_burst_length=256 max_write_burst_length=256

AXI4 burst는 최대 256 beat입니다. 64-bit data bus라면 한 transaction에서 2 KB를 옮길 수 있습니다. Burst를 크게 잡을수록 DDR address phase overhead가 amortize되어 effective bandwidth가 올라갑니다.

#4 KB boundary 회피

AXI burst rule:
- 한 burst는 4 KB boundary를 넘으면 안 된다
- DMA controller가 자동 split, 손수 master는 직접 split
/* Pseudo — 4 KB 안에 맞춰 split */
void split_burst(uint64_t addr, uint32_t len, axi_burst *out, int *nb) {
int n = 0;
while (len) {
uint32_t to_boundary = 4096 - (addr & 0xFFF);
uint32_t chunk = min(len, to_boundary);
out[n++] = (axi_burst){ addr, chunk };
addr += chunk;
len -= chunk;
}
*nb = n;
}

DMA controller 대부분이 이 split을 자동 처리하지만, raw AXI master를 직접 만들 때는 반드시 손으로 챙겨야 합니다.

#AXI-Stream — TLAST 표시

#include <hls_stream.h>
#include <ap_axi_sdata.h>
typedef ap_axiu<32, 1, 1, 1> pkt_t; /* 32-bit data + side-band */
void parser(hls::stream<pkt_t> &in, hls::stream<pkt_t> &out) {
#pragma HLS INTERFACE axis port=in
#pragma HLS INTERFACE axis port=out
#pragma HLS INTERFACE s_axilite port=return bundle=ctrl
pkt_t p;
do {
#pragma HLS PIPELINE II=1
p = in.read();
p.data ^= 0xCAFEBABE;
out.write(p);
} while (!p.last);
}

TLAST는 패킷·프레임 끝을 표시하는 sideband 신호입니다. 비디오에서는 라인 끝, 네트워크에서는 packet 끝을 의미합니다.

#Outstanding transactions

Master가 응답 받기 전 새 요청 발사 가능
Time: AR0 AR1 AR2 AR3
R0 R1 R2 R3
Outstanding 4 = 동시 미응답 4개
#pragma HLS INTERFACE m_axi port=buf max_read_outstanding=16 \
max_write_outstanding=16

DDR controller는 latency가 보통 100-200 ns입니다. Outstanding 1이면 매 beat마다 idle 100 ns가 끼어 throughput이 1/5로 떨어집니다. 8-16 outstanding이 표준입니다.

#AXI ID 분리로 deadlock 회피

Same ID에 다른 slave:
AR(id=0) → slave A (빠름)
AR(id=0) → slave B (느림)
→ slave B 응답이 늦으면 같은 ID FIFO 순서 때문에 A 응답도 대기
→ deadlock 가능

Master는 slave별로 ID를 다르게 발사합니다.

/* AR(id = slave_id | sequence) */
issue_read(0x10 | seq, slave_A_addr);
issue_read(0x20 | seq, slave_B_addr); /* OoO 가능 */

#AXI Interconnect QoS

/* Vivado Block Design에서 ARQOS/AWQOS 설정 */
/* AXI Interconnect의 register로 master별 priority 변경 */
#define QOS_CRITICAL 15
#define QOS_HIGH 10
#define QOS_NORMAL 5
set_qos(axi_master_camera_id, QOS_CRITICAL); /* frame drop 금지 */
set_qos(axi_master_cpu_id, QOS_HIGH);
set_qos(axi_master_dma_id, QOS_NORMAL);

DDR controller arbiter가 QOS 비트를 보고 우선순위를 결정합니다. 자율주행 control 경로처럼 deadline이 박힌 master는 QOS를 높게 줍니다.

#Zynq UltraScale+ PS-PL port

Port수량설명
HP (High Performance)× 4DDR bypass cache, full bandwidth
HPC (HP Cache-coherent)× 2coherent with APU L2
ACP (Accelerator Coherency)coherent, low-latency
GP (General Purpose)× 4control register용

FPGA accelerator → AXI HP → DDR이 가장 일반적인 데이터 path입니다. CPU와 sharing이 잦으면 HPC나 ACP로 coherent 영역을 잡습니다.

#측정 / 성능 비교

Zynq UltraScale+에서 AXI4 m_axi를 burst length만 바꿔 측정한 효과입니다(DDR4-2400, 64-bit bus).

burst lengtheffective bandwidth
1 beat0.3 GB/s
16 beat4.1 GB/s
64 beat9.6 GB/s
256 beat18.4 GB/s

Outstanding 수의 효과는 다음과 같습니다.

outstandingbandwidth평균 latency
15.1 GB/s210 ns
414.7 GB/s220 ns
1618.4 GB/s240 ns

Outstanding을 늘리면 latency가 거의 변하지 않으면서 throughput이 크게 올라갑니다. DDR access pattern이 random일수록 outstanding의 이득이 큽니다.

QoS가 없을 때와 있을 때의 차이도 큽니다. Camera·DPU master에 QoS=15를 주지 않으면 GPU의 큰 burst가 진행되는 동안 frame drop이 발생합니다.

#자주 보는 함정

같은 ID로 여러 slave에 발사

위에서 본 deadlock 패턴입니다. AXI Interconnect가 자동으로 ID extension을 붙이긴 하지만, raw master에서는 손으로 ID를 slave별로 분리해야 안전합니다.

Outstanding 1로 DDR 사용

#pragma HLS INTERFACE m_axi port=data max_read_outstanding=1

DDR latency를 매번 동기적으로 기다리는 형태가 됩니다. throughput이 한 자릿수 GB/s에서 막힙니다.

4 KB boundary 무시

/* Raw AXI master에서 */
issue_burst(addr=0x0FF0, len=64); /* 0x0FF0 ~ 0x10EF, 4KB boundary 침범 */

Spec 위반이며 slave가 거부하거나 split해 동작이 의도와 달라집니다. DMA controller IP에는 자동 split이 있지만 직접 만든 master는 손으로 챙깁니다.

AXI-Lite로 큰 buffer 옮기기

#pragma HLS INTERFACE s_axilite port=buffer bundle=ctrl

AXI-Lite는 single-beat라서 4 KB buffer를 옮기면 1024개 transaction이 발생합니다. 큰 데이터는 m_axi를 씁니다.

QoS 모두 0

모든 master가 우선순위 0이면 round-robin이 됩니다. RT 경로의 master(카메라·display)가 굶주려 frame drop이 발생합니다. critical master는 명시적으로 QoS를 올립니다.

Stream에 TLAST 안 줌

pkt.data = sample;
out.write(pkt); /* last 안 설정 */

DMA가 packet 끝을 못 잡아 transfer가 계속 대기 상태로 남습니다. Frame·packet 끝마다 pkt.last = 1을 명시합니다.

Cache coherent 영역에 ACP 대신 HP

CPU가 share하는 영역인데 HP로 접근하면 cache flush가 매번 필요

CPU와 가속기가 같은 buffer를 자주 주고받으면 ACP·HPC를 씁니다. 매번 cache 관리하는 비용보다 hardware coherency가 훨씬 쌉니다.

#정리

  • AXI는 AXI4 full(memory), AXI4-Lite(control), AXI-Stream(data) 세 변종으로 구성됩니다.
  • 5 channel(AR·R·AW·W·B)이 모두 VALID·READY handshake로 움직입니다.
  • AXI4 burst는 1-256 beat이며 4 KB boundary를 넘으면 안 됩니다.
  • Outstanding transactions를 8-16으로 잡아 DDR latency를 감춥니다.
  • AXI ID는 slave별로 분리해 deadlock을 피합니다.
  • QoS는 RT critical master(카메라·display)를 굶기지 않기 위해 명시합니다.
  • AXI-Stream의 TLAST·TKEEP·TUSER는 DMA·video·packet 처리의 핵심 sideband입니다.
  • Zynq PS-PL은 HP·HPC·ACP·GP를 역할별로 골라 씁니다.
  • HLS의 s_axilite/m_axi/axis 인터페이스는 결국 이 셋 위로 떨어집니다.

여기까지 Part 5(FPGA·accelerator·PCIe)였습니다. 시리즈 다음 Part로 이어집니다.

#관련 항목

Modern Embedded Recipes · 127 of 152

  1. 1Modern Embedded Recipes — 모던 임베디드 실전 레시피 시리즈 소개
  2. 2디지털 신호 기초 — Voltage Level·Edge·Setup/Hold 분석
  3. 3임베디드 클럭과 타이밍 — Skew·Jitter·PLL·MMCM 분석
  4. 4GPIO 내부 구조 분해 — Push-Pull·Open-Drain·Schmitt Trigger
  5. 5UART 하드웨어 동작 분석 — Baud Rate·Framing·FIFO
  6. 6SPI 하드웨어 분석 — Clock Mode·MOSI/MISO·Chip Select
  7. 7I2C 하드웨어 분석 — Open-Drain·Clock Stretching·Arbitration
  8. 8ADC 동작 원리 — SAR·Sigma-Delta·Pipelined 비교
  9. 9DAC 동작 원리 — R-2R Ladder·Sigma-Delta·Settling Time
  10. 10PWM 신호 생성 분석 — Duty·Frequency·Dead Time·Center-Aligned
  11. 11CAN 버스 전기적 특성 — Differential·Termination·Dominant/Recessive
  12. 12RS-485·RS-422 차동 신호 분석 — Termination·Biasing·Topology
  13. 13LVDS 차동 신호 분석 — Common-Mode·Impedance·Eye Pattern
  14. 14ARM Cortex-M 시리즈 비교 — M0·M3·M4·M7·M33·M55 분석
  15. 15ARM Cortex-A 시리즈 비교 — A53·A55·A72·A78·X1 분석
  16. 16ARM 레지스터 구조 분석 — R0~R15·CPSR·SPSR·Banked Registers
  17. 17Cortex-M 예외 처리 — Vector Table·NVIC·Tail-Chaining 추적
  18. 18ARM 메모리 맵 분석 — Normal·Device·Strongly-Ordered Region
  19. 19ARM L1·L2 캐시 분석 — Set Associative·Inclusive·Maintenance
  20. 20ARM MPU 활용 — Region·Attribute·Privilege Separation
  21. 21ARM MMU 기초 분석 — Translation Table·TLB·ASID
  22. 22ARM TrustZone-M 기초 — Secure/Non-Secure·NSC·MPC
  23. 23ARM Memory Barrier 실전 — DMB·DSB·ISB·DMA·MMIO
  24. 24임베디드 크로스 컴파일러 분석 — GCC·Clang·Sysroot 구성
  25. 25C 컴파일 4단계 — Preprocess·Compile·Assemble·Link 추적
  26. 26ELF 파일 구조 분석 — Section·Segment·Symbol Table·DWARF
  27. 27링커 스크립트 기초 — SECTIONS·MEMORY·entry point
  28. 28링커 스크립트 고급 — Overlay·BSS·init_array·LMA/VMA
  29. 29임베디드 스타트업 코드 분석 — Reset_Handler·Vector Table·SystemInit
  30. 30C 런타임 crt0 분석 — Stack·BSS Zero·Data Copy·atexit
  31. 31임베디드 메모리 레이아웃 — .text·.rodata·.data·.bss·.heap·.stack
  32. 32임베디드 컴파일러 최적화 분석 — -O0~-O3·-Os·-LTO 비교
  33. 33Map 파일 분석 — Symbol·Section·Size 추적으로 코드 크기 진단
  34. 34Make·CMake 크로스 컴파일 — Toolchain File·Sysroot 통합
  35. 35임베디드 Bootloader 체인 — BootROM·SPL·U-Boot·Kernel·Secure Boot
  36. 36첫 bare-metal 프로그램 작성 — Linker·Startup·main의 최소 구성
  37. 37MMIO 레지스터 직접 접근 — volatile·Memory Map·Aliasing 분석
  38. 38GPIO 드라이버 직접 구현 — STM32 HAL 없이 레지스터로
  39. 39임베디드 클럭 설정 분석 — HSE·PLL·SYSCLK·AHB/APB 분주
  40. 40Cortex-M 인터럽트 핸들링 — NVIC·Priority·Vector·EXTI
  41. 41SysTick 타이머 활용 — 24-bit Counter·1ms Tick·delay 구현
  42. 42UART 드라이버 구현 — polling·interrupt·DMA 3가지 방식 비교
  43. 43SPI 드라이버 구현 — Master·Slave·CRC·DMA
  44. 44I2C 드라이버 구현 — Master·7-bit/10-bit·Clock Stretching 처리
  45. 45임베디드 DMA 기초 — Memory-to-Memory·Peripheral·Circular Mode
  46. 46저전력 모드 분석 — Sleep·Stop·Standby·Wake-up Source
  47. 47IWDG·WWDG 워치독 구현 — Independent vs Window 비교
  48. 48임베디드 Flash 프로그래밍 — Erase·Program·Read While Write
  49. 49DDR 초기화 실패 진단 — Timing·Calibration·Walking Bit Test
  50. 50PWM 출력 실전 — LED 밝기·모터 속도 제어
  51. 51DC 모터 제어 — H-Bridge·PWM Duty·Encoder Feedback
  52. 52스테퍼 모터 제어 — Full Step·Half Step·Microstepping
  53. 53서보 모터 제어 — PWM 1ms~2ms·Closed Loop·PID
  54. 54Character LCD 제어 — HD44780·4-bit Mode·Custom Char
  55. 55SPI OLED 제어 — SSD1306·Frame Buffer·Page 단위 갱신
  56. 56TFT 디스플레이 구동 — RGB565·FSMC·LTDC·DMA2D
  57. 57환경 센서 활용 — BME280 온습압·SHT3x·BMP180 비교
  58. 58IMU 센서 활용 — MPU6050·LSM6DSO·Sensor Fusion
  59. 59CAN 통신 구현 — bxCAN·Filter·Mailbox·CAN-FD
  60. 60USB Device 기초 — Descriptor·Enumeration·Endpoint·HID/CDC
  61. 61Ethernet MAC+PHY 통합 — RMII·lwIP·DMA Descriptor
  62. 62SD Card + FatFs 구현 — SPI/SDIO 모드·CSD/CID·Wear
  63. 63RTC 활용 — Calendar·Alarm·Wake-up Timer·Backup Domain
  64. 64RTOS 도입 결정 분석 — Super Loop vs RTOS 트레이드오프
  65. 65RTOS Task 설계 패턴 — 우선순위·스택·State Machine
  66. 66RTOS Scheduler 동작 분석 — Tick·Context Switch·Yield
  67. 67RTOS Semaphore 활용 — Binary·Counting·ISR Give
  68. 68RTOS Mutex 활용 — Recursive·Priority Inheritance 적용
  69. 69RTOS Queue 활용 — By-Value·By-Reference·Timeout 패턴
  70. 70RTOS Event Group 활용 — Bit Wait·Sync·Notify
  71. 71RTOS Software Timer 활용 — One-shot·Auto-reload·Daemon Task
  72. 72ISR-Safe API 설계 — Reentrant·Atomic·Defer 패턴
  73. 73Priority Inversion 진단·예방 — Mars Pathfinder Lesson 추적
  74. 74Timer Wheel 분석 — Hashed·Hierarchical·O(1) Tick
  75. 75RTOS 디버깅 기법 — Tracealyzer·SystemView·Stack 추적
  76. 76임베디드 Linux 부팅 흐름 분석 — BootROM·U-Boot·Kernel·init
  77. 77U-Boot 활용 — bootcmd·env·tftp·boot.scr 분석
  78. 78Device Tree 실전 — DTS·DTB·Overlay·Phandle 추적
  79. 79Device Tree Overlay 적용 — Runtime fragment·dtoverlay
  80. 80임베디드 커널 빌드 — defconfig·menuconfig·Image·zImage
  81. 81커널 모듈 기초 — init/exit·Parameter·KBuild·DKMS
  82. 82캐릭터 드라이버 작성 — file_operations·cdev·register_chrdev
  83. 83Platform 드라이버 작성 — probe·remove·of_match·DT 바인딩
  84. 84mmap 4가지 모드 — Anonymous·File·Shared·Huge Page
  85. 85epoll 실전 — LT·ET·ONESHOT·EXCLUSIVE 비교
  86. 86UIO·VFIO 분석 — User-Space Driver와 IOMMU 격리
  87. 87sysfs·configfs 활용 — kobject 기반 User 인터페이스
  88. 88IRQ Affinity 튜닝 — smp_affinity·isolcpus·irqbalance
  89. 89루트 파일시스템 구축 — Buildroot 기초·Package·Toolchain
  90. 90임베디드 동적 메모리 — malloc 위험·결정성·대안 분석
  91. 91메모리 정렬과 패딩 분석 — Natural·Strict Alignment·Trap
  92. 92Cache Line Alignment — alignas·Padding·SoA 적용
  93. 93DMA-Friendly Allocator — dma_alloc_coherent·IOMMU·Pool
  94. 94Zero-Copy Pipeline — DMA-BUF·sendfile·io_uring·splice
  95. 95NUMA Memory Topology — numactl·numa_alloc·HBM 적용
  96. 96SIMD 활용 분석 — Intrinsics·Auto-Vectorization·OpenMP SIMD
  97. 97ARM NEON 심화 — Matrix Multiply·FFT·Image Filter 적용
  98. 98임베디드 스택 분석 — high-water·overflow 탐지
  99. 99임베디드 코드 크기 최적화 — -Os·LTO·Section Garbage Collection
  100. 100임베디드 전력 최적화 — Sleep Mode·Clock Gating·DVFS
  101. 101WCET 분석 기법 — Static·Measurement·Hybrid 방법론
  102. 102Lock-Free Ring Buffer 구현 — SPSC·Power-of-2·Memory Order
  103. 103Wait-Free Signaling — Atomic Flag·Sequence·Latest-Value
  104. 104RCU (Read-Copy-Update) 기초 — Quiescent State·Grace Period
  105. 105Hazard Pointer 분석 — Lock-Free Memory Reclamation
  106. 106Compare-And-Swap 패턴 — Stack·Counter·Linked List 적용
  107. 107Atomic Operation 비용 분석 — Fence·Cache Line·Contention
  108. 108Spinlock vs Mutex 결정 가이드 — Context Switch·Hold Time
  109. 109ABA 문제 회피 — Tagged Pointer·Hazard·Generation Counter
  110. 110False Sharing 해결 — Cache Line Padding·SoA 적용
  111. 111MPMC Queue 구현 — Multi-producer Multi-consumer Lock-Free
  112. 112임베디드 디버깅 마인드셋 — 가설·격리·재현·이분탐색
  113. 113JTAG·SWD 안 붙을 때 — 핀·전압·속도·세션 진단
  114. 114GDB 원격 디버깅 — OpenOCD·J-Link·target remote 구성
  115. 115Cortex-M 하드폴트 분석 — Stacked Frame·CFSR 읽기
  116. 116UART 안 찍힐 때 — Bare-metal 체크리스트
  117. 117임베디드 부팅 실패 진단 — 단계별 Isolation
  118. 118인터럽트 누락·중복 진단 — Priority·Pending·Re-entry 추적
  119. 119메모리 오버플로우·오염 진단 — Canary·MPU·Pattern 분석
  120. 120타이밍·Race 진단 — Heisenbug 잡는 법
  121. 121통신 프로토콜 분석 — Logic Analyzer와 Protocol Decoder
  122. 122임베디드 로깅 시스템 설계 — 레벨·버퍼·SWO·Deferred
  123. 123임베디드 포스트모템 분석 — Core Dump와 Field Crash
  124. 124FPGA 기초 분석 — LUT·FF·BRAM·DSP 자원 구조
  125. 125Vivado 사용법 — Project·Constraint·Synth·Impl·Bitstream
  126. 126PCIe BAR 매핑 분석 — Config Space·Enumeration·MMIO 접근
  127. 127AXI 인터페이스 — AXI4·AXI4-Lite·AXI-Stream 비교
  128. 128Zynq PS-PL 통신 — GP·HP·ACP 인터페이스 선택
  129. 129Mailbox Protocol 분석 — Host와 Accelerator를 잇는 Doorbell
  130. 130Command Queue·Submission Queue — NVMe·XDMA 공통 패턴
  131. 131DMA Completion 메커니즘 — Interrupt·Polling·Completion Ring
  132. 132PCIe Streaming 분석 — BAR Type·MSI-X·Kernel Bypass
  133. 133Vitis HLS 분석 — Pragma·Pipeline II·Dataflow 실전 감각
  134. 134HLS 최적화 기법 — Pipeline·Unroll·Partition·Dataflow
  135. 135Vitis AI 분석 — DPU·xmodel·VART
  136. 136OpenCL on FPGA — Kernel·Channel·Burst Memory 분석
  137. 137Intel Quartus 사용법 — Platform Designer·Nios II·HLS
  138. 138Edge Inference 분석 — Cloud vs Edge·Latency·Privacy
  139. 139NPU 아키텍처 분석 — Ethos·Hexagon·Systolic Array 비교
  140. 140딥러닝 Quantization 분석 — PTQ·QAT·INT8·INT4·Calibration
  141. 141TensorRT 분석 — ONNX→Engine·FP16·INT8·DLA·Multi-Stream
  142. 142TFLite Micro 분석 — Op Resolver·Tensor Arena·Cortex-M
  143. 143ONNX Runtime 분석 — Execution Provider와 Cross-Platform 배포
  144. 144Edge Thermal Management — Throttling·DVFS·Fan Curve·Sustained
  145. 145NVIDIA Jetson 분석 — Nano·Xavier·Orin·Thor·JetPack·DLA·VPI
  146. 146Zero-Copy Camera Pipeline — V4L2·DMA-BUF·GPU Import·NPU 직결
  147. 147온디바이스 LLM 추론 — llama.cpp·GGUF·MLX·KV Cache·NPU Backend
  148. 148Cortex-M33 TF-M·TrustZone — Secure Firmware·PSA·MCUboot
  149. 149Matter·Thread 분석 — IoT 통합 표준·Commissioning·Multi-Fabric
  150. 150PCIe → CXL 진화 — 같은 PHY 위 cache-coherent 프로토콜 추가
  151. 151QEMU CXL Type 3 디바이스 에뮬레이션 — 노트북에서 CXL 개발 환경 구축
  152. 152Linux CXL 드라이버 분석 — cxl_pci·cxl_core·region·DAX