Embedded Performance Engineering
DMA vs CPU Copy 성능 비교 — Break-even·Setup Overhead 실측
DMA setup overhead. CPU memcpy 최적화. Break-even size. 실측 데이터.
· 6분 읽기
dma memcpy
5개의 포스트
DMA setup overhead. CPU memcpy 최적화. Break-even size. 실측 데이터.
Out-of-order execution. ROB·issue queue·rename. Spectre 측면. Cortex-A 사례.
BTFNT, 2-bit saturating counter, BTB·BHT. Mispredict 10-20 cycle. PMU BR_MIS_PRED.
Stall은 pipeline bubble을 만듭니다. RAW·WAR·WAW hazard, forwarding, PMU STALL counter를 살펴봅니다.
Fetch·Decode·Execute·Memory·Writeback의 5-stage 파이프라인을 봅니다. Cortex-M3/M4는 3-stage, Cortex-A는 8~15-stage입니다.