Embedded Performance Engineering · 23/57

Interrupt Latency 분석 — 진입·종료·Tail-Chaining·Late Arrival

2026년 4월 25일 · Hawk · 4분 읽기

interrupt latency tail-chaining lazy-stacking

#한 줄 요약

“Interrupt latency는 IRQ 발생부터 ISR의 첫 명령까지 걸리는 시간입니다.” 짧을수록 real-time 응답이 강력해집니다.

#Cortex-M Interrupt Latency

CPU	Cycle	@ 168 MHz
Cortex-M0	16	95 ns
Cortex-M0+	15	89 ns
Cortex-M3	12	71 ns
Cortex-M4	12	71 ns
Cortex-M7	12 (lower with cache)	71 ns
Cortex-M33	11	65 ns

내부적으로는 8개 register의 hardware push와 vector fetch, pipeline refill로 구성됩니다.

Cortex-M interrupt latency 구성 — instruction 완료, register push, vector fetch, pipeline refill

#Tail-Chaining - 핵심 트릭

Tail-chaining 비교 — 옛 ARM7은 pop/push를 반복하지만 Cortex-M은 pop을 생략하고 곧바로 ISR B에 진입한다

연속 IRQ 상황에서 50% 효율을 얻습니다.

#Late Arrival

Late arrival — A의 push 진행 중에 더 높은 priority B가 도착하면 push를 그대로 활용하고 vector fetch만 B로 변경한다

Higher priority IRQ가 최소 손실로 선점합니다. Cortex-M3 이상의 표준 동작입니다.

#Lazy Stacking (M4·M7 with FP)

FPU를 사용할 때는 16개 floating register를 추가로 push해야 해서 latency가 32 cycle 더 늘어납니다.

1
ISR 진입 시 FPU context는 *push하지 않음* (lazy)
2
ISR이 FPU 명령을 쓰면 그때 push (lazy stacking trigger)
3
ISR이 FPU를 안 쓰면 push 자체를 생략 (latency 절약)

1
FPU->FPCCR |= FPU_FPCCR_LSPEN_Msk;   // lazy stacking enable (기본)
2
FPU->FPCCR &= ~FPU_FPCCR_LSPEN_Msk;  // disable - 항상 push

#IRQ 진입·종료 시간 측정하기

1
volatile uint32_t isr_entry_cycle;
2

3
void EXTI0_IRQHandler(void) {
4
    isr_entry_cycle = DWT->CYCCNT;   // ← 진입 시점
5
    /* ... */
6
    EXTI->PR1 = EXTI_PR1_PIF0;
7
}
8

9
/* Main */
10
__DSB();
11
uint32_t t = DWT->CYCCNT;
12
EXTI->SWIER1 |= EXTI_SWIER1_SWI0;   // soft trigger IRQ
13
__DSB();
14
uint32_t latency = isr_entry_cycle - t;
15
printf("Latency: %u cycle\n", latency);

#ISR 처리 시간 단축 - Top-Half / Bottom-Half

1
volatile uint32_t flag;
2

3
void UART_IRQHandler(void) {
4
    /* Top half - *짧게* */
5
    uint8_t byte = UART->RDR;
6
    ring_buffer_put(byte);
7
    flag = 1;   // signal
8
}
9

10
void main_loop(void) {
11
    if (flag) {
12
        flag = 0;
13
        process_packet();   // Bottom half - task context
14
    }
15
}

RTOS에서는 semaphore와 event group으로 bottom half를 깨웁니다.

1
void UART_IRQHandler(void) {
2
    BaseType_t hp = pdFALSE;
3
    uint8_t byte = UART->RDR;
4
    xQueueSendFromISR(rx_queue, &byte, &hp);
5
    portYIELD_FROM_ISR(hp);
6
}

#NVIC Priority Grouping

1
NVIC_SetPriorityGrouping(3);   // 4 group, 4 sub-priority
2
NVIC_SetPriority(EXTI0_IRQn, NVIC_EncodePriority(3, 1, 0));
3
                                              /* group, preempt, sub */

Preempt priority가 높으면 다른 IRQ를 선점할 수 있습니다.
Sub priority는 pending 중인 IRQ의 선택 순서를 결정합니다.

같은 preempt 그룹이면 먼저 발생한 IRQ가 먼저 처리됩니다. Critical signal에는 높은 preempt를 줍니다.

#Critical Section - IRQ Disable

1
__disable_irq();
2
/* critical */
3
__enable_irq();

Disable 동안 모든 IRQ가 차단되어 response 시간이 늘어납니다. 최대 disable 시간을 측정하는 것이 곧 worst-case latency 측정입니다.

#BASEPRI - Selective Disable

1
__set_BASEPRI(0x40);   // priority 4 이상 차단, 0-3는 통과
2
/* critical, 그러나 high IRQ는 처리됨 */
3
__set_BASEPRI(0);

FreeRTOS의 portENTER_CRITICAL이 BASEPRI를 사용합니다.

#Cortex-A - GIC IRQ Latency

단계	Cycle
Distribute → CPU IF	~5
Acknowledge (read GIC)	~10
Pipeline flush·context save	~30 (OoO 시)
ISR 진입	~50 cycle

Cortex-A53 1 GHz 기준으로 50 ns 수준입니다. 다만 cache miss와 OoO drain이 겹치면 수백 cycle까지 늘어납니다.

자동차 brake와 airbag처럼 sub-µs response가 필요한 곳에서는 Cortex-R5(in-order, 8-cycle IRQ)를 씁니다.

#IRQ Storm 회피

1
void timer_isr(void) {
2
    /* 매 µs 트리거 - CPU를 다 잡아먹음 */
3
}

해결책은 다음과 같습니다.

Coalescing으로 N개 이벤트마다 한 번만 처리합니다.
Polling 전환은 매우 빈번한 이벤트에 적합합니다.
DMA로 IRQ 자체를 회피하는 방법도 있습니다.

#FreeRTOS의 ISR Overhead

1
configMAX_SYSCALL_INTERRUPT_PRIORITY = 5 가정
2
IRQ priority 5+ - FromISR API 사용
3
  → entry: 12 cycle (hardware)
4
  → kernel hook: ~30 cycle
5
  → bottom half wake: ~50 cycle
6
  → portYIELD_FROM_ISR: pendSV pending
7
  → return + PendSV: ~100 cycle (context switch)
8
  Total: ~200 cycle
9

10
IRQ priority 0-4 (configMAX_SYSCALL 위) - 직접 hardware ISR
11
  → entry: 12 cycle
12
  → ISR work만
13
  → exit: 12 cycle
14
  Total: ~25 cycle (FreeRTOS 비관여)

Hard real-time IRQ는 configMAX_SYSCALL 위에 두고 RTOS API를 쓰지 않습니다.

#ISR 안에서 lock 금지

1
void ISR(void) {
2
    xSemaphoreTake(mtx, ...);   // 차단될 수 있어 hard fault로 이어집니다
3
}

*FromISR이나 hardware-only IRQ를 써야 합니다.

#자주 하는 실수

⚠️ Long ISR

1
void ADC_IRQ(void) {
2
    process_sample();        // 빠름
3
    calculate_fft();         // 수 ms 걸리며 다른 IRQ를 차단합니다
4
}

FFT는 task로 defer해야 합니다.

⚠️ Disable IRQ 너무 김

1
__disable_irq();
2
xSemaphoreTake(sem, portMAX_DELAY);   // block + IRQ 차단으로 deadlock

Critical section은 수 µs 이내로 유지해야 합니다.

⚠️ Tail-chaining 효과 무시

작은 ISR 여러 개와 한 큰 ISR을 비교해 보면 작은 ISR 여러 개가 더 빠를 수도 있습니다 (tail-chain 활용).

⚠️ FPU stacking overhead 미인식

FP를 사용하지 않을 때는 lazy stacking을 활용합니다. FPU register를 clobber하는 함수를 IRQ 안에서 호출하는 것은 권장하지 않습니다.

#정리

Cortex-M의 IRQ latency는 M3와 M4 기준 12 cycle입니다.
Tail-chaining은 6 cycle, late arrival은 seamless하게 선점합니다.
Lazy FP stacking은 M4/M7의 latency를 줄여 줍니다.
ISR top half는 짧게 유지하고 bottom half는 task로 미룹니다.
BASEPRI로 선택적 disable을 걸면 high IRQ는 통과시킬 수 있습니다.
Hard real-time IRQ는 configMAX_SYSCALL 위에 둡니다.

다음 편은 Interrupt Storm을 다룹니다.

#관련 항목

Embedded Performance Engineering · 24 of 57

CXL.mem 지연·대역폭 실측 — Direct·Switch·Pooled 토폴로지 비교

CXL.mem 토폴로지별 실측 — Direct attach·Single switch·Multi-host pool의 지연·대역폭 비용 측정.

2026년 6월 16일·cxl

실전 사례 — ISR Latency 100µs Deadline Miss 추적

산업용 센서 보드에서 산발적으로 발생한 ISR latency spike. 가설 두 개를 거쳐 SD 카드 드라이버를 범인으로 확정한 과정.

2026년 4월 28일·case-study

Interrupt Storm 처리 — NAPI·Rate-Limit·Polling 전환

IRQ flooding으로 main loop 봉쇄. NAPI 패턴, rate limit, interrupt coalescing.

2026년 4월 25일·interrupt