Embedded Performance Engineering · 10/57

Pipeline Stall 분석 — Data·Structural·Control Hazard·Forwarding

2026년 4월 24일 · Hawk · 4분 읽기

#한 줄 요약

Stall은 pipeline bubble입니다. 명령이 진행하지 못하면서 IPC가 손실됩니다.

#Data Hazard 3종 (RAW·WAR·WAW)

#RAW (Read After Write) — 진짜 의존성

1
add r0, r1, r2   ; r0 = r1 + r2
2
sub r3, r0, r4   ; r0 사용 — RAW

sub가 r0를 읽을 때 add 결과가 필요합니다. Forwarding으로 해결합니다.

#WAR (Write After Read) — 반의존성

1
add r0, r1, r2   ; r1 read
2
sub r1, r3, r4   ; r1 write

In-order pipeline에서는 문제가 없습니다. OoO에서는 register renaming으로 해결합니다.

#WAW (Write After Write) — 출력 의존성

1
add r0, r1, r2
2
sub r0, r3, r4   ; r0 다시 write

In-order는 자동으로 처리되고, OoO는 renaming으로 처리합니다.

#Forwarding (Bypass)

Forwarding path — EX 단계 출력을 다음 명령의 EX 입력으로 직접 연결

EX 단계의 출력을 다음 명령의 EX 입력에 직접 연결합니다. 별도 wire로 register file을 우회합니다. ARM Cortex-A에는 Operand Forwarding Unit이 있습니다.

#Load-Use Stall — Forwarding 불가능 케이스

1
ldr r0, [r1]     F D E M W
2
                       ↑ load 결과 = M 단계 끝
3
add r2, r0, r3   F D E       ; E 단계에 r0 필요 — but M 단계 안 끝남
4
                     ─── 1 cycle bubble ───

ARM Cortex-M3/M4의 load-use penalty는 1 cycle입니다. Cortex-M7은 2 cycle입니다.

#해결책은 명령 재정렬

1
; 회피
2
ldr r0, [r1]
3
add r2, r0, r3   ; ← stall
4

5
; Good
6
ldr r0, [r1]
7
add r4, r5, r6   ; 독립 명령 삽입
8
add r2, r0, r3   ; ← load 결과 사용 시점에 준비됨

-O2 이상에서 컴파일러가 자동으로 재정렬합니다. volatile 변수는 순서가 고정되어 재정렬되지 않습니다.

#Structural Hazard

1
; 가상 — 단일 memory port 가정
2
ldr r0, [r1]    ; F D E M  ← memory
3
ldr r2, [r3]    ; F D E    ← M 단계에 또 memory 시도 → stall

Harvard architecture를 쓰면 instruction memory와 data memory가 분리되어 동시에 액세스할 수 있습니다.

ARM Cortex-M3/M4는 single port Harvard입니다 (I/D 통합 bus). M7은 dual port TCM을 가집니다.

#Control Hazard

1
beq r0, r1, label   ; F D E
2
                       ↑ E 단계에 분기 확정
3
nop                 ; F (이미 fetch — 분기 시 flush)
4
nop                 ; F

branch prediction으로 해결합니다. 별도 편에서 다룹니다.

#ARM Cortex-M4 Cycle 측정 예

1
volatile uint32_t a, b, c, d;
2

3
void test_no_stall(void) {
4
    /* 독립 명령 — stall 없음 */
5
    asm volatile (
6
        "add r0, r1, r2 \n"
7
        "add r3, r4, r5 \n"
8
        "add r6, r7, r8 \n"
9
    );
10
}
11

12
void test_raw_chain(void) {
13
    /* RAW chain — forwarding으로 처리 */
14
    asm volatile (
15
        "add r0, r1, r2 \n"
16
        "add r3, r0, r4 \n"   /* r0 의존 */
17
        "add r5, r3, r6 \n"   /* r3 의존 */
18
    );
19
}
20

21
void test_load_use(void) {
22
    asm volatile (
23
        "ldr r0, [%0]    \n"
24
        "add r1, r0, r0  \n"   /* load-use stall 1 cycle */
25
        :: "r"(&a)
26
    );
27
}

DWT CYCCNT로 측정하면 test_no_stall과 test_raw_chain은 같은 cycle이고, test_load_use는 1 cycle이 더 걸립니다.

#PMU STALL Counter (Cortex-A)

Cortex-A53 Performance Monitoring Unit의 이벤트는 다음과 같습니다.

Event	의미
`0x23` STALL_FRONTEND	F·D 단계 stall입니다 (cache miss·branch mispredict)
`0x24` STALL_BACKEND	E·M 단계 stall입니다 (data dependency·memory)
`0x73` STALL_BACKEND_MEM	memory bound stall입니다

1
/* perf_event_open으로 측정 */
2
struct perf_event_attr attr = {
3
    .type = PERF_TYPE_RAW,
4
    .config = 0x24,   // STALL_BACKEND
5
};
6
int fd = perf_event_open(&attr, 0, -1, -1, 0);

STALL_FRONTEND > STALL_BACKEND이면 fetch bound입니다 (cache miss나 mispredict가 의심됩니다). STALL_BACKEND > STALL_FRONTEND이면 compute나 memory bound입니다 (data dependency나 DRAM 대기입니다).

#Out-of-Order Renaming

Cortex-A72 등 OoO 코어의 동작은 다음과 같습니다.

1
ISA 레벨:   r0 = r1 + r2
2
            r3 = r0 + r4
3
            r0 = r5 + r6   (WAW!)
4
            r7 = r0 + r8
5

6
Renaming 후:
7
            v10 = v1 + v2
8
            v11 = v10 + v4
9
            v12 = v5 + v6   (WAW 해소)
10
            v13 = v12 + v8

Architectural register r0의 두 정의가 physical register 두 개로 분리됩니다. 의존성 cycle이 없는 분리된 stream으로 실행할 수 있습니다.

#Conditional Execution — Cortex-M4 (Thumb-2 IT)

1
cmp r0, r1
2
it lt
3
movlt r2, #1   ; if (r0 < r1) r2 = 1; else nothing

분기 없이 conditional move를 수행하여 control hazard를 회피합니다. 짧은 if-then 패턴에 최적입니다.

1
; 회피 (branch hazard)
2
cmp r0, r1
3
bge skip
4
mov r2, #1
5
skip:
6

7
; Good (no branch)
8
cmp r0, r1
9
it lt
10
movlt r2, #1

다만 Cortex-A는 IT block 효율이 떨어집니다. 그래서 컴파일러가 자동으로 판단합니다.

#NEON·DSP — SIMD로 Latency Hiding

1
; 4 element 합산 — scalar
2
add r0, r1, r2
3
add r0, r0, r3   ; RAW chain (4 cycle)
4
add r0, r0, r4
5
add r0, r0, r5
6

7
; NEON SIMD
8
vadd.f32 q0, q1, q2   ; 4 elements 동시 — 1 cycle

SIMD는 수평적 병렬화이므로 RAW chain을 우회합니다.

#자주 하는 실수

⚠️ -O0에서 stall 측정

1
gcc -O0 -o test test.c
2
# 의미 없음 — 컴파일러가 명령 재정렬 안 함, 결과 inconsistent

성능 측정은 최소 -O2에서 해야 합니다.

⚠️ volatile로 모든 변수 표시

1
volatile uint32_t counter;   // ← 모든 access fence
2
counter++;                   // load + add + store, 재정렬 금지

성능 critical loop에서 volatile는 컴파일러 최적화를 차단합니다. register와 통신 register에만 volatile을 씁니다.

⚠️ Branch가 항상 stall이라 가정

Modern CPU에서는 predict가 성공하면 stall = 0입니다. Branch 자체가 문제가 아니라 misprediction이 문제입니다.

⚠️ Forwarding 의존성 무시

1
for (int i = 0; i < N; i++) {
2
    x = x + a[i];   ; ← RAW chain — 한 cycle 1 add만
3
}

Loop unroll로 독립 accumulator를 만듭니다.

1
for (int i = 0; i < N; i += 4) {
2
    x0 += a[i];
3
    x1 += a[i+1];
4
    x2 += a[i+2];
5
    x3 += a[i+3];
6
}
7
sum = x0 + x1 + x2 + x3;

#정리

Stall은 pipeline bubble이며, IPC 손실로 이어집니다.
RAW (data dependency)는 forwarding으로 해결합니다.
Load-use는 forwarding이 불가하여 1-2 cycle penalty가 있습니다.
PMU STALL_FRONTEND와 STALL_BACKEND로 원인을 추정합니다.
컴파일러 -O2, loop unroll, SIMD로 stall을 회피합니다.

다음 편은 Branch Prediction입니다.