Modern Embedded Recipes · 106/152

Atomic Operation 비용 분석 — Fence·Cache Line·Contention

2026년 4월 18일 · Hawk · 4분 읽기

#한 줄 요약

“Atomic은 공짜가 아닙니다.” Memory order에 따라 LDR/STR이 LDAR/STLR로 바뀌고, contention이 있는 순간 cache line ping-pong이 발생합니다.

#어떤 상황에서 쓰나

counter, flag, ring buffer head/tail처럼 작은 공유 변수를 lock 없이 처리할 때 atomic이 필수입니다. lock보다 빠르다고 알려져 있지만, 실은 어떤 memory order로 어떤 architecture에서에 따라 lock과 비슷하거나 더 느릴 수도 있습니다.

또 한 가지 흔한 상황은 spin loop입니다. busy wait가 cache line을 끊임없이 read하면 다른 코어의 store latency가 폭증합니다. pause/yield와 backoff로 영향을 줄여야 합니다.

#핵심 개념

memory_order	보장
relaxed	atomic만, 순서 보장 없음
consume	단일 dependency chain (실무에서 acquire로 격상)
acquire	load 이후의 메모리 동작이 재배열 안 됨
release	store 이전의 메모리 동작이 재배열 안 됨
acq_rel	acquire + release
seq_cst	global total order (가장 비쌈)

ARMv8에서 매핑되는 명령어입니다.

1
load
2
  relaxed       LDR
3
  acquire       LDAR        (one-way acquire fence)
4
  seq_cst       LDAR
5

6
store
7
  relaxed       STR
8
  release       STLR        (one-way release fence)
9
  seq_cst       STLR + DMB ISH
10

11
fetch_add
12
  relaxed       LDXR/STXR loop (ARMv8.0) or LDADD (ARMv8.1 LSE)
13
  seq_cst       LDAXR/STLXR loop or LDADDAL

ARMv8.1의 LSE(Large System Extensions)가 LL/SC retry를 single instruction으로 대체해 contention에서 큰 이점을 줍니다.

#코드 / 실제 사용 예

#memory_order 사용

1
std::atomic<bool> ready{false};
2
std::atomic<int>  data{0};
3

4
/* producer */
5
data.store(42, std::memory_order_relaxed);
6
ready.store(true, std::memory_order_release);
7

8
/* consumer */
9
while (!ready.load(std::memory_order_acquire));
10
int v = data.load(std::memory_order_relaxed);
11
/* v == 42 보장 */

publish 한 쪽에 release, consume 한 쪽에 acquire가 표준 패턴입니다. seq_cst가 필요한 경우는 의외로 적습니다.

#fetch_add — LSE vs LL/SC

1
std::atomic<long> counter;
2

3
void inc(void) { counter.fetch_add(1, std::memory_order_relaxed); }

ARMv8.0 코드:

1
1:  ldxr    x0, [x1]
2
    add     x0, x0, #1
3
    stxr    w2, x0, [x1]
4
    cbnz    w2, 1b      // retry on failure

ARMv8.1 LSE 코드:

1
mov     x0, #1
2
ldadd   x0, xzr, [x1]    // single atomic

LSE는 contention 시 RMW retry가 사라져 cache line ping-pong이 크게 줄어듭니다.

#컴파일러 옵션

1
# LSE 강제 사용 (Cortex-A55, A76 이상)
2
gcc -march=armv8.1-a+lse main.c
3

4
# auto detection
5
gcc -march=armv8.1-a main.c -moutline-atomics
6
# -moutline-atomics: 런타임에 LSE 지원 시 LSE, 아니면 LL/SC 자동 선택

-moutline-atomics는 컴파일된 binary가 칩별 최적 atomic을 자동 선택합니다.

#Spin loop의 hot read 회피

1
/* 나쁨 — atomic load만 hot loop */
2
while (flag.load(std::memory_order_acquire)) {
3
    /* 매 iteration LDAR — cache line invalidate */
4
}
5

6
/* 좋음 — yield/pause로 backoff */
7
while (flag.load(std::memory_order_relaxed)) {
8
    __asm__ volatile("yield" ::: "memory");
9
}
10
if (flag.load(std::memory_order_acquire)) { ... }

hot loop의 LDR/LDAR이 다른 코어의 store latency를 폭증시킵니다. yield로 hardware에 hint를 주면 micro-architecture가 backoff를 처리합니다.

#Per-CPU counter (sharding)

1
struct alignas(64) shard {
2
    std::atomic<long> v;
3
};
4
shard counters[N_CPU];
5

6
void inc(int cpu) {
7
    counters[cpu].v.fetch_add(1, std::memory_order_relaxed);
8
}
9

10
long total(void) {
11
    long s = 0;
12
    for (int i = 0; i < N_CPU; i++)
13
        s += counters[i].v.load(std::memory_order_relaxed);
14
    return s;
15
}

contention 자체를 줄이는 가장 강력한 도구는 sharding입니다. relaxed로도 충분하니 비용이 거의 없습니다.

#relaxed counter의 함정

1
/* OK — counter는 monotonic increment만, 순서 무관 */
2
total.fetch_add(1, std::memory_order_relaxed);
3

4
/* NOK — flag 후 data 읽기는 release/acquire 필요 */
5
ready.store(true, std::memory_order_relaxed);    /* 다른 thread가 data를 못 봄 */

relaxed는 atomicity만 보장합니다. happens-before 관계가 필요한 곳에는 release/acquire를 씁니다.

#Atomic 크기와 lock-freeness

1
std::atomic<int> a;       // is_always_lock_free == true
2
std::atomic<int64_t> b;   // 32-bit arch에서 false (mutex 내장)
3
std::atomic<__int128> c;  // 대부분 false (DCAS)

std::atomic<T>::is_always_lock_free로 확인합니다. lock-free가 아니면 내부적으로 mutex가 쓰이므로 성능이 매우 떨어집니다.

#측정 / 성능 비교

1
연산 (Cortex-A72, no contention)
2
LDR / STR                  1 cycle
3
LDAR (acquire load)        2 cycle
4
STLR (release store)       2 cycle
5
LDAXR/STLXR loop           4~6 cycle
6
LDADD (LSE)                3 cycle
7
DMB ISH                    10~20 cycle

acquire/release는 거의 무료, seq_cst의 DMB가 큰 비용입니다.

1
contention 시 (8 thread, 같은 변수)
2
LL/SC fetch_add            >200 cycle/op
3
LSE   fetch_add            ~50 cycle/op
4
mutex lock/unlock          ~150 ns
5
per-CPU counter            10 cycle/op

contention이 있는 순간 비용이 폭증합니다. sharding이 가장 큰 효과를 냅니다.

1
spin loop 영향 (다른 코어에서 store)
2
hot LDAR 없음              store latency 4 cycle
3
hot LDAR 있음              store latency 60+ cycle
4
yield로 backoff            store latency 8 cycle

hot spin은 다른 코어의 정상적인 work까지 망칩니다.

#자주 보는 함정

seq_cst 남용

1
std::atomic<int> a;
2
a.fetch_add(1);    /* default = seq_cst — 가장 비쌈 */

명시적으로 relaxed/acquire/release를 골라야 합니다. 기본값이 가장 무겁습니다.

volatile로 동기화

1
volatile int flag;    /* 동기화 안 됨 — UB */

volatile은 atomic이 아니고 memory order도 보장 안 합니다. atomic을 써야 합니다.

32-bit 환경에서 64-bit atomic

1
std::atomic<int64_t> x;   /* mutex 사용 — lock-free 아님 */

architecture를 확인해 lock-free인지 검증합니다.

Backoff 없는 spin

1
while (locked.load());   /* hot LDR — 시스템 전반 영향 */

yield/pause로 hardware hint를 줍니다.

Memory order를 단계적으로 확인 안 함

1
flag.store(true);    /* default seq_cst */
2
/* 코드 다 짜고 나서 "relaxed로 되나?" 고민 — 위험 */

설계 시 memory order를 먼저 결정합니다. 나중에 약하게 바꾸면 race가 생길 수 있습니다.

#정리

atomic 비용은 memory order에 따라 1 cycle에서 20 cycle 이상까지 변합니다.
ARMv8.1의 LSE는 LL/SC retry를 single instruction으로 대체해 contention에 강합니다.
spin loop은 yield/pause로 backoff를 둬야 다른 코어 work를 망치지 않습니다.
sharding(per-CPU counter)이 contention을 가장 효과적으로 줄입니다.
relaxed는 monotonic counter에만, publish/consume은 release/acquire가 표준입니다.
32-bit 환경에서 64-bit atomic은 lock-free가 아닐 수 있습니다.
volatile은 atomic이 아닙니다. atomic을 씁니다.

다음 편은 Spinlock vs Mutex 결정입니다.

Atomic Operation 비용 분석 — Fence·Cache Line·Contention

#한 줄 요약

#어떤 상황에서 쓰나

#핵심 개념

#코드 / 실제 사용 예

#memory_order 사용

#fetch_add — LSE vs LL/SC

#컴파일러 옵션

#Spin loop의 hot read 회피

#Per-CPU counter (sharding)

#relaxed counter의 함정

#Atomic 크기와 lock-freeness

#측정 / 성능 비교

#자주 보는 함정

#정리

#관련 항목

Modern Embedded Recipes · 107 of 152

관련 글

Compare-And-Swap 패턴 — Stack·Counter·Linked List 적용

MPMC Queue 구현 — Multi-producer Multi-consumer Lock-Free

False Sharing 해결 — Cache Line Padding·SoA 적용

이 글을 참조하는 글 (3)