Embedded C++ for Real Systems · 31/41

임베디드 Lock-free 기초 — atomic·memory ordering·CAS

2026년 5월 1일 · Hawk · 6분 읽기

cpp embedded lock-free atomic cas memory-order isr

Twitter LinkedIn

#한 줄 요약

“Lock-free는 mutex 없이 atomic operation으로 동기화하는 방식입니다.” 짧고 deterministic하며 ISR에서도 안전합니다.

#어떤 문제를 푸는가

Mutex는 다음과 같은 비용을 동반합니다.

context switch가 발생해 RTOS task가 block됩니다.
Priority inversion이 일어납니다. 낮은 priority가 lock을 잡으면 높은 priority가 막힙니다.
Deadlock 가능성이 있습니다. 두 개 이상의 mutex를 잘못 잡으면 발생합니다.
대부분의 RTOS에서 ISR은 mutex를 쓸 수 없습니다.

Lock-free는 mutex 없이 동시에 접근하면서 atomic 명령으로 consistency를 보장합니다.

1
// Mutex 기반
2
std::mutex m;
3
int counter = 0;
4
void increment() {
5
    std::lock_guard lock(m);
6
    counter++;
7
}
8

9
// Lock-free
10
std::atomic<int> counter{0};
11
void increment() {
12
    counter.fetch_add(1);   // atomic
13
}

ARM Cortex-M의 atomic instruction(LDREX/STREX)이 하드웨어 레벨에서 이를 보장합니다.

#std::atomic — 기본

1
#include <atomic>
2

3
std::atomic<int> counter{0};
4

5
counter.store(42);
6
int v = counter.load();
7
counter.fetch_add(1);          // counter++ (atomic)
8
int old = counter.exchange(0); // 교체
9

10
// Compare-and-swap
11
int expected = 5;
12
bool success = counter.compare_exchange_weak(expected, 10);
13
// counter == 5면 10으로 변경 + true
14
// 아니면 expected = current value + false

ARM Cortex-M에서 4-byte atomic은 single instruction이며 load/store가 자연스럽게 atomic입니다.

fetch_add나 compare_exchange는 LDREX/STREX를 사용합니다.

#CAS — Compare-And-Swap

Lock-free의 핵심 도구입니다. 값을 비교해서 일치하면 새 값으로 교체하는 동작 전체가 하나의 atomic 명령으로 실행됩니다. 다른 스레드가 끼어들면 CAS가 실패하고, 최신 값을 다시 읽어 재시도합니다.

CAS retry loop — 실패 후 reload-and-retry 흐름

1
std::atomic<Node*> head{nullptr};
2

3
void push(Node* n) {
4
    Node* old_head = head.load();
5
    do {
6
        n->next = old_head;
7
    } while (!head.compare_exchange_weak(old_head, n));
8
    // CAS 성공할 때까지 retry
9
}

흐름은 다음과 같습니다.

head의 현재 값을 old_head로 읽습니다.
n->next = old_head로 설정합니다.
CAS로 head == old_head면 n으로 교체합니다.
다른 thread가 끼어들어 head가 변경되었으면 CAS가 실패하므로 retry합니다.

retry loop이 lock-free의 특징이며 deadlock이 없습니다. 다만 contention이 높으면 starvation이 발생할 수 있습니다.

#ABA Problem

CAS의 함정입니다. 값이 A → B → A로 바뀌어도 CAS는 성공합니다.

1
// Thread 1: pop 시도
2
Node* old_top = top.load();        // = A
3
// (이때 Thread 2가 A pop, B push, A push)
4
// 이제 top = A지만 *A->next는 변경*
5
top.compare_exchange_weak(old_top, old_top->next);
6
// CAS 성공 — 그러나 old_top->next는 잘못된 값

해결책은 다음과 같습니다.

Tagged pointer — pointer + counter를 묶어 64-bit으로 다룹니다.
Hazard pointer — 다른 thread가 현재 사용 중인 pointer를 추적합니다.
Epoch-based reclamation — gc 비슷한 방식입니다.

임베디드에서는 간단한 경우에만 lock-free를 씁니다. ABA 회피가 복잡해진다면 mutex가 나을 때도 많습니다.

#Memory Order

std::atomic 연산은 memory ordering 인자를 받습니다.

1
counter.store(1, std::memory_order_relaxed);
2
counter.load(std::memory_order_acquire);
3
counter.fetch_add(1, std::memory_order_release);
4
counter.compare_exchange_weak(expected, new_value,
5
                                std::memory_order_seq_cst,
6
                                std::memory_order_acquire);

Order	의미	사용
`relaxed`	순서 보장 없음	counter만
`acquire`	load — 이후 memory 작업이 이전으로 옮겨가지 않음	reader
`release`	store — 이전 memory 작업이 이후로 옮겨가지 않음	writer
`acq_rel`	acquire + release	RMW
`seq_cst`	모든 thread가 같은 순서 (기본)	강한 보장

대부분의 임베디드 코드는 acquire/release를 활용해 seq_cst보다 빠르게 만듭니다.

#임베디드 — ISR-safe Counter

1
std::atomic<uint32_t> tick_count{0};
2

3
extern "C" void SysTick_Handler() {
4
    tick_count.fetch_add(1, std::memory_order_relaxed);
5
}
6

7
uint32_t get_uptime_ms() {
8
    return tick_count.load(std::memory_order_relaxed);
9
}

ISR과 main에서 동시에 접근해도 atomic이라 안전하고 lock도 필요 없습니다.

#임베디드 — Lock-free SPSC Queue

Single Producer Single Consumer 패턴이며, 가장 단순한 lock-free queue입니다.

1
template<typename T, size_t N>
2
class SpscQueue {
3
    static_assert((N & (N - 1)) == 0, "N must be power of 2");
4

5
    T buffer_[N];
6
    std::atomic<size_t> head_{0};   // producer
7
    std::atomic<size_t> tail_{0};   // consumer
8
    static constexpr size_t kMask = N - 1;
9

10
public:
11
    bool push(const T& value) {
12
        size_t h = head_.load(std::memory_order_relaxed);
13
        size_t next = (h + 1) & kMask;
14

15
        if (next == tail_.load(std::memory_order_acquire)) {
16
            return false;   // full
17
        }
18

19
        buffer_[h] = value;
20
        head_.store(next, std::memory_order_release);
21
        return true;
22
    }
23

24
    bool pop(T& out) {
25
        size_t t = tail_.load(std::memory_order_relaxed);
26
        if (t == head_.load(std::memory_order_acquire)) {
27
            return false;   // empty
28
        }
29

30
        out = buffer_[t];
31
        tail_.store((t + 1) & kMask, std::memory_order_release);
32
        return true;
33
    }
34
};

Producer는 head만, Consumer는 tail만 수정합니다. 서로 다른 변수를 다루므로 CAS가 필요 없습니다.

acquire/release로 한쪽의 write가 다른 쪽에서 visible하게 만듭니다.

#ISR + main 사용

1
SpscQueue<Event, 64> event_queue;
2

3
extern "C" void UART_IRQHandler() {
4
    Event e = read_uart();
5
    event_queue.push(e);   // ISR가 producer
6
}
7

8
void main_loop() {
9
    Event e;
10
    while (event_queue.pop(e)) {
11
        process(e);   // main이 consumer
12
    }
13
}

mutex 없이 ISR-main 통신이 가능하며 deterministic하게 동작합니다.

#MPMC Queue — 복잡

Multi-Producer Multi-Consumer는 훨씬 복잡합니다. Boost.Lockfree, Folly, Concurrent Data Structures 같은 검증된 라이브러리를 활용합니다.

1
// 직접 구현 어렵다 — 검증된 라이브러리 사용
2
#include <boost/lockfree/queue.hpp>
3
boost::lockfree::queue<int, boost::lockfree::capacity<128>> q;

임베디드에서는 task마다 producer와 consumer가 하나씩인 경우가 대부분이라 SPSC로 충분합니다.

#자료 정합성 — Critical Section vs Lock-free

1
// V1 — Critical section
2
void update_shared() {
3
    __disable_irq();
4
    counter++;
5
    if (counter > MAX) counter = 0;
6
    __enable_irq();
7
}
8

9
// V2 — Lock-free (단순 카운터만)
10
std::atomic<int> counter{0};
11
void update_shared() {
12
    int v;
13
    int next;
14
    do {
15
        v = counter.load();
16
        next = (v + 1) > MAX ? 0 : v + 1;
17
    } while (!counter.compare_exchange_weak(v, next));
18
}

V1은 모든 ISR을 차단하지만, V2는 해당 변수에만 영향을 줍니다. V1이 단순하지만 V2가 더 deterministic합니다.

#ARM Cortex-M의 한계

Cortex-M0/M0+는 LDREX/STREX를 지원하지 않으므로 atomic operation을 쓸 수 없습니다.

Cortex-M3, M4, M7은 LDREX/STREX가 있어 atomic을 쓸 수 있습니다.
Cortex-M0, M0+는 atomic이 없으므로 critical section만 사용합니다.

1
// Cortex-M0+
2
void increment() {
3
    __disable_irq();
4
    ++counter;
5
    __enable_irq();
6
}

Cortex-M0+에서는 interrupt disable이 가장 저렴한 동기화입니다.

#자주 보는 함정과 안티패턴

#1. Memory order 무시

1
counter.store(1);   // 기본 seq_cst — 가장 느림

필요한 최소 order만 사용합니다. relaxed/acquire/release 중 적절한 것을 고릅니다.

#2. ABA problem 무시

복잡한 lock-free에서는 tagged pointer나 hazard pointer를 씁니다. 아니면 간단한 경우에만 lock-free를 적용합니다.

#3. load 후 사용하고 store

1
int v = counter.load();
2
process(v);
3
counter.store(v + 1);   // 다른 thread가 끼어들면 race

fetch_add 같은 atomic operation을 씁니다.

#4. 큰 객체에 atomic 적용

1
std::atomic<HugeStruct> obj;   // hardware atomic 불가 — lock 사용

4 byte 이하로 만들거나 별도 동기화를 사용합니다.

#5. Cortex-M0에 atomic 가정

LDREX/STREX가 없으므로 runtime fallback이나 컴파일 에러가 발생합니다. target을 확인합니다.

#6. Lock-free라고 빠르다고 가정

contention이 높으면 CAS retry loop가 길어져 mutex보다 느릴 수도 있습니다. 반드시 측정합니다.

#측정 — atomic vs critical section

1
# Cortex-M4, simple counter increment
2

3
1. Mutex (FreeRTOS):     ~600 cycles
4
2. Critical section:     ~30 cycles
5
3. Atomic fetch_add:     ~15 cycles
6
4. Plain ++ (no sync):   ~5 cycles (but unsafe)

atomic이 가장 빠르면서도 안전합니다. critical section은 모든 ISR을 차단하므로 latency에 영향을 줍니다.

#정리

Lock-free는 atomic operation으로 mutex 없이 동시성을 다룹니다.
핵심은 std::atomic과 CAS(compare_exchange)입니다.
Memory order는 relaxed/acquire/release/seq_cst 중 필요한 최소만 선택합니다.
SPSC queue가 임베디드 lock-free의 표준이며 ISR과 main 통신에 적합합니다.
Cortex-M0/M0+는 atomic을 지원하지 않으므로 critical section을 씁니다.
ABA problem에 주의하고 복잡한 lock-free 자료구조는 전문 라이브러리에 맡깁니다.

#관련 항목

Part 4-04: Lock-free Container
Part 3-03: Pool Allocator — atomic free list
Practical RTOS Internals
CppCon: Lock-free programming

#다음 글

Part 4-04: Lock-free Container — queue와 stack의 lock-free 구현. SPSC, MPMC 차이.

Embedded C++ for Real Systems · 32 of 41

Lock-free Container 구현 — SPSC Queue·Ring Buffer

SPSC queue, MPMC stack, ring buffer — lock-free 자료구조 구현 패턴.

2026년 5월 1일·cpp

임베디드 HAL 설계 패턴 — Static·Dynamic·Hybrid 비교

범용 HAL 구조 — 벤더 종속성 격리, 다중 보드/MCU 지원, 시리즈 마무리.

2026년 5월 2일·cpp

Peripheral 추상화 — UART·SPI·I2C 공통 인터페이스 설계

UART, SPI, I2C — peripheral을 type-safe class로. Blocking, interrupt, DMA 패턴.