Embedded Performance Engineering · 30/57

Concurrency 기초 — Concurrency vs Parallelism·Race·Memory Model

2026년 4월 26일 · Hawk · 4분 읽기

concurrency parallel race memory-model

Twitter LinkedIn

#한 줄 요약

“Concurrency는 처리할 일들의 조직이고, Parallelism은 동시 실행” 이라는 Rob Pike의 정의가 출발점입니다.

#Concurrency vs Parallelism

Concurrency vs Parallelism — single core time-slicing과 multi-core 동시 실행 비교

단일 코어 RTOS는 concurrency만 제공하고, SMP Linux는 둘 다 제공합니다.

#Race Condition — 정의

여러 thread가 순서 보장 없이 공유 자원에 접근하는 상황을 race condition이라 합니다.

1
int counter = 0;
2

3
void task1(void) { counter++; }   // RMW: read, add 1, write
4
void task2(void) { counter++; }

가능한 결과:

1
Thread 1            Thread 2          counter
2
read 0
3
                    read 0
4
add → 1
5
                    add → 1
6
write 1
7
                    write 1            ← 1 (잘못! 2여야)

counter++는 실제로는 3개의 명령으로 나뉘기 때문에, 중간에 인터럽트가 들어올 수 있습니다.

#Atomic

1
#include <stdatomic.h>
2

3
atomic_int counter = 0;
4
atomic_fetch_add(&counter, 1);   // 원자적

Hardware 지원으로는 ARM의 LDREX/STREX와 x86의 LOCK XADD가 대표적입니다.

1
; ARM atomic add
2
1: ldrex r0, [r1]
3
   add r0, r0, #1
4
   strex r2, r0, [r1]
5
   cbnz r2, 1b   ; STREX 실패 (다른 thread가 끼어듦) → retry

#Memory Model — 왜 필요한가

1
/* Thread 1 */
2
x = 1;
3
y = 1;
4

5
/* Thread 2 */
6
if (y == 1)
7
    assert(x == 1);   // ← 항상 참? OoO·cache 때문에 *아닐 수 있음*

CPU와 컴파일러가 명령을 재정렬할 수 있기 때문에, Thread 2가 y=1을 보고도 x=0을 볼 가능성이 생깁니다.

Memory model은 어떤 재정렬이 허용되는지를 정의합니다.

#ARM Memory Model — Weak

1
ARMv7/v8: weakly ordered
2
  Load → Load: 재정렬 OK
3
  Load → Store: 재정렬 OK
4
  Store → Load: 재정렬 OK
5
  Store → Store: 재정렬 OK

explicit barrier 없이는 어떤 순서도 보장되지 않습니다.

1
__DMB();   // 이전 access 모두 완료 보장

#x86 Memory Model — Strong

x86 (TSO — Total Store Order):

Load → Load: in order
Store → Store: in order
Load → Store: in order
Store → Load: 재정렬 가능 (store buffer)

x86은 약한 재정렬만 허용해서 거의 sequential에 가깝지만, ARM과 POWER는 훨씬 자유롭게 재정렬됩니다.

#C11/C++11 Atomic — Memory Order

1
atomic_store_explicit(&x, 1, memory_order_release);
2
int v = atomic_load_explicit(&y, memory_order_acquire);

Order	의미	비용
`relaxed`	순서 무관 atomic	가장 싸다
`consume`	data dependency만 (사실상 deprecated)	—
`acquire`	read 후 access 재정렬 금지	보통
`release`	write 전 access 재정렬 금지	보통
`acq_rel`	both	보통
`seq_cst`	모든 thread 같은 순서 (sequential consistency)	비쌈

기본값은 seq_cst이고, 안전한 대신 가장 느립니다.

#Acquire-Release Pattern

1
/* Producer */
2
data = 42;
3
atomic_store_explicit(&ready, 1, memory_order_release);
4

5
/* Consumer */
6
if (atomic_load_explicit(&ready, memory_order_acquire) == 1) {
7
    use(data);   // ← data = 42 보장
8
}

Release는 write barrier 역할을, acquire는 read barrier 역할을 합니다. 가장 흔한 lock-free 패턴입니다.

#Sequential Consistency vs Acquire-Release

1
/* Thread 1 */
2
x.store(1, seq_cst);
3
r1 = y.load(seq_cst);
4

5
/* Thread 2 */
6
y.store(1, seq_cst);
7
r2 = x.load(seq_cst);
8

9
/* seq_cst: r1==0 && r2==0 *불가* */
10
/* acq_rel: r1==0 && r2==0 *가능* — 양쪽 store가 다른 thread에 *다른 순서*로 보임 */

Sequential consistency는 모든 thread가 같은 글로벌 순서를 보게 만드는 모델입니다.

#ARM·POWER에서 SC 비용

1
ARM: seq_cst store → DMB ISH 명령 추가 (~30 cycle)
2
     release store → 더 가벼움 (~5 cycle)
3

4
Linux kernel — 대부분 release/acquire 사용.

#DMB·DSB·ISB

1
__DMB();   // Data Memory Barrier — memory access ordering
2
__DSB();   // Data Sync Barrier — *모든* access *완료*까지 대기
3
__ISB();   // Instruction Sync Barrier — pipeline flush, instruction refetch

DMB는 atomic과 lock에 사용합니다. DSB는 clock enable이나 MPU 변경 후에 사용합니다. ISB는 self-modifying code나 mode change 시점에 사용합니다.

#Concurrent Data Structure

#Lock-based

1
xSemaphoreTake(mtx, ...);
2
queue.push(item);
3
xSemaphoreGive(mtx);

#Lock-free

1
/* SPSC (single-producer single-consumer) queue */
2
atomic_size_t head, tail;
3

4
bool push(T item) {
5
    size_t h = atomic_load_explicit(&head, memory_order_relaxed);
6
    size_t t = atomic_load_explicit(&tail, memory_order_acquire);
7
    if (h - t == CAPACITY) return false;
8
    buf[h % CAPACITY] = item;
9
    atomic_store_explicit(&head, h + 1, memory_order_release);
10
    return true;
11
}

Producer와 consumer가 분리되어 있는 경우에는 lock 없이도 안전하게 동작하므로, 더 빠릅니다.

1
struct {
2
    atomic_int a;   // CPU 0 사용
3
    atomic_int b;   // CPU 1 사용
4
} stats;

같은 cache line에 있으면 update가 일어날 때마다 다른 CPU의 cache를 invalidate시켜 100배까지 느려질 수 있습니다.

#ABA Problem

1
/* Lock-free stack */
2
T* top;
3

4
pop():
5
    T* old = top;            // read top = X
6
    /* preempt — 누군가 X pop, Y push, X 다시 push */
7
    /* top = X 다시 (그러나 next 다름) */
8
    cas(&top, old, old->next);  // ← 성공! 그러나 잘못된 next

해결책으로는 tagged pointer (top + version) 또는 hazard pointer를 사용합니다.

#자주 하는 실수

⚠️ volatile로 atomic 가정

1
volatile int counter;
2
counter++;   // ← 여전히 RMW, atomic 아님

volatile은 컴파일러의 최적화를 차단할 뿐이고, atomic은 그것과 별개입니다.

⚠️ Lock-free가 항상 빠름

작은 데이터에 낮은 contention 상황에서는 lock과 비슷하거나 오히려 더 느립니다. CAS retry overhead 때문입니다.

⚠️ Memory order 무시

1
atomic_store(&flag, 1);    // default seq_cst → 비쌈
2
atomic_load(&flag);         // seq_cst → barrier

실제로는 memory_order_release/acquire만으로 충분한 경우가 많습니다.

⚠️ Race condition은 희박해서 무시

1
Race가 1M 중 1회 발생 → 1 day in production → bug

UI bug보다 훨씬 무섭습니다. 재현이 되지 않기 때문입니다.

#정리

Concurrency는 조직이고, Parallelism은 동시 실행입니다.
Race condition은 atomic과 memory order의 조합으로 해결합니다.
ARM과 POWER는 weak memory model이라 explicit barrier가 필요합니다.
x86은 TSO 모델이라 거의 strong에 가깝습니다.
C11의 memory_order_*는 상황에 맞게 정확히 선택해야 합니다.
Acquire-release가 seq_cst보다 가볍고 충분한 경우가 많습니다.

다음 편은 False Sharing을 다룹니다.

#관련 항목

Embedded Performance Engineering · 31 of 57

실전 사례 — CXL.mem 추가로 LLM inference KV cache 처리량 회복

70B 모델 KV cache가 HBM 한계를 넘어 throughput이 무너졌을 때, CXL.mem 256 GB pool 추가로 회복한 실전 케이스.

2026년 6월 16일·cxl

CXL 성능 프로파일링 도구 — cxl-cli·DAMON·perf-mem 활용

CXL.mem 환경 성능 도구 — cxl-cli 토폴로지·DAMON page activity·perf-mem로 보는 CXL 트래픽·numastat 통계.

2026년 6월 16일·cxl

CXL.mem 지연·대역폭 실측 — Direct·Switch·Pooled 토폴로지 비교

CXL.mem 토폴로지별 실측 — Direct attach·Single switch·Multi-host pool의 지연·대역폭 비용 측정.

2026년 6월 16일·cxl

이 글을 참조하는 글 (1)

False Sharing 진단 — Cache Line Ping-Pong·Padding·측정— Embedded Performance Engineering

#한 줄 요약

#Concurrency vs Parallelism

#Race Condition — 정의

#Atomic

#Memory Model — 왜 필요한가

#ARM Memory Model — Weak

#x86 Memory Model — Strong

#C11/C++11 Atomic — Memory Order

#Acquire-Release Pattern

#Sequential Consistency vs Acquire-Release

#ARM·POWER에서 SC 비용

#DMB·DSB·ISB

#Concurrent Data Structure

#Lock-based

#Lock-free

#False Sharing — 다음 편 주제

#ABA Problem

#자주 하는 실수

#정리

#관련 항목

Embedded Performance Engineering · 31 of 57

관련 글

실전 사례 — CXL.mem 추가로 LLM inference KV cache 처리량 회복

CXL 성능 프로파일링 도구 — cxl-cli·DAMON·perf-mem 활용

CXL.mem 지연·대역폭 실측 — Direct·Switch·Pooled 토폴로지 비교

이 글을 참조하는 글 (1)