Modern Embedded Recipes · 109/152

False Sharing 해결 — Cache Line Padding·SoA 적용

2026년 4월 18일 · Hawk · 4분 읽기

#한 줄 요약

“False sharing = 다른 변수인데 같은 cache line에 있어 코어들이 서로 cache line을 끌고 다니는 현상.” SMP throughput이 갑자기 10배 떨어지는 1순위 원인입니다.

#어떤 상황에서 쓰나

per-thread counter array를 만들었는데 thread를 늘릴수록 throughput이 떨어지는 경우가 가장 흔합니다. counter 8개를 array로 두면 모두 한두 개 cache line에 모이고, 8 thread가 동시에 자기 자리만 update해도 cache coherency traffic이 폭증합니다.

또 한 가지 상황은 SPSC ring buffer의 head와 tail입니다. producer는 head만, consumer는 tail만 쓰지만 둘이 같은 line에 있으면 논리적으로는 contention이 없는데 물리적으로는 한 line을 두고 코어가 ping-pong합니다.

#핵심 개념

Cache line은 코어가 한 번에 fetch/invalidate하는 단위다.

Architecture	Line size
ARM Cortex-M7	32 B
ARM Cortex-A53/A72	64 B
Intel/AMD x86	64 B
Apple M1/M2	128 B
IBM POWER	128 B

같은 line에 있는 두 변수는 SMP 관점에서 하나처럼 움직인다. 한 코어가 write하면 다른 코어의 그 line은 invalidate된다.

해결책은 한 줄로 정리됩니다.

1
hot 공유 변수 사이에 padding을 넣어 *다른 line*에 두기

#코드 / 실제 사용 예

1
struct counters {
2
    std::atomic<long> a;       /* 8 byte */
3
    std::atomic<long> b;       /* 8 byte — a와 같은 line */
4
};
5
counters g;
6

7
void thread_a(void) {
8
    for (int i = 0; i < N; i++) g.a.fetch_add(1, std::memory_order_relaxed);
9
}
10

11
void thread_b(void) {
12
    for (int i = 0; i < N; i++) g.b.fetch_add(1, std::memory_order_relaxed);
13
}

a와 b가 같은 64 B line에 있어 두 thread가 매 op마다 cache line을 invalidate합니다.

#Good — alignas로 line 분리

1
struct counters {
2
    alignas(64) std::atomic<long> a;
3
    char pad_a[64 - sizeof(std::atomic<long>)];
4
    alignas(64) std::atomic<long> b;
5
    char pad_b[64 - sizeof(std::atomic<long>)];
6
};
7

8
static_assert(sizeof(counters) == 128, "padded counters");

각 atomic이 64 B alignment + 다음 atomic 앞에 padding이 있어 다른 line에 위치합니다.

#C++17 표준 hardware_destructive_interference_size

1
#include <new>
2

3
struct counters {
4
    alignas(std::hardware_destructive_interference_size) std::atomic<long> a;
5
    char pad[std::hardware_destructive_interference_size - sizeof(std::atomic<long>)];
6
    alignas(std::hardware_destructive_interference_size) std::atomic<long> b;
7
};

C++17부터 표준 상수가 있습니다. 칩별 line 크기를 컴파일러가 제공합니다.

#Per-CPU counter

1
constexpr int N_CPU = 8;
2

3
struct alignas(64) shard {
4
    std::atomic<long> v;
5
    char pad[64 - sizeof(std::atomic<long>)];
6
};
7
shard counters[N_CPU];
8

9
void inc(int cpu) {
10
    counters[cpu].v.fetch_add(1, std::memory_order_relaxed);
11
}
12

13
long total(void) {
14
    long s = 0;
15
    for (int i = 0; i < N_CPU; i++)
16
        s += counters[i].v.load(std::memory_order_relaxed);
17
    return s;
18
}

각 코어가 자기 line만 update하므로 contention이 0에 수렴합니다.

#Thread-local 변종

1
thread_local long my_counter;
2
std::vector<long *> all_counters;
3
std::mutex mu;
4

5
void register_thread(void) {
6
    std::lock_guard g(mu);
7
    all_counters.push_back(&my_counter);
8
}
9

10
long total(void) {
11
    long s = 0;
12
    std::lock_guard g(mu);
13
    for (auto *p : all_counters) s += *p;
14
    return s;
15
}

thread_local이면 자동으로 다른 page에 위치하므로 false sharing이 사라집니다. 다만 모든 thread의 값을 모으려면 등록이 필요합니다.

#SPSC ring buffer head/tail 분리

1
template <typename T, size_t N>
2
struct spsc_ring {
3
    alignas(64) std::atomic<size_t> head;
4
    char pad_h[64 - sizeof(std::atomic<size_t>)];
5

6
    alignas(64) std::atomic<size_t> tail;
7
    char pad_t[64 - sizeof(std::atomic<size_t>)];
8

9
    alignas(64) T buf[N];
10
};

producer는 head만, consumer는 tail만 씁니다. 두 변수가 다른 line에 있으면 coherency traffic이 0에 수렴합니다.

#Linux kernel ____cacheline_aligned

1
#include <linux/cache.h>
2

3
struct foo {
4
    int a;
5
    int b ____cacheline_aligned;    /* 새 line */
6
};
7

8
static struct bar g_bar ____cacheline_aligned;
9
DEFINE_PER_CPU(unsigned long, counters);   /* per-CPU는 자동 분리 */

Linux 커널은 ____cacheline_aligned 매크로가 표준입니다. per-CPU 변수는 자동으로 다른 line에 위치합니다.

#perf c2c로 감지

1
# Linux에서 false sharing 감지
2
sudo perf c2c record ./mybin
3
sudo perf c2c report
4

5
# HITM (modified hit) 통계가 false sharing의 신호
6
# Records 100% from L1 - HITM이 높은 cache line이 의심

perf c2c는 cache-to-cache transfer를 추적해 어느 cache line이 false sharing의 원인인지 알려줍니다.

#측정 / 성능 비교

Cortex-A72 quad core에서 atomic counter 두 개를 두 thread가 1억 번 fetch_add한 결과입니다.

구조	시간	throughput
같은 line에 a, b	7.8 s	26 M ops/s
alignas(64)만 (시작)	7.4 s	27 M ops/s
element 사이 padding	0.9 s	222 M ops/s
per-CPU sharding (4코어)	0.25 s	800 M ops/s

False sharing 제거가 8배 이상, sharding은 30배 이상의 throughput을 만듭니다.

1
Intel Xeon 8-core 비교
2
같은 line                   5.2 s
3
padded                      0.4 s     (13x)
4
per-CPU                     0.07 s   (74x)

Intel이 ARM보다 더 큰 격차를 보이는 경향이 있습니다.

#자주 보는 함정

alignas 후 padding 누락

1
struct foo {
2
    alignas(64) std::atomic<int> a;
3
    std::atomic<int> b;    /* a와 같은 line — alignas 의미 없음 */
4
};

다음 element에도 alignas를 붙이거나 명시적 padding을 넣어야 합니다.

32-byte line 칩에 64로 padding

1
alignas(64) int x;    /* Cortex-M7 line = 32 B → 메모리 두 배 낭비 */

칩별 line 크기를 확인하고 그 단위로 맞춥니다.

Array of shard에 alignas 누락

1
struct shard { std::atomic<long> v; };
2
shard arr[8];      /* 8 byte씩 — 한 line에 8개 모두 있음 */

alignas(64)를 shard struct에 붙입니다. 한 element가 한 line에 위치하게 됩니다.

Stack 변수에 큰 alignment

1
void f(void) {
2
    alignas(64) std::atomic<int> x;    /* stack은 16/32 B만 보장 */
3
}

stack pointer가 64-byte 정렬 안 될 수 있습니다. static이나 heap이 안전합니다.

Padding을 매번 손으로

1
char pad[64 - sizeof(std::atomic<long>)];   /* sizeof 바뀌면 깨짐 */

alignas로 일관성을 맞추고, _Static_assert(sizeof(...) == ...)로 검증합니다.

#정리

False sharing은 다른 변수가 같은 cache line에 있어 발생하는 SMP 성능 사고입니다.
alignas(64)만 쓰면 시작만 정렬되므로 element 사이 padding도 필요합니다.
C++17의 std::hardware_destructive_interference_size가 표준 상수입니다.
per-CPU sharding이 가장 강력한 해결책입니다.
SPSC ring buffer의 head와 tail은 반드시 다른 line에 둡니다.
perf c2c로 어느 line이 문제인지 즉시 알 수 있습니다.
칩별 line 크기(32/64/128 B)를 확인합니다.

다음 편은 MPMC 큐입니다.

False Sharing 해결 — Cache Line Padding·SoA 적용

#한 줄 요약

#어떤 상황에서 쓰나

#핵심 개념

#코드 / 실제 사용 예

#Good — alignas로 line 분리

#C++17 표준 hardware_destructive_interference_size

#Per-CPU counter

#Thread-local 변종

#SPSC ring buffer head/tail 분리

#Linux kernel ____cacheline_aligned

#perf c2c로 감지

#측정 / 성능 비교

#자주 보는 함정

#정리

#관련 항목

Modern Embedded Recipes · 110 of 152

관련 글

MPMC Queue 구현 — Multi-producer Multi-consumer Lock-Free

ABA 문제 회피 — Tagged Pointer·Hazard·Generation Counter

Spinlock vs Mutex 결정 가이드 — Context Switch·Hold Time

이 글을 참조하는 글 (3)

#한 줄 요약

#어떤 상황에서 쓰나

#핵심 개념

#코드 / 실제 사용 예

#Bad — false sharing

#Good — alignas로 line 분리

#C++17 표준 hardware_destructive_interference_size

#Per-CPU counter

#Thread-local 변종

#SPSC ring buffer head/tail 분리

#Linux kernel ____cacheline_aligned

#perf c2c로 감지

#측정 / 성능 비교

#자주 보는 함정

#정리

#관련 항목

Modern Embedded Recipes · 110 of 152

관련 글

MPMC Queue 구현 — Multi-producer Multi-consumer Lock-Free

ABA 문제 회피 — Tagged Pointer·Hazard·Generation Counter

Spinlock vs Mutex 결정 가이드 — Context Switch·Hold Time

이 글을 참조하는 글 (3)