Embedded Performance Engineering · 6/57

임베디드 벤치마킹 기초 — 재현성·Warmup·노이즈 제거

2026년 4월 23일 · Hawk · 4분 읽기

benchmark reproducibility warmup coremark isolation

Twitter LinkedIn

#한 줄 요약

벤치마크는 재현성이 있어야 합니다. Warmup, isolation, N=100+가 필수입니다. 한 번 측정은 거짓말입니다.

#좋은 벤치마크의 5 조건

Reproducible — 같은 결과가 매번 나옵니다.
Representative — 실 워크로드를 대표합니다.
Stable — 변동이 ±5% 이내입니다.
Isolated — 외부 영향이 제거됩니다.
Measurable — 명확한 metric이 있습니다.

#Warmup — 첫 측정은 버린다

1
첫 측정:    150 ms (cache cold, branch predictor 미학습)
2
2-10번째:   90-110 ms (warmup 중)
3
11번째+:    100 ms ± 5% (정상)

해결책은 처음 N회 측정을 무시하는 것입니다.

1
for (int i = 0; i < WARMUP; i++) work();   // discard
2
for (int i = 0; i < N; i++) {
3
    uint32_t t = DWT->CYCCNT;
4
    work();
5
    record(DWT->CYCCNT - t);
6
}

WARMUP은 10에서 100 사이를 권장합니다.

#Isolation — 노이즈 제거

#Linux

1
# CPU pinning
2
taskset -c 3 ./benchmark
3

4
# Disable frequency scaling
5
echo performance | sudo tee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor
6

7
# Isolate CPU (kernel boot)
8
isolcpus=2,3   # CPU 2,3을 scheduler에서 제외
9

10
# Network·other interrupts off
11
sudo systemctl stop irqbalance
12

13
# Disable ASLR (predictable)
14
echo 0 | sudo tee /proc/sys/kernel/randomize_va_space

#Bare-metal

다른 task를 disable합니다.
ISR을 mask합니다 (__disable_irq() for critical region).
DMA를 정지합니다.
Cache를 enable하고 warm합니다.

#N=1은 거짓말

1
한 번 측정: 100 ms
2
실은 95-110 ms 분포 (±5%)

N은 100 이상이 필요합니다. 평균·p99·max·stdev를 모두 보고해야 합니다.

1
struct {
2
    uint32_t min, max, sum;
3
    uint32_t hist[64];
4
} stats;

#CoreMark — EEMBC 표준

비영리 EEMBC의 임베디드 표준 벤치마크입니다. 표준화된 integer workload여서 모든 칩을 비교할 수 있습니다.

1
# 빌드
2
git clone https://github.com/eembc/coremark
3
cd coremark
4
make PORT_DIR=linux64
5

6
# 실행
7
./coremark.exe
8
# CoreMark 1.0 : 13841 / GCC 11.4.0 -O2 ...

#결과 비교

CPU	CoreMark	CoreMark/MHz
Cortex-M0+ @ 50 MHz	100	2.0
Cortex-M4F @ 168 MHz	850	5.1
Cortex-M7 @ 480 MHz	2900	6.0
Cortex-A53 @ 1.5 GHz	6300	4.2
RISC-V SiFive E31 @ 320 MHz	1500	4.7
ESP32-C3 @ 160 MHz	530	3.3

CoreMark/MHz는 아키텍처 효율을 나타냅니다. Cortex-M7이 가장 높습니다.

#Dhrystone (DMIPS) — 옛 표준

1984년 Reinhold Weicker가 만든 integer workload입니다.

1
Cortex-M0+: 0.95 DMIPS/MHz
2
Cortex-M4:  1.25 DMIPS/MHz
3
Cortex-A53: 2.30 DMIPS/MHz

다만 컴파일러 최적화에 민감하고 실 워크로드 대표성이 약하다는 비판이 있습니다. 그래서 CoreMark가 더 신뢰받습니다.

#SPEC CPU — Server/Desktop 표준

SPECint와 SPECfp가 있습니다. 라이선스가 비싸고 임베디드에는 너무 무겁습니다.

#Linux Benchmarks

도구	측정
`sysbench`	CPU·memory·thread·mutex
`iperf3`	network bandwidth
`UnixBench`	종합
`fio`	disk I/O
`stress-ng`	부하 발생
`phoronix-test-suite`	자동 multi-bench

#Micro-Benchmark 작성

1
#include "benchmark.h"
2

3
void bench_memcpy_1k(void) {
4
    static uint8_t src[1024], dst[1024];
5
    memcpy(dst, src, sizeof(src));
6
}
7

8
BENCHMARK(bench_memcpy_1k);
9
BENCHMARK_MAIN();

Google Benchmark나 Catch2를 활용합니다.

#Compiler가 최적화로 지워버리는 것 방지

1
volatile int sink;
2
sink = result;     // optimizer가 result 계산 제거 못 함
3

4
// 또는 __asm__ memory barrier
5
__asm__ volatile("" : : "r"(result) : "memory");

#임베디드 벤치 패턴

1
void run_bench(const char *name, void (*fn)(void)) {
2
    // Warmup
3
    for (int i = 0; i < 10; i++) fn();
4

5
    // Measure
6
    uint32_t min = UINT32_MAX, max = 0, sum = 0;
7
    for (int i = 0; i < 100; i++) {
8
        uint32_t t = DWT->CYCCNT;
9
        fn();
10
        uint32_t e = DWT->CYCCNT - t;
11
        if (e < min) min = e;
12
        if (e > max) max = e;
13
        sum += e;
14
    }
15
    printf("%s: avg=%u min=%u max=%u\n", name, sum/100, min, max);
16
}

#Comparative Benchmark

A/B 비교는 같은 환경에서 다른 옵션을 비교하는 방식입니다.

1
Baseline:           100 ms ± 5
2
Optimization A:      85 ms ± 4 (15% 개선)
3
Optimization B:      90 ms ± 7 (10% but jitter↑)

Statistical test가 필요합니다. Mann-Whitney U test로 차이가 유의미한가를 검증합니다.

#A/B Test Pitfall

같은 코드를 자신과 비교해도 ±5% 변동이 자연스럽게 발생합니다. 10% 미만 개선은 noise일 가능성이 있습니다.

#Continuous Benchmarking

1
# CI/CD에서 매 PR마다 자동 benchmark
2
- name: Benchmark
3
  run: |
4
    ./benchmark > current.txt
5
    diff baseline.txt current.txt | check_regression

Production code의 성능 회귀를 자동으로 감지합니다.

#자주 하는 실수

⚠️ N=1 또는 N=10

Stdev를 모르므로 결론을 내릴 수 없습니다. N ≥ 100이 필요합니다.

⚠️ Warmup 없이

Cache cold 상태라 부정확합니다. 10회 이상 warmup이 필요합니다.

⚠️ Different workload 비교

apples to oranges 비교가 됩니다. 같은 input과 환경을 써야 합니다.

⚠️ Compiler가 result를 최적화로 제거

앞에서 본 것처럼 volatile이나 asm barrier로 막아야 합니다.

#정리

벤치마크는 재현 + 대표 + 안정 + 격리 + 측정의 다섯 가지가 핵심입니다.
Warmup 10-100회와 **measurement N=100+**가 필요합니다.
CoreMark가 임베디드 표준입니다 (CoreMark/MHz로 효율을 봅니다).
Linux는 CPU pinning, frequency lock, isolcpus를 함께 씁니다.
A/B 비교에는 statistical test가 필요합니다. 10% 미만은 noise일 수 있습니다.

다음 편은 성능 모델링입니다. Amdahl과 Roofline을 다룹니다.

#관련 항목

Embedded Performance Engineering · 7 of 57

실전 사례 — CXL.mem 추가로 LLM inference KV cache 처리량 회복

70B 모델 KV cache가 HBM 한계를 넘어 throughput이 무너졌을 때, CXL.mem 256 GB pool 추가로 회복한 실전 케이스.

2026년 6월 16일·cxl

CXL 성능 프로파일링 도구 — cxl-cli·DAMON·perf-mem 활용

CXL.mem 환경 성능 도구 — cxl-cli 토폴로지·DAMON page activity·perf-mem로 보는 CXL 트래픽·numastat 통계.

2026년 6월 16일·cxl

CXL.mem 지연·대역폭 실측 — Direct·Switch·Pooled 토폴로지 비교

CXL.mem 토폴로지별 실측 — Direct attach·Single switch·Multi-host pool의 지연·대역폭 비용 측정.

2026년 6월 16일·cxl

임베디드 벤치마킹 기초 — 재현성·Warmup·노이즈 제거

#한 줄 요약

#좋은 벤치마크의 5 조건

#Warmup — 첫 측정은 버린다

#Isolation — 노이즈 제거

#Linux

#Bare-metal

#N=1은 거짓말

#CoreMark — EEMBC 표준

#결과 비교

#Dhrystone (DMIPS) — 옛 표준

#SPEC CPU — Server/Desktop 표준

#Linux Benchmarks

#Micro-Benchmark 작성

#Compiler가 최적화로 지워버리는 것 방지

#임베디드 벤치 패턴

#Comparative Benchmark

#A/B Test Pitfall

#Continuous Benchmarking

#자주 하는 실수

#정리

#관련 항목

Embedded Performance Engineering · 7 of 57

관련 글

실전 사례 — CXL.mem 추가로 LLM inference KV cache 처리량 회복

CXL 성능 프로파일링 도구 — cxl-cli·DAMON·perf-mem 활용

CXL.mem 지연·대역폭 실측 — Direct·Switch·Pooled 토폴로지 비교

이 글을 참조하는 글 (2)