Modern Embedded Recipes · 89/152

임베디드 동적 메모리 — malloc 위험·결정성·대안 분석

2026년 4월 17일 · Hawk · 5분 읽기

#한 줄 요약

“임베디드에서 malloc은 피하라가 기본 규칙입니다.” 대신 pool, arena, slab, static 중에 알 수 있는 패턴에 맞는 것을 고릅니다.

#어떤 상황에서 쓰나

양산 firmware가 며칠을 돌면 OOM으로 reboot 되는 사고는 거의 모두 heap fragmentation입니다. 처음에는 16 KB free heap이 충분해 보이지만, 작은 chunk가 산발적으로 free되면 큰 contiguous 영역이 사라져 1 KB malloc이 실패합니다.

또 한 가지 상황은 hard real-time입니다. 일반 malloc은 worst-case가 free list 길이에 비례하므로 한 호출에 수십 µs 이상 걸릴 수 있습니다. Control loop 안에서 이런 비결정성은 받아들이기 어렵습니다.

#핵심 개념

1
malloc 문제
2
- 비결정성     free list scan, coalesce, fragmentation 처리
3
- fragmentation 사용 가능 메모리가 작은 hole로 흩어짐
4
- 실패 처리    NULL 반환을 모든 호출자가 처리해야 함
5

6
대안
7
- static       모든 자원을 컴파일 시 결정 — 0 byte heap
8
- pool         같은 크기 N개 — fragmentation 0
9
- arena        한 lifetime에 묶인 군집 — 한 번에 reset
10
- slab         OS 커널식 — 같은 size 캐싱

각 대안의 적합한 상황입니다.

패턴	알 수 있는 것	추천 allocator
모두 컴파일 타임	모든 객체 수	static
같은 크기, 동적 수	크기 = 하나	pool
일시적 작업의 묶음	lifetime이 같은 단위	arena
종류 많고 크기 다양	크기마다 빈도가 다름	slab + cache

#코드 / 실제 사용 예

#Pool allocator (FreeRTOS style)

1
#define POOL_N    16
2
#define BLOCK_SZ  256
3

4
static uint8_t pool_buf[POOL_N][BLOCK_SZ];
5
static uint8_t pool_used[POOL_N];
6
static portMUX_TYPE pool_lock = portMUX_INITIALIZER_UNLOCKED;
7

8
void *pool_alloc(void) {
9
    void *p = NULL;
10
    portENTER_CRITICAL(&pool_lock);
11
    for (int i = 0; i < POOL_N; i++) {
12
        if (!pool_used[i]) {
13
            pool_used[i] = 1;
14
            p = pool_buf[i];
15
            break;
16
        }
17
    }
18
    portEXIT_CRITICAL(&pool_lock);
19
    return p;
20
}
21

22
void pool_free(void *p) {
23
    int idx = ((uint8_t *)p - (uint8_t *)pool_buf) / BLOCK_SZ;
24
    portENTER_CRITICAL(&pool_lock);
25
    pool_used[idx] = 0;
26
    portEXIT_CRITICAL(&pool_lock);
27
}

크기 256 byte짜리 chunk 16개의 pool입니다. fragmentation이 0이고 alloc/free가 상수 시간입니다.

#Arena (linear allocator)

1
typedef struct {
2
    uint8_t *base;
3
    size_t   cap;
4
    size_t   off;
5
} arena_t;
6

7
void *arena_alloc(arena_t *a, size_t n) {
8
    n = (n + 7) & ~7;       /* 8-byte 정렬 */
9
    if (a->off + n > a->cap) return NULL;
10
    void *p = a->base + a->off;
11
    a->off += n;
12
    return p;
13
}
14

15
void arena_reset(arena_t *a) { a->off = 0; }

한 작업 단위(예: HTTP request 처리)가 끝나면 arena_reset 한 번으로 모든 할당이 사라집니다. free 호출이 없어 가장 빠릅니다.

#Static 변종 (RTOS)

1
static StaticQueue_t  q_buf;
2
static uint8_t        q_storage[64 * sizeof(item_t)];
3
QueueHandle_t q;
4

5
void init(void) {
6
    q = xQueueCreateStatic(64, sizeof(item_t), q_storage, &q_buf);
7
}

FreeRTOS의 모든 객체는 *Static 변종이 있습니다. 양산 firmware에서 heap 사용량을 0으로 만들 수 있습니다.

#FreeRTOS heap_4 / heap_5

heap_1	할당만 가능, free 불가 — 가장 단순
heap_2	할당과 free 가능, coalesce 없음 — fragmentation 심함
heap_3	표준 malloc/free — 비결정적
heap_4	할당, free, coalesce — 일반적 선택
heap_5	heap_4 + 여러 region (DTCM, SRAM, SDRAM 등)

작은 device는 보통 heap_4를 쓰지만, 양산 firmware에서는 가능한 한 static + pool로 옮깁니다.

#Slab-like cache

1
typedef struct slab {
2
    void *free_list;
3
    void *blocks;
4
    size_t block_sz, n;
5
} slab_t;
6

7
void slab_init(slab_t *s, void *mem, size_t n, size_t sz) {
8
    s->blocks = mem;
9
    s->free_list = mem;
10
    s->block_sz = sz;
11
    s->n = n;
12
    for (size_t i = 0; i < n - 1; i++)
13
        *(void **)((char *)mem + i * sz) = (char *)mem + (i + 1) * sz;
14
    *(void **)((char *)mem + (n - 1) * sz) = NULL;
15
}
16

17
void *slab_alloc(slab_t *s) {
18
    void *p = s->free_list;
19
    if (p) s->free_list = *(void **)p;
20
    return p;
21
}
22

23
void slab_free(slab_t *s, void *p) {
24
    *(void **)p = s->free_list;
25
    s->free_list = p;
26
}

free list를 linked list로 들고 있어 alloc/free가 O(1)입니다. Linux kernel slab allocator의 단순화 버전입니다.

#Two-Level Segregated Fit (TLSF)

1
/* general-purpose 실시간 allocator
2
   alloc/free O(1) worst-case, fragmentation 매우 낮음
3
   embedded에서 heap_4를 대체하는 가장 인기 있는 선택 */
4

5
#include "tlsf.h"
6
static uint8_t pool_buf[64 * 1024];
7
tlsf_t tlsf;
8

9
void init(void) {
10
    tlsf = tlsf_create_with_pool(pool_buf, sizeof(pool_buf));
11
}
12

13
void *my_malloc(size_t n) { return tlsf_malloc(tlsf, n); }
14
void  my_free(void *p)    { tlsf_free(tlsf, p); }

TLSF는 free list를 size class로 나눠 worst-case가 상수입니다. 가변 크기 할당이 꼭 필요할 때의 표준 선택입니다.

#Statistics와 모니터링

1
typedef struct { size_t used, peak, fail; } heap_stats_t;
2
heap_stats_t g_heap;
3

4
void *tracked_malloc(size_t n) {
5
    void *p = malloc(n);
6
    if (!p) { g_heap.fail++; return NULL; }
7
    g_heap.used += n;
8
    if (g_heap.used > g_heap.peak) g_heap.peak = g_heap.used;
9
    return p;
10
}

부팅 후 peak 사용량을 봐야 size를 결정할 수 있습니다. 양산 telemetry로 항상 보내두는 것이 안전합니다.

#측정 / 성능 비교

allocator	alloc time	free time	fragmentation
static + pool	O(1) ~50 ns	O(1) ~30 ns	0
arena	O(1) ~20 ns	n/a	전체 reset만
FreeRTOS heap_4	O(N) 0.5~5 µs	O(N) 1~10 µs	중간
TLSF	O(1) ~200 ns	O(1) ~150 ns	매우 낮음
newlib malloc	가변, 길어질 수 있음	—	높음

실시간 control loop에서는 TLSF 이상이거나 static + pool이 안전합니다.

1
RAM 사용량
2
heap_4 overhead per block    ~16 B
3
TLSF overhead per block      ~8~16 B
4
pool overhead per block      0 (free list 외 자체 없음)

#자주 보는 함정

부팅 후 OOM

1
malloc failed: free=12 KB but no contiguous 1 KB

free heap 숫자만 보면 충분해 보이지만 fragmentation으로 큰 블록을 못 잡습니다. xPortGetMinimumEverFreeHeapSize보다 largest free block을 추적합니다.

Cleanup 누락

1
buf = malloc(...);
2
if (err) return -1;     /* buf leak */

C에서는 error path마다 free를 명시해야 합니다. goto cleanup 패턴 또는 RAII(C++)를 사용합니다.

ISR에서 malloc

1
void IRQ(void) { p = malloc(64); }

malloc은 critical section을 잡으므로 ISR에서 호출하면 deadlock 위험이 있습니다. ISR에서는 pre-allocated pool에서만 가져옵니다.

잘못된 크기 가정

1
p = malloc(N);    /* N이 0 또는 음수 cast 결과인 경우 */

size_t로 모든 size를 통일하고 cast를 명시합니다. unsigned underflow가 가장 흔한 사고입니다.

Static 변종을 안 씀

1
QueueHandle_t q = xQueueCreate(64, sizeof(item_t));   /* heap에서 */

양산은 static 변종으로 옮겨 heap 사용량을 0으로 만듭니다. fragmentation 사고 자체가 사라집니다.

#정리

임베디드에서 malloc은 피하라가 기본 규칙입니다.
Pool은 같은 크기, arena는 같은 lifetime, static은 컴파일 타임 결정에 씁니다.
FreeRTOS heap_4는 일반적이지만 fragmentation에 시달립니다.
TLSF는 O(1) worst-case 실시간 allocator의 표준 선택입니다.
통계는 free heap이 아니라 largest free block을 추적합니다.
ISR에서 malloc은 금지. pre-allocated pool에서만 가져옵니다.
양산 firmware는 모든 RTOS 객체를 *Static 변종으로 옮깁니다.

다음 편은 메모리 정렬과 패딩입니다. natural alignment, struct padding, packed의 함정을 다룹니다.

임베디드 동적 메모리 — malloc 위험·결정성·대안 분석

#한 줄 요약

#어떤 상황에서 쓰나

#핵심 개념

#코드 / 실제 사용 예

#Pool allocator (FreeRTOS style)

#Arena (linear allocator)

#Static 변종 (RTOS)

#FreeRTOS heap_4 / heap_5

#Slab-like cache

#Two-Level Segregated Fit (TLSF)

#Statistics와 모니터링

#측정 / 성능 비교

#자주 보는 함정

#정리

#관련 항목

Modern Embedded Recipes · 90 of 152

관련 글

메모리 오버플로우·오염 진단 — Canary·MPU·Pattern 분석

임베디드 스택 분석 — high-water·overflow 탐지

NUMA Memory Topology — numactl·numa_alloc·HBM 적용

이 글을 참조하는 글 (3)