RTOS Scheduler 동작 분석 — Tick·Context Switch·Yield
#한 줄 요약
“Scheduler는 매 tick과 매 yield마다 ready list의 가장 높은 priority를 고르는 단순한 루프입니다.” 그 단순함을 이해해야 priority 역전과 jitter의 원인을 즉시 짚을 수 있습니다.
#어떤 상황에서 쓰나
설계는 깨끗한데 양산 직전에 jitter가 튀어 디버깅을 시작할 때, scheduler의 동작을 정확히 알면 5분 만에 원인이 보입니다. “왜 우선순위 5짜리 task가 100 µs를 기다리지?”라는 질문에 답하려면 context switch가 언제 일어나는지, idle task가 무슨 일을 하는지 알아야 합니다.
또 한 가지 흔한 상황은 전력입니다. 1 ms마다 tick interrupt가 들어와 sleep을 깨우면 µA 단위 절전이 불가능합니다. Tickless idle이 어떻게 작동하는지 알면 sleep 정책을 설계할 수 있습니다.
#핵심 개념
Scheduler가 호출되는 시점은 정확히 네 가지입니다.
- Tick interrupt — 매 tick (보통 1 ms) — time-slice 회전
- Task가 block — delay, queue wait, semaphore take
- Task가 unblock — ISR이나 다른 task가 깨움
yield/yield_from_isr— 명시적 양보
이 네 시점에서만 가장 높은 priority의 ready task를 골라 실행합니다. 그 사이에는 현재 task가 계속 돕니다.
preemptive higher priority가 ready 되면 즉시 빼앗음cooperative yield하지 않으면 영원히 안 바뀜time-slice 같은 priority에서 tick마다 round-robinFreeRTOS는 기본이 preemptive와 time-slice이고, Zephyr와 ThreadX도 마찬가지입니다. Cooperative는 디버깅이 단순하지만 단일 task의 무한 루프가 전체를 멈춥니다.
#코드 / 실제 사용 예
#Tick interrupt → scheduler 호출
void SysTick_Handler(void) { portTICK_HOOK(); if (xTaskIncrementTick() != pdFALSE) { portYIELD_FROM_ISR(pdTRUE); /* 더 높은 task가 깨었으면 switch */ }}매 tick마다 xTaskIncrementTick이 delay 만료와 time-slice를 확인합니다. 더 높은 priority가 깨면 ISR 종료 직후 PendSV로 context switch가 일어납니다.
#Cooperative 모드
#define configUSE_PREEMPTION 0
void task_a(void *arg) { for (;;) { do_work(); taskYIELD(); /* 명시적으로 양보해야 함 */ }}configUSE_PREEMPTION = 0이면 yield 없이는 다른 task가 절대 못 돌아옵니다. 그래서 매우 단순한 control loop에서만 안전합니다.
#Time-slice
#define configUSE_TIME_SLICING 1#define configTICK_RATE_HZ 1000
/* 같은 priority 두 task가 1 ms씩 번갈아 실행 */xTaskCreate(task_x, "x", 1024, NULL, 2, NULL);xTaskCreate(task_y, "y", 1024, NULL, 2, NULL);configUSE_TIME_SLICING을 켜면 같은 priority의 ready task들이 tick마다 회전합니다. 끄면 한 task가 끝까지 다 돕니다.
#Idle hook과 sleep
void vApplicationIdleHook(void) { /* 다른 task가 ready 될 때까지 sleep */ __WFI();}Idle task는 모든 다른 task가 block일 때만 도는 가장 낮은 priority의 task입니다. WFI(Wait For Interrupt)를 부르면 ISR이 들어올 때까지 CPU clock이 멈춥니다.
#Tickless idle
#define configUSE_TICKLESS_IDLE 1#define configEXPECTED_IDLE_TIME_BEFORE_SLEEP 2 /* tick 이상 sleep 가능하면 */
/* FreeRTOS가 자동으로 tick interrupt를 끄고 RTC로 깨움 */깨어날 task가 N tick 후에 있다면 tick interrupt를 멈추고 그만큼 sleep합니다. µA 단위 절전이 가능해지지만, RTC 기반 wake-up이 정확히 동작해야 합니다.
#Context switch 코드 (Cortex-M)
PendSV에서 호출되는 핵심 4단계.
- 현재 task의 SP 저장 — R0~R12, LR, PSR은 HW가 자동 push
- ready list에서 다음 task 선택 —
prvSelectHighestPriorityTask - 다음 task의 SP 복원
- exception return — HW가 R0~R12, LR, PSR 자동 pop
Cortex-M은 hardware가 절반의 register를 알아서 push와 pop해줍니다. 그 결과 switch 비용이 1~3 µs로 작아집니다.
#Yield 패턴
/* 큰 작업을 잘게 나눠 다른 task가 끼어들 여지를 만듦 */for (int i = 0; i < N; i += CHUNK) { process_chunk(i); taskYIELD();}Cooperative 환경이나 같은 priority의 worker들 사이에서 fairness를 만들 때 씁니다. Preemptive에서는 보통 필요 없습니다.
#측정 / 성능 비교
Cortex-M4 72 MHz, FreeRTOS 10.5에서 측정한 값입니다.
이벤트 시간tick handler 0.6 µsxTaskIncrementTick 0.8 µscontext switch (PendSV) 2.8 µsISR → task wake (전체) 5.2 µsxQueueSend → receiver 깨움 7.1 µsTick handler가 작지 않다는 점이 중요합니다. 1 ms tick이면 0.06%의 overhead가 항상 깔립니다. Latency가 중요하면 tick rate를 낮추거나 tickless를 켜는 것이 효과적입니다.
전력 (STM32L4, 80 MHz active)tick 1 kHz, idle hook 없음 4.2 mAtick 1 kHz + WFI in idle hook 0.9 mAtickless idle 12 µAWFI 한 줄과 tickless 한 옵션의 효과가 두 자릿수 배수로 나타납니다.
#자주 보는 함정
Tick rate를 올리면 jitter가 좋아진다는 오해
#define configTICK_RATE_HZ 10000 /* 0.1 ms */tick rate를 10배로 올리면 overhead도 10배입니다. Tick rate는 가장 짧은 delay 정밀도만 결정합니다. Jitter는 context switch와 priority가 결정합니다.
Idle hook에서 무거운 작업
void vApplicationIdleHook(void) { log_to_flash(); /* 다른 task가 굶음 */}Idle hook은 다른 모든 task가 block일 때만 도는 곳입니다. 긴 작업을 넣으면 latency를 가늠할 수 없습니다.
Cooperative에서 무한 루프
for (;;) { do_work(); /* yield 없음 */}Cooperative와 yield 없음이 만나면 전체 시스템이 정지합니다. Watchdog이 없으면 reset도 안 됩니다.
ISR 안에서 너무 많은 task 깨움
for (int i = 0; i < N; i++) xSemaphoreGiveFromISR(s[i], &hp);ISR이 길어지면 다른 ISR과 task가 모두 지연됩니다. ISR에서는 flag만 세우고 worker task가 N개를 처리하도록 합니다.
#정리
- Scheduler는 tick, block, unblock, yield 네 시점에서만 호출됩니다.
- Preemptive 기본에 같은 priority에 한해 time-slice가 표준입니다.
- Cortex-M의 context switch는 HW 도움으로 1~3 µs 수준입니다.
- Tick rate는 정밀도를, priority는 jitter를 결정합니다. 둘은 별개입니다.
- Idle hook의 WFI 한 줄이 mA 단위 전력 차이를 만듭니다.
- Tickless idle은 RTC wake-up이 정확해야 안전합니다.
- ISR은 항상 짧게 유지하고, 무거운 일은 task로 넘깁니다.
다음 편은 Semaphore 활용입니다. Binary, counting, resource pool 패턴을 정리합니다.
#관련 항목
Modern Embedded Recipes · 66 of 152
- 1Modern Embedded Recipes — 모던 임베디드 실전 레시피 시리즈 소개
- 2디지털 신호 기초 — Voltage Level·Edge·Setup/Hold 분석
- 3임베디드 클럭과 타이밍 — Skew·Jitter·PLL·MMCM 분석
- 4GPIO 내부 구조 분해 — Push-Pull·Open-Drain·Schmitt Trigger
- 5UART 하드웨어 동작 분석 — Baud Rate·Framing·FIFO
- 6SPI 하드웨어 분석 — Clock Mode·MOSI/MISO·Chip Select
- 7I2C 하드웨어 분석 — Open-Drain·Clock Stretching·Arbitration
- 8ADC 동작 원리 — SAR·Sigma-Delta·Pipelined 비교
- 9DAC 동작 원리 — R-2R Ladder·Sigma-Delta·Settling Time
- 10PWM 신호 생성 분석 — Duty·Frequency·Dead Time·Center-Aligned
- 11CAN 버스 전기적 특성 — Differential·Termination·Dominant/Recessive
- 12RS-485·RS-422 차동 신호 분석 — Termination·Biasing·Topology
- 13LVDS 차동 신호 분석 — Common-Mode·Impedance·Eye Pattern
- 14ARM Cortex-M 시리즈 비교 — M0·M3·M4·M7·M33·M55 분석
- 15ARM Cortex-A 시리즈 비교 — A53·A55·A72·A78·X1 분석
- 16ARM 레지스터 구조 분석 — R0~R15·CPSR·SPSR·Banked Registers
- 17Cortex-M 예외 처리 — Vector Table·NVIC·Tail-Chaining 추적
- 18ARM 메모리 맵 분석 — Normal·Device·Strongly-Ordered Region
- 19ARM L1·L2 캐시 분석 — Set Associative·Inclusive·Maintenance
- 20ARM MPU 활용 — Region·Attribute·Privilege Separation
- 21ARM MMU 기초 분석 — Translation Table·TLB·ASID
- 22ARM TrustZone-M 기초 — Secure/Non-Secure·NSC·MPC
- 23ARM Memory Barrier 실전 — DMB·DSB·ISB·DMA·MMIO
- 24임베디드 크로스 컴파일러 분석 — GCC·Clang·Sysroot 구성
- 25C 컴파일 4단계 — Preprocess·Compile·Assemble·Link 추적
- 26ELF 파일 구조 분석 — Section·Segment·Symbol Table·DWARF
- 27링커 스크립트 기초 — SECTIONS·MEMORY·entry point
- 28링커 스크립트 고급 — Overlay·BSS·init_array·LMA/VMA
- 29임베디드 스타트업 코드 분석 — Reset_Handler·Vector Table·SystemInit
- 30C 런타임 crt0 분석 — Stack·BSS Zero·Data Copy·atexit
- 31임베디드 메모리 레이아웃 — .text·.rodata·.data·.bss·.heap·.stack
- 32임베디드 컴파일러 최적화 분석 — -O0~-O3·-Os·-LTO 비교
- 33Map 파일 분석 — Symbol·Section·Size 추적으로 코드 크기 진단
- 34Make·CMake 크로스 컴파일 — Toolchain File·Sysroot 통합
- 35임베디드 Bootloader 체인 — BootROM·SPL·U-Boot·Kernel·Secure Boot
- 36첫 bare-metal 프로그램 작성 — Linker·Startup·main의 최소 구성
- 37MMIO 레지스터 직접 접근 — volatile·Memory Map·Aliasing 분석
- 38GPIO 드라이버 직접 구현 — STM32 HAL 없이 레지스터로
- 39임베디드 클럭 설정 분석 — HSE·PLL·SYSCLK·AHB/APB 분주
- 40Cortex-M 인터럽트 핸들링 — NVIC·Priority·Vector·EXTI
- 41SysTick 타이머 활용 — 24-bit Counter·1ms Tick·delay 구현
- 42UART 드라이버 구현 — polling·interrupt·DMA 3가지 방식 비교
- 43SPI 드라이버 구현 — Master·Slave·CRC·DMA
- 44I2C 드라이버 구현 — Master·7-bit/10-bit·Clock Stretching 처리
- 45임베디드 DMA 기초 — Memory-to-Memory·Peripheral·Circular Mode
- 46저전력 모드 분석 — Sleep·Stop·Standby·Wake-up Source
- 47IWDG·WWDG 워치독 구현 — Independent vs Window 비교
- 48임베디드 Flash 프로그래밍 — Erase·Program·Read While Write
- 49DDR 초기화 실패 진단 — Timing·Calibration·Walking Bit Test
- 50PWM 출력 실전 — LED 밝기·모터 속도 제어
- 51DC 모터 제어 — H-Bridge·PWM Duty·Encoder Feedback
- 52스테퍼 모터 제어 — Full Step·Half Step·Microstepping
- 53서보 모터 제어 — PWM 1ms~2ms·Closed Loop·PID
- 54Character LCD 제어 — HD44780·4-bit Mode·Custom Char
- 55SPI OLED 제어 — SSD1306·Frame Buffer·Page 단위 갱신
- 56TFT 디스플레이 구동 — RGB565·FSMC·LTDC·DMA2D
- 57환경 센서 활용 — BME280 온습압·SHT3x·BMP180 비교
- 58IMU 센서 활용 — MPU6050·LSM6DSO·Sensor Fusion
- 59CAN 통신 구현 — bxCAN·Filter·Mailbox·CAN-FD
- 60USB Device 기초 — Descriptor·Enumeration·Endpoint·HID/CDC
- 61Ethernet MAC+PHY 통합 — RMII·lwIP·DMA Descriptor
- 62SD Card + FatFs 구현 — SPI/SDIO 모드·CSD/CID·Wear
- 63RTC 활용 — Calendar·Alarm·Wake-up Timer·Backup Domain
- 64RTOS 도입 결정 분석 — Super Loop vs RTOS 트레이드오프
- 65RTOS Task 설계 패턴 — 우선순위·스택·State Machine
- 66RTOS Scheduler 동작 분석 — Tick·Context Switch·Yield
- 67RTOS Semaphore 활용 — Binary·Counting·ISR Give
- 68RTOS Mutex 활용 — Recursive·Priority Inheritance 적용
- 69RTOS Queue 활용 — By-Value·By-Reference·Timeout 패턴
- 70RTOS Event Group 활용 — Bit Wait·Sync·Notify
- 71RTOS Software Timer 활용 — One-shot·Auto-reload·Daemon Task
- 72ISR-Safe API 설계 — Reentrant·Atomic·Defer 패턴
- 73Priority Inversion 진단·예방 — Mars Pathfinder Lesson 추적
- 74Timer Wheel 분석 — Hashed·Hierarchical·O(1) Tick
- 75RTOS 디버깅 기법 — Tracealyzer·SystemView·Stack 추적
- 76임베디드 Linux 부팅 흐름 분석 — BootROM·U-Boot·Kernel·init
- 77U-Boot 활용 — bootcmd·env·tftp·boot.scr 분석
- 78Device Tree 실전 — DTS·DTB·Overlay·Phandle 추적
- 79Device Tree Overlay 적용 — Runtime fragment·dtoverlay
- 80임베디드 커널 빌드 — defconfig·menuconfig·Image·zImage
- 81커널 모듈 기초 — init/exit·Parameter·KBuild·DKMS
- 82캐릭터 드라이버 작성 — file_operations·cdev·register_chrdev
- 83Platform 드라이버 작성 — probe·remove·of_match·DT 바인딩
- 84mmap 4가지 모드 — Anonymous·File·Shared·Huge Page
- 85epoll 실전 — LT·ET·ONESHOT·EXCLUSIVE 비교
- 86UIO·VFIO 분석 — User-Space Driver와 IOMMU 격리
- 87sysfs·configfs 활용 — kobject 기반 User 인터페이스
- 88IRQ Affinity 튜닝 — smp_affinity·isolcpus·irqbalance
- 89루트 파일시스템 구축 — Buildroot 기초·Package·Toolchain
- 90임베디드 동적 메모리 — malloc 위험·결정성·대안 분석
- 91메모리 정렬과 패딩 분석 — Natural·Strict Alignment·Trap
- 92Cache Line Alignment — alignas·Padding·SoA 적용
- 93DMA-Friendly Allocator — dma_alloc_coherent·IOMMU·Pool
- 94Zero-Copy Pipeline — DMA-BUF·sendfile·io_uring·splice
- 95NUMA Memory Topology — numactl·numa_alloc·HBM 적용
- 96SIMD 활용 분석 — Intrinsics·Auto-Vectorization·OpenMP SIMD
- 97ARM NEON 심화 — Matrix Multiply·FFT·Image Filter 적용
- 98임베디드 스택 분석 — high-water·overflow 탐지
- 99임베디드 코드 크기 최적화 — -Os·LTO·Section Garbage Collection
- 100임베디드 전력 최적화 — Sleep Mode·Clock Gating·DVFS
- 101WCET 분석 기법 — Static·Measurement·Hybrid 방법론
- 102Lock-Free Ring Buffer 구현 — SPSC·Power-of-2·Memory Order
- 103Wait-Free Signaling — Atomic Flag·Sequence·Latest-Value
- 104RCU (Read-Copy-Update) 기초 — Quiescent State·Grace Period
- 105Hazard Pointer 분석 — Lock-Free Memory Reclamation
- 106Compare-And-Swap 패턴 — Stack·Counter·Linked List 적용
- 107Atomic Operation 비용 분석 — Fence·Cache Line·Contention
- 108Spinlock vs Mutex 결정 가이드 — Context Switch·Hold Time
- 109ABA 문제 회피 — Tagged Pointer·Hazard·Generation Counter
- 110False Sharing 해결 — Cache Line Padding·SoA 적용
- 111MPMC Queue 구현 — Multi-producer Multi-consumer Lock-Free
- 112임베디드 디버깅 마인드셋 — 가설·격리·재현·이분탐색
- 113JTAG·SWD 안 붙을 때 — 핀·전압·속도·세션 진단
- 114GDB 원격 디버깅 — OpenOCD·J-Link·target remote 구성
- 115Cortex-M 하드폴트 분석 — Stacked Frame·CFSR 읽기
- 116UART 안 찍힐 때 — Bare-metal 체크리스트
- 117임베디드 부팅 실패 진단 — 단계별 Isolation
- 118인터럽트 누락·중복 진단 — Priority·Pending·Re-entry 추적
- 119메모리 오버플로우·오염 진단 — Canary·MPU·Pattern 분석
- 120타이밍·Race 진단 — Heisenbug 잡는 법
- 121통신 프로토콜 분석 — Logic Analyzer와 Protocol Decoder
- 122임베디드 로깅 시스템 설계 — 레벨·버퍼·SWO·Deferred
- 123임베디드 포스트모템 분석 — Core Dump와 Field Crash
- 124FPGA 기초 분석 — LUT·FF·BRAM·DSP 자원 구조
- 125Vivado 사용법 — Project·Constraint·Synth·Impl·Bitstream
- 126PCIe BAR 매핑 분석 — Config Space·Enumeration·MMIO 접근
- 127AXI 인터페이스 — AXI4·AXI4-Lite·AXI-Stream 비교
- 128Zynq PS-PL 통신 — GP·HP·ACP 인터페이스 선택
- 129Mailbox Protocol 분석 — Host와 Accelerator를 잇는 Doorbell
- 130Command Queue·Submission Queue — NVMe·XDMA 공통 패턴
- 131DMA Completion 메커니즘 — Interrupt·Polling·Completion Ring
- 132PCIe Streaming 분석 — BAR Type·MSI-X·Kernel Bypass
- 133Vitis HLS 분석 — Pragma·Pipeline II·Dataflow 실전 감각
- 134HLS 최적화 기법 — Pipeline·Unroll·Partition·Dataflow
- 135Vitis AI 분석 — DPU·xmodel·VART
- 136OpenCL on FPGA — Kernel·Channel·Burst Memory 분석
- 137Intel Quartus 사용법 — Platform Designer·Nios II·HLS
- 138Edge Inference 분석 — Cloud vs Edge·Latency·Privacy
- 139NPU 아키텍처 분석 — Ethos·Hexagon·Systolic Array 비교
- 140딥러닝 Quantization 분석 — PTQ·QAT·INT8·INT4·Calibration
- 141TensorRT 분석 — ONNX→Engine·FP16·INT8·DLA·Multi-Stream
- 142TFLite Micro 분석 — Op Resolver·Tensor Arena·Cortex-M
- 143ONNX Runtime 분석 — Execution Provider와 Cross-Platform 배포
- 144Edge Thermal Management — Throttling·DVFS·Fan Curve·Sustained
- 145NVIDIA Jetson 분석 — Nano·Xavier·Orin·Thor·JetPack·DLA·VPI
- 146Zero-Copy Camera Pipeline — V4L2·DMA-BUF·GPU Import·NPU 직결
- 147온디바이스 LLM 추론 — llama.cpp·GGUF·MLX·KV Cache·NPU Backend
- 148Cortex-M33 TF-M·TrustZone — Secure Firmware·PSA·MCUboot
- 149Matter·Thread 분석 — IoT 통합 표준·Commissioning·Multi-Fabric
- 150PCIe → CXL 진화 — 같은 PHY 위 cache-coherent 프로토콜 추가
- 151QEMU CXL Type 3 디바이스 에뮬레이션 — 노트북에서 CXL 개발 환경 구축
- 152Linux CXL 드라이버 분석 — cxl_pci·cxl_core·region·DAX
관련 글
RTOS 디버깅 기법 — Tracealyzer·SystemView·Stack 추적
Stack high-water mark, overflow hook, deadlock 탐지, heap 분석, trace 도구까지 RTOS 디버깅을 한 자리에 정리합니다.
Timer Wheel 분석 — Hashed·Hierarchical·O(1) Tick
Timer wheel 자료구조. Hashed wheel·hierarchical wheel·O(1) tick·Linux jiffies.
RTOS Software Timer 활용 — One-shot·Auto-reload·Daemon Task
Software timer와 hardware timer의 분기점, one-shot/auto-reload, timer task context, delete 시 race를 정리합니다.