Embedded Performance Engineering · 26/57

Peripheral Clock 분석 — PLL·Divider·Gating·DVFS

2026년 4월 25일 · Hawk · 4분 읽기

clock peripheral dvfs rcc pll

Twitter LinkedIn

#한 줄 요약

“Peripheral clock = 속도 + 전력” 입니다. 분주가 SPI MHz와 UART baud를 결정합니다.

#Clock Tree — STM32H743 예

각 peripheral은 별도의 clock source를 선택할 수 있고, 이렇게 하면 power를 최적화할 수 있습니다.

#RCC Enable·Disable

1
__HAL_RCC_USART1_CLK_ENABLE();
2
__HAL_RCC_SPI1_CLK_ENABLE();
3
__HAL_RCC_GPIOA_CLK_ENABLE();
4

5
/* Disable when unused → power 절약 */
6
__HAL_RCC_USART2_CLK_DISABLE();

Cortex-M은 reset 직후 모든 peripheral clock이 OFF 상태이므로, 사용하기 전에 반드시 활성화해야 합니다.

1
RCC->APB2ENR |= RCC_APB2ENR_USART1EN;
2
__DSB();   // ← clock stable 대기
3
USART1->BRR = 1000;   // safe

#SPI Clock 계산

1
hspi1.Init.BaudRatePrescaler = SPI_BAUDRATEPRESCALER_8;
2
/* SPI1 source = APB2 = 100 MHz
3
   SPI_CLK = 100 / 8 = 12.5 MHz */

Prescaler는 2, 4, 8, 16, 32, 64, 128, 256 중에서 고릅니다.

BaudRate	Prescaler	Period
50 MHz	/2	20 ns
25 MHz	/4	40 ns
12.5 MHz	/8	80 ns
6.25 MHz	/16	160 ns

SPI slave 데이터시트의 fSPI_MAX를 넘기지 않도록 합니다.

#UART Baud Rate

1
huart1.Init.BaudRate = 115200;
2
/* USART_BRR = PCLK / baud
3
   = 100,000,000 / 115200 = 868.05...
4
   → 정수만 가능, fractional은 *DIV_FRACTION* 필드 */

오차:

$\text{ideal} = \frac{100{,}000{,}000}{868} = 115{,}207$

$\text{error} = \frac{115{,}207 - 115{,}200}{115{,}200} = 0.006\%$

3% 이내이므로 OK입니다. PLL이 깨끗한 정수 비율이면 오차가 0이 됩니다.

#Clock Gating — Linux CCF

1
Common Clock Framework — kernel/clk-provider.h
2

3
각 driver:
4
struct clk *clk = devm_clk_get(dev, "core");
5
clk_prepare_enable(clk);
6
/* peripheral 사용 */
7
clk_disable_unprepare(clk);

사용하지 않는 driver는 clock이 자동으로 disable되어 전력을 절약해 줍니다.

1
# 현재 상태
2
cat /sys/kernel/debug/clk/clk_summary

#DVFS — Dynamic Voltage·Frequency Scaling

1
Workload high → CPU freq ↑, voltage ↑
2
Workload low → CPU freq ↓, voltage ↓

Linux cpufreq:

1
# governor 설정
2
echo ondemand > /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor
3

4
# 강제 frequency
5
echo userspace > .../scaling_governor
6
echo 600000 > .../scaling_setspeed   # 600 MHz

전력은 V² × f에 비례하므로, V를 약간만 줄여도 전력을 크게 절약할 수 있습니다.

#자동차 사례 — 변속·정차에 따른 DVFS

1
void on_idle(void) {
2
    /* 차량 정차 — CPU 100 MHz */
3
    set_pll(100_MHZ);
4
    set_voltage(VDD_0_9V);
5
}
6

7
void on_accel(void) {
8
    /* 가속 — CPU 600 MHz */
9
    set_voltage(VDD_1_1V);   // *먼저* voltage 올림
10
    settle_us(100);
11
    set_pll(600_MHZ);
12
}

순서는 voltage를 먼저 올리고 frequency를 나중에 올리는 것입니다. 반대로 하면 under-voltage fault가 발생합니다.

#PLL Lock Time

1
RCC->PLLCFGR = PLL_CONFIG;
2
RCC->CR |= RCC_CR_PLLON;
3
while (!(RCC->CR & RCC_CR_PLLRDY)) {}   // ~100 µs wait
4

5
RCC->CFGR |= RCC_CFGR_SW_PLL;

PLL lock에는 수십 µs가 걸리고, power-up이나 DVFS 시점에는 그 동안 blocking됩니다. RTC backup으로 이 구간을 우회할 수 있습니다.

#CSS — Clock Security System

1
RCC->CR |= RCC_CR_CSSON;

HSE 실패(XTAL 깨짐)를 감지하면 자동으로 HSI로 fallback합니다. 자동차나 항공처럼 안전이 중요한 영역에서 자주 쓰입니다.

1
void NMI_Handler(void) {
2
    if (RCC->CIR & RCC_CIR_CSSF) {
3
        log_fault();
4
        reset_or_fallback();
5
    }
6
}

#Sleep·Stop·Standby — Cortex-M

1
/* Sleep — CPU off, peripheral on */
2
__WFI();
3

4
/* Stop — clock off, RAM 유지 */
5
HAL_PWR_EnterSTOPMode(PWR_MAINREGULATOR_ON, PWR_STOPENTRY_WFI);
6

7
/* Standby — 모든 것 off, RAM 잃음 */
8
HAL_PWR_EnterSTANDBYMode();

각 모드는 wakeup latency와 트레이드오프 관계입니다.

Mode	Wakeup	Current
Sleep	0 µs	5 mA
Stop	~10 µs	200 µA
Standby	~200 µs (reset)	1 µA

#ESP32 — Light Sleep·Deep Sleep

1
/* Light sleep — 1 ms wakeup, RTC 유지 */
2
esp_light_sleep_start();
3

4
/* Deep sleep — 수 µA */
5
esp_deep_sleep_start();
6
/* → 깨어나면 reset에 가까움 (RTC RAM만 유지) */

IoT 센서는 99% deep sleep + 1% active 패턴으로 배터리를 수 년 단위로 끌고 갑니다.

#Linux 측정 — powertop·turbostat

1
sudo powertop --auto-tune
2
# 자동으로 전력 절약 설정 권장
3

4
turbostat
5
# CPU package power·core frequency·C-state residency

#자주 하는 실수

⚠️ Clock enable 안 하고 register access

1
USART1->CR1 = USART_CR1_UE;   // ← fault: clock 미활성

__HAL_RCC_USART1_CLK_ENABLE()를 먼저 호출해야 합니다.

⚠️ DVFS 시 voltage·frequency 순서 잘못

1
set_pll(600_MHZ);          // → under-voltage fault
2
set_voltage(VDD_1_1V);

상승할 때는 voltage를 먼저, frequency를 나중에 올립니다. 하강할 때는 반대로 frequency를 먼저 내립니다.

⚠️ Stop mode에서 USB·Ethernet 동작 기대

Stop은 모든 PLL을 끄기 때문에 USB와 Ethernet이 멈춥니다. 이런 peripheral을 살려두려면 Sleep만 사용해야 합니다.

⚠️ CSS 비활성

XTAL이 깨지면 system이 hang하므로, CSS를 enable해서 자동 fallback이 동작하게 해야 합니다.

#정리

Clock tree는 HSE/HSI → PLL → AHB → APB → peripheral 순서로 흐릅니다.
Peripheral clock을 enable한 뒤에 register에 접근해야 합니다.
SPI와 UART baud는 prescaler로 맞춥니다.
DVFS는 워크로드에 따라 V와 f를 동적으로 조정해서 V² × f만큼 전력을 절약합니다.
PLL lock에는 수십 µs가 걸립니다.
Sleep, Stop, Standby는 wakeup latency와 current 사이의 트레이드오프를 만듭니다.

다음 편은 Power vs Performance를 다룹니다.

#관련 항목

Embedded Performance Engineering · 27 of 57

Power vs Performance 트레이드오프 — DVFS·Race-to-Idle·Big.LITTLE

DVFS governor, race-to-idle, big.LITTLE, CPU 코어 hotplug, 측정·tuning.

2026년 4월 25일·power

실전 사례 — CXL.mem 추가로 LLM inference KV cache 처리량 회복

70B 모델 KV cache가 HBM 한계를 넘어 throughput이 무너졌을 때, CXL.mem 256 GB pool 추가로 회복한 실전 케이스.

2026년 6월 16일·cxl

CXL 성능 프로파일링 도구 — cxl-cli·DAMON·perf-mem 활용

CXL.mem 환경 성능 도구 — cxl-cli 토폴로지·DAMON page activity·perf-mem로 보는 CXL 트래픽·numastat 통계.