FPGA 기초 분석 — LUT·FF·BRAM·DSP 자원 구조
#한 줄 요약
“FPGA는 programable 논리 회로입니다.” SW 개발자에게는 “thread를 무한히 띄울 수 있는 board”로 보입니다. 단, 각 thread는 clock cycle 단위로 결정적입니다.
#어떤 상황에서 쓰나
CPU 한 코어로는 못 따라가는 완전 병렬 작업, deterministic latency가 필요한 작업, custom protocol 처리에 FPGA가 답입니다. 카메라 8대 동시 전처리, 100 Gbps 패킷 처리, motor control의 PWM, DSP filter chain, custom bus bridge가 대표 사례입니다.
MCU/SoC에 FPGA를 붙이는 이유는 flexibility와 parallelism 둘 다. ASIC은 빠르지만 한 번 굽고 나면 못 바꿉니다. FPGA는 다시 굽기만 하면 회로 자체가 바뀝니다.
#핵심 구성 요소
FPGA fabric은 다음 블록으로 짜여 있습니다.
| 약어 | 이름 | 역할 |
|---|---|---|
| LUT | Look-Up Table | 임의의 boolean 함수 (조합 회로) |
| FF | Flip-Flop | 1-bit 레지스터 (순차 회로) |
| CLB | Configurable Logic Block | LUT + FF + carry chain 묶음 |
| BRAM | Block RAM | 18~36 Kbit on-chip SRAM |
| DSP slice | DSP48 등 | 18×18 또는 25×18 multiplier + accumulator |
| IOB | I/O Block | 핀과의 인터페이스 |
| PLL/MMCM | — | Clock 합성 |
| Routing | — | switch matrix |
이 셋의 비율이 FPGA의 성격을 결정합니다. Xilinx Artix-7은 LUT 위주, Kintex는 DSP/BRAM 풍부, Zynq UltraScale+는 DSP+SoC 결합형입니다.
#LUT — 임의의 boolean
4-LUT: 4 input → 1 output truth table 16 entry = 16-bit SRAM
예: AND abcd → out ---- --- 1111 1 나머지 06-LUT(Xilinx 7-series 이상)는 6 input → 1 output, SRAM 64 bit. 임의의 조합 회로를 만들 수 있습니다.
// 이 한 줄이 1개 LUTassign y = (a & b) | (~c & d);#FF — 1-bit memory
always @(posedge clk) begin q <= d;end매 clock의 rising edge에 d 값을 q에 저장. 순차 회로의 기본.
#BRAM — 큰 메모리
Xilinx 7-series BRAM: 36 Kbit per block (또는 두 개의 18 Kbit) configurable: 32K×1, 16K×2, 8K×4, 4K×9, 2K×18, 1K×36 dual-port (각각 read/write)// 1 BRAM = 4096×8 SRAM 또는 2048×16 SRAMreg [7:0] mem [0:4095];always @(posedge clk) begin if (we) mem[addr] <= din; dout <= mem[addr];end작은 buffer는 LUT를 distributed RAM으로 쓰고, 큰 buffer는 BRAM에 자동 매핑됩니다.
#DSP slice — multiply-accumulate
Xilinx DSP48E1: 25-bit × 18-bit = 43-bit multiply + 48-bit accumulator pre-adder, ALU, pattern detector 내장MAC 한 cycle에 한 번. FIR filter, matrix multiply, FFT, neural network이 DSP slice를 가득 채워 사용합니다.
// → DSP slice 1개always @(posedge clk) begin acc <= acc + a * b;end#Clock Region — 시간의 단위
Clock region (Xilinx 7-series): ~50 CLB 폭 × ~50 CLB 높이 자체 clock buffer (BUFR, BUFH) 하나의 region은 같은 clock skewFPGA는 전체에 하나의 clock을 깔지 않고 region 단위로 나눕니다. 큰 design은 여러 clock domain을 갖고, 도메인 사이는 clock domain crossing (CDC) 처리가 필수.
// 잘못된 CDC — metastabilityalways @(posedge clk_a) data_a <= source;always @(posedge clk_b) data_b <= data_a; // ← 위험
// 올바른 — 2-FF synchronizeralways @(posedge clk_b) begin data_b_sync1 <= data_a; data_b_sync2 <= data_b_sync1;end#IO Bank
한 IO bank는 같은 VCCIO 전압 (1.8V / 2.5V / 3.3V)같은 bank의 핀들은 *같은 logic level standard*
다양한 standard: LVCMOS, LVDS, SSTL, HSTL, LVPECLPCB 설계 시 어느 핀이 어느 bank에 속하는지를 알아야 합니다. 한 bank에 3.3V CMOS와 1.8V DDR 신호를 섞을 수 없습니다.
#Routing — Switch matrix
FPGA의 대부분의 영역은 logic이 아닌 routing입니다. Switch matrix가 LUT 출력을 다른 LUT 입력에 연결합니다. Place & Route 단계에서 routing이 잘 안 되면 timing 위반 또는 resource 부족이 발생합니다.
#Soft Processor
LUT/FF로 CPU 자체를 만들 수 있습니다.
Xilinx MicroBlaze : 32-bit RISC, ~1000 LUTIntel Nios II : 32-bit RISCRISC-V soft core : VexRiscv, PicoRV32, NEORV32Hard SoC(Zynq, Cyclone V SoC)는 ARM이 실리콘으로 박혀 있어 빠르지만, soft processor는 FPGA 자원만 있으면 어디서나 만듭니다.
#Typical FPGA 자원 비교
| Chip | LUT | FF | BRAM Kb | DSP slice | 가격 |
|---|---|---|---|---|---|
| Lattice iCE40UP5K | 5K | ~5K | 120 | 8 | 5~10$ |
| Xilinx Spartan-7 S6 | 6K | 12K | 180 | 10 | 15$ |
| Xilinx Artix-7 A35 | 33K | 41K | 1800 | 90 | 40$ |
| Xilinx Zynq Z-7020 | 53K | 106K | 4480 | 220 | 100$ |
| Xilinx Zynq US+ ZU3EG | 154K | 307K | 7560 | 360 | 400$ |
| Xilinx Zynq US+ ZU19EG | 1143K | 2286K | 34560 | 1968 | 5000$ |
| Intel Cyclone 10 LP | 25K | ~25K | 608 | 66 | 30$ |
Hobbyist 보드 (Tang Nano 9K, Arty A7 등)는 30~100달러 범위입니다.
#개발 흐름
- Verilog/VHDL 또는 HLS C++
- Synthesis: HDL → netlist (LUT/FF로 매핑)
- Place & Route: netlist → physical placement
- Timing analysis: setup/hold time 검증
- Bitstream 생성:
.bit/.sof - Programming: JTAG으로 FPGA에 load
Synthesis는 software의 compile에 해당. P&R은 physical layout까지 결정. Build 한 번에 분~수 시간이 걸립니다.
#작은 예시 — LED 점멸
module blink( input wire clk, // 100 MHz output wire led); reg [25:0] cnt = 0; always @(posedge clk) cnt <= cnt + 1; assign led = cnt[25]; // ~1.5 Hzendmodule이 한 모듈을 합성하면 26 FF + 1 carry chain + 1 LUT 정도 사용. FPGA 자원의 0.001%도 안 씁니다.
#CPU와의 차이
| 축 | CPU | FPGA |
|---|---|---|
| 실행 모델 | 명령을 순차적으로 실행 (한 cycle 한 명령) | 모든 회로가 동시에 동작 (한 cycle 모든 회로) |
| Clock·latency | clock 빠름 (GHz), latency 가변 | clock 느림 (수백 MHz), latency 결정적 |
| 수정 | SW로 알고리즘 수정 가능 | 알고리즘 = 회로 → 재합성 필요 |
| Overhead | 매 명령 fetch/decode overhead | fetch/decode 없음 — 회로가 그 자체 |
100 MHz FPGA의 한 cycle에 1000개 MAC을 동시에 실행할 수 있다면 throughput은 100 GMAC/s. 같은 일을 1 GHz CPU로 하려면 100배 더 빠른 cycle이 필요합니다.
#SoC FPGA — Hard core + Fabric
Zynq UltraScale+, Intel Stratix 10 SoC, Microchip PolarFire SoC는 ARM 또는 RISC-V가 실리콘에 박혀 있고 fabric이 옆에 붙어 있습니다.
[ARM Cortex-A53 quad] ← Linux 도는 곳 ↕ AXI bus[FPGA fabric] ← custom logicCPU에서 Linux 돌리면서 fabric은 video pipeline 처리. 가장 흔한 임베디드 가속기 구조입니다.
#자주 보는 함정
Clock domain crossing 누락
always @(posedge clk_b) out <= signal_from_clk_a; /* metastability 위험 */CDC는 항상 2-FF synchronizer 또는 async FIFO.
합성 결과 != HDL 의도
reg [7:0] x;always @(*) x = x + 1; /* combinational loop — synthesizer 거부 */Combinational loop, latch (intended가 아닌), unintended initialization. Synthesis warning을 항상 읽기.
Timing 위반 무시
WARNING: Slack -2.3 nsSlack 음수는 setup time 위반. 그대로 굽고 돌리면 간헐적 동작 불량. P&R을 다시, 또는 pipeline 추가.
Reset deassert race
always @(posedge clk or negedge rst_n) if (!rst_n) q <= 0; else q <= d;Asynchronous reset의 deassert가 clock edge에 가까우면 metastability. Reset synchronizer 사용.
Pin assignment 누락
Pinout이 XDC/SDC 파일에 없으면 P&R이 임의로 배치합니다. 보드에 맞는 핀에 묶이지 않으면 전혀 다른 신호가 나옵니다.
#정리
- FPGA = LUT + FF + BRAM + DSP + IOB + routing.
- 모든 회로가 동시에 동작. CPU의 sequential과 본질이 다릅니다.
- 100 MHz × 1000 MAC = 100 GMAC/s 같은 완전 병렬 처리.
- Clock region이 시간의 단위. CDC는 항상 synchronizer.
- BRAM이 on-chip buffer, DSP가 MAC, LUT/FF가 조합/순차 회로.
- SoC FPGA는 ARM/RISC-V hard core + fabric을 묶은 형태.
- Synthesis → P&R → bitstream의 분~시간 단위 빌드.
- Timing slack 음수는 절대 안 됨. 합성 warning을 항상 읽기.
다음 편은 Vivado 사용법입니다.
#관련 항목
Modern Embedded Recipes · 124 of 152
- 1Modern Embedded Recipes — 모던 임베디드 실전 레시피 시리즈 소개
- 2디지털 신호 기초 — Voltage Level·Edge·Setup/Hold 분석
- 3임베디드 클럭과 타이밍 — Skew·Jitter·PLL·MMCM 분석
- 4GPIO 내부 구조 분해 — Push-Pull·Open-Drain·Schmitt Trigger
- 5UART 하드웨어 동작 분석 — Baud Rate·Framing·FIFO
- 6SPI 하드웨어 분석 — Clock Mode·MOSI/MISO·Chip Select
- 7I2C 하드웨어 분석 — Open-Drain·Clock Stretching·Arbitration
- 8ADC 동작 원리 — SAR·Sigma-Delta·Pipelined 비교
- 9DAC 동작 원리 — R-2R Ladder·Sigma-Delta·Settling Time
- 10PWM 신호 생성 분석 — Duty·Frequency·Dead Time·Center-Aligned
- 11CAN 버스 전기적 특성 — Differential·Termination·Dominant/Recessive
- 12RS-485·RS-422 차동 신호 분석 — Termination·Biasing·Topology
- 13LVDS 차동 신호 분석 — Common-Mode·Impedance·Eye Pattern
- 14ARM Cortex-M 시리즈 비교 — M0·M3·M4·M7·M33·M55 분석
- 15ARM Cortex-A 시리즈 비교 — A53·A55·A72·A78·X1 분석
- 16ARM 레지스터 구조 분석 — R0~R15·CPSR·SPSR·Banked Registers
- 17Cortex-M 예외 처리 — Vector Table·NVIC·Tail-Chaining 추적
- 18ARM 메모리 맵 분석 — Normal·Device·Strongly-Ordered Region
- 19ARM L1·L2 캐시 분석 — Set Associative·Inclusive·Maintenance
- 20ARM MPU 활용 — Region·Attribute·Privilege Separation
- 21ARM MMU 기초 분석 — Translation Table·TLB·ASID
- 22ARM TrustZone-M 기초 — Secure/Non-Secure·NSC·MPC
- 23ARM Memory Barrier 실전 — DMB·DSB·ISB·DMA·MMIO
- 24임베디드 크로스 컴파일러 분석 — GCC·Clang·Sysroot 구성
- 25C 컴파일 4단계 — Preprocess·Compile·Assemble·Link 추적
- 26ELF 파일 구조 분석 — Section·Segment·Symbol Table·DWARF
- 27링커 스크립트 기초 — SECTIONS·MEMORY·entry point
- 28링커 스크립트 고급 — Overlay·BSS·init_array·LMA/VMA
- 29임베디드 스타트업 코드 분석 — Reset_Handler·Vector Table·SystemInit
- 30C 런타임 crt0 분석 — Stack·BSS Zero·Data Copy·atexit
- 31임베디드 메모리 레이아웃 — .text·.rodata·.data·.bss·.heap·.stack
- 32임베디드 컴파일러 최적화 분석 — -O0~-O3·-Os·-LTO 비교
- 33Map 파일 분석 — Symbol·Section·Size 추적으로 코드 크기 진단
- 34Make·CMake 크로스 컴파일 — Toolchain File·Sysroot 통합
- 35임베디드 Bootloader 체인 — BootROM·SPL·U-Boot·Kernel·Secure Boot
- 36첫 bare-metal 프로그램 작성 — Linker·Startup·main의 최소 구성
- 37MMIO 레지스터 직접 접근 — volatile·Memory Map·Aliasing 분석
- 38GPIO 드라이버 직접 구현 — STM32 HAL 없이 레지스터로
- 39임베디드 클럭 설정 분석 — HSE·PLL·SYSCLK·AHB/APB 분주
- 40Cortex-M 인터럽트 핸들링 — NVIC·Priority·Vector·EXTI
- 41SysTick 타이머 활용 — 24-bit Counter·1ms Tick·delay 구현
- 42UART 드라이버 구현 — polling·interrupt·DMA 3가지 방식 비교
- 43SPI 드라이버 구현 — Master·Slave·CRC·DMA
- 44I2C 드라이버 구현 — Master·7-bit/10-bit·Clock Stretching 처리
- 45임베디드 DMA 기초 — Memory-to-Memory·Peripheral·Circular Mode
- 46저전력 모드 분석 — Sleep·Stop·Standby·Wake-up Source
- 47IWDG·WWDG 워치독 구현 — Independent vs Window 비교
- 48임베디드 Flash 프로그래밍 — Erase·Program·Read While Write
- 49DDR 초기화 실패 진단 — Timing·Calibration·Walking Bit Test
- 50PWM 출력 실전 — LED 밝기·모터 속도 제어
- 51DC 모터 제어 — H-Bridge·PWM Duty·Encoder Feedback
- 52스테퍼 모터 제어 — Full Step·Half Step·Microstepping
- 53서보 모터 제어 — PWM 1ms~2ms·Closed Loop·PID
- 54Character LCD 제어 — HD44780·4-bit Mode·Custom Char
- 55SPI OLED 제어 — SSD1306·Frame Buffer·Page 단위 갱신
- 56TFT 디스플레이 구동 — RGB565·FSMC·LTDC·DMA2D
- 57환경 센서 활용 — BME280 온습압·SHT3x·BMP180 비교
- 58IMU 센서 활용 — MPU6050·LSM6DSO·Sensor Fusion
- 59CAN 통신 구현 — bxCAN·Filter·Mailbox·CAN-FD
- 60USB Device 기초 — Descriptor·Enumeration·Endpoint·HID/CDC
- 61Ethernet MAC+PHY 통합 — RMII·lwIP·DMA Descriptor
- 62SD Card + FatFs 구현 — SPI/SDIO 모드·CSD/CID·Wear
- 63RTC 활용 — Calendar·Alarm·Wake-up Timer·Backup Domain
- 64RTOS 도입 결정 분석 — Super Loop vs RTOS 트레이드오프
- 65RTOS Task 설계 패턴 — 우선순위·스택·State Machine
- 66RTOS Scheduler 동작 분석 — Tick·Context Switch·Yield
- 67RTOS Semaphore 활용 — Binary·Counting·ISR Give
- 68RTOS Mutex 활용 — Recursive·Priority Inheritance 적용
- 69RTOS Queue 활용 — By-Value·By-Reference·Timeout 패턴
- 70RTOS Event Group 활용 — Bit Wait·Sync·Notify
- 71RTOS Software Timer 활용 — One-shot·Auto-reload·Daemon Task
- 72ISR-Safe API 설계 — Reentrant·Atomic·Defer 패턴
- 73Priority Inversion 진단·예방 — Mars Pathfinder Lesson 추적
- 74Timer Wheel 분석 — Hashed·Hierarchical·O(1) Tick
- 75RTOS 디버깅 기법 — Tracealyzer·SystemView·Stack 추적
- 76임베디드 Linux 부팅 흐름 분석 — BootROM·U-Boot·Kernel·init
- 77U-Boot 활용 — bootcmd·env·tftp·boot.scr 분석
- 78Device Tree 실전 — DTS·DTB·Overlay·Phandle 추적
- 79Device Tree Overlay 적용 — Runtime fragment·dtoverlay
- 80임베디드 커널 빌드 — defconfig·menuconfig·Image·zImage
- 81커널 모듈 기초 — init/exit·Parameter·KBuild·DKMS
- 82캐릭터 드라이버 작성 — file_operations·cdev·register_chrdev
- 83Platform 드라이버 작성 — probe·remove·of_match·DT 바인딩
- 84mmap 4가지 모드 — Anonymous·File·Shared·Huge Page
- 85epoll 실전 — LT·ET·ONESHOT·EXCLUSIVE 비교
- 86UIO·VFIO 분석 — User-Space Driver와 IOMMU 격리
- 87sysfs·configfs 활용 — kobject 기반 User 인터페이스
- 88IRQ Affinity 튜닝 — smp_affinity·isolcpus·irqbalance
- 89루트 파일시스템 구축 — Buildroot 기초·Package·Toolchain
- 90임베디드 동적 메모리 — malloc 위험·결정성·대안 분석
- 91메모리 정렬과 패딩 분석 — Natural·Strict Alignment·Trap
- 92Cache Line Alignment — alignas·Padding·SoA 적용
- 93DMA-Friendly Allocator — dma_alloc_coherent·IOMMU·Pool
- 94Zero-Copy Pipeline — DMA-BUF·sendfile·io_uring·splice
- 95NUMA Memory Topology — numactl·numa_alloc·HBM 적용
- 96SIMD 활용 분석 — Intrinsics·Auto-Vectorization·OpenMP SIMD
- 97ARM NEON 심화 — Matrix Multiply·FFT·Image Filter 적용
- 98임베디드 스택 분석 — high-water·overflow 탐지
- 99임베디드 코드 크기 최적화 — -Os·LTO·Section Garbage Collection
- 100임베디드 전력 최적화 — Sleep Mode·Clock Gating·DVFS
- 101WCET 분석 기법 — Static·Measurement·Hybrid 방법론
- 102Lock-Free Ring Buffer 구현 — SPSC·Power-of-2·Memory Order
- 103Wait-Free Signaling — Atomic Flag·Sequence·Latest-Value
- 104RCU (Read-Copy-Update) 기초 — Quiescent State·Grace Period
- 105Hazard Pointer 분석 — Lock-Free Memory Reclamation
- 106Compare-And-Swap 패턴 — Stack·Counter·Linked List 적용
- 107Atomic Operation 비용 분석 — Fence·Cache Line·Contention
- 108Spinlock vs Mutex 결정 가이드 — Context Switch·Hold Time
- 109ABA 문제 회피 — Tagged Pointer·Hazard·Generation Counter
- 110False Sharing 해결 — Cache Line Padding·SoA 적용
- 111MPMC Queue 구현 — Multi-producer Multi-consumer Lock-Free
- 112임베디드 디버깅 마인드셋 — 가설·격리·재현·이분탐색
- 113JTAG·SWD 안 붙을 때 — 핀·전압·속도·세션 진단
- 114GDB 원격 디버깅 — OpenOCD·J-Link·target remote 구성
- 115Cortex-M 하드폴트 분석 — Stacked Frame·CFSR 읽기
- 116UART 안 찍힐 때 — Bare-metal 체크리스트
- 117임베디드 부팅 실패 진단 — 단계별 Isolation
- 118인터럽트 누락·중복 진단 — Priority·Pending·Re-entry 추적
- 119메모리 오버플로우·오염 진단 — Canary·MPU·Pattern 분석
- 120타이밍·Race 진단 — Heisenbug 잡는 법
- 121통신 프로토콜 분석 — Logic Analyzer와 Protocol Decoder
- 122임베디드 로깅 시스템 설계 — 레벨·버퍼·SWO·Deferred
- 123임베디드 포스트모템 분석 — Core Dump와 Field Crash
- 124FPGA 기초 분석 — LUT·FF·BRAM·DSP 자원 구조
- 125Vivado 사용법 — Project·Constraint·Synth·Impl·Bitstream
- 126PCIe BAR 매핑 분석 — Config Space·Enumeration·MMIO 접근
- 127AXI 인터페이스 — AXI4·AXI4-Lite·AXI-Stream 비교
- 128Zynq PS-PL 통신 — GP·HP·ACP 인터페이스 선택
- 129Mailbox Protocol 분석 — Host와 Accelerator를 잇는 Doorbell
- 130Command Queue·Submission Queue — NVMe·XDMA 공통 패턴
- 131DMA Completion 메커니즘 — Interrupt·Polling·Completion Ring
- 132PCIe Streaming 분석 — BAR Type·MSI-X·Kernel Bypass
- 133Vitis HLS 분석 — Pragma·Pipeline II·Dataflow 실전 감각
- 134HLS 최적화 기법 — Pipeline·Unroll·Partition·Dataflow
- 135Vitis AI 분석 — DPU·xmodel·VART
- 136OpenCL on FPGA — Kernel·Channel·Burst Memory 분석
- 137Intel Quartus 사용법 — Platform Designer·Nios II·HLS
- 138Edge Inference 분석 — Cloud vs Edge·Latency·Privacy
- 139NPU 아키텍처 분석 — Ethos·Hexagon·Systolic Array 비교
- 140딥러닝 Quantization 분석 — PTQ·QAT·INT8·INT4·Calibration
- 141TensorRT 분석 — ONNX→Engine·FP16·INT8·DLA·Multi-Stream
- 142TFLite Micro 분석 — Op Resolver·Tensor Arena·Cortex-M
- 143ONNX Runtime 분석 — Execution Provider와 Cross-Platform 배포
- 144Edge Thermal Management — Throttling·DVFS·Fan Curve·Sustained
- 145NVIDIA Jetson 분석 — Nano·Xavier·Orin·Thor·JetPack·DLA·VPI
- 146Zero-Copy Camera Pipeline — V4L2·DMA-BUF·GPU Import·NPU 직결
- 147온디바이스 LLM 추론 — llama.cpp·GGUF·MLX·KV Cache·NPU Backend
- 148Cortex-M33 TF-M·TrustZone — Secure Firmware·PSA·MCUboot
- 149Matter·Thread 분석 — IoT 통합 표준·Commissioning·Multi-Fabric
- 150PCIe → CXL 진화 — 같은 PHY 위 cache-coherent 프로토콜 추가
- 151QEMU CXL Type 3 디바이스 에뮬레이션 — 노트북에서 CXL 개발 환경 구축
- 152Linux CXL 드라이버 분석 — cxl_pci·cxl_core·region·DAX
관련 글
Intel Quartus 사용법 — Platform Designer·Nios II·HLS
Intel Quartus Prime·Platform Designer(Qsys)·Nios II soft processor·Intel HLS·partial reconfig 사용법.
OpenCL on FPGA — Kernel·Channel·Burst Memory 분석
Intel/AMD FPGA에서 OpenCL kernel·channel·burst memory를 활용하는 패턴과 SYCL/oneAPI FPGA backend.
Vitis AI 분석 — DPU·xmodel·VART
Xilinx Vitis AI로 TensorFlow/PyTorch 모델을 DPU용 xmodel로 quantize·compile하고 VART로 실행하는 흐름.