Feature
· ■ Precision: 16bit INT, fixed-point
·
■ AXI4-Lite 기반의 IP controller 및 512-bit AXI4 bus
·
■ Matrix multiplication 연산을 위한 32x32 output stationary systolic arrays
·
■ Softmax 연산 방식의 HW 리소스 및 성능 개선을 위한 동적 최댓값 대응 base-2 softmax 적용
·
■ LUT와 linear interpolation 기반의 approximation을 사용한 GELU 및 Layernorm 구현
·
■ Freq : 180MHz, 2 instances on Alveo U200 FPGA
·
■ Bert-Base 기준 0.081sec의추론 성능 달성 (1 batch)
Category
Processor Solutions > AI Processor
Deliverables
· ■ RTL, FPGA binary file (xclbin), IP control SW (python, PYNQ)
Validation Status
· ■ FPGA-based validation & model accuracy evaluation