Feature
· 다양한 Convolutional Kernel 지원: 1x1, 3x3 Stride1, 3x3 Stride2, 6x6 Stride1, 6x6 Stride2 등
·
최소 메모리 액세스를 지원하는 3x3 DCA (Diagonal Cyclic Array)를 128개 내장 (총 1152 개의 PE 내장)
·
Input Buffer 내장: DRAM Burst access time을 흡수하는 기능
·
Data recycling input FIFO 내장: Input Buffer의 Weight paramter와 Input Feature map data를 단 한번만 Read하여 대형 메모리 Access 수를 최소화 시키는 기능수행
·
Adder tree 내장: 각 DCA에서 출력하는 Partial Convolution 결과를 Accumulation하는 Tree 구조의 Adder block
·
Convolution Memory 내장: 현재 Round의 완료된 16 input channel까지의 Convolution 결과를 임시 저장하고 다음 Round의 16 input channel 의 Convolution 결과를 누적 저장하는 기능
·
Output Buffer 내장: 8 Output Channel의 Convolution 동시에 처리하여 그 결과를 동시에 저장하기 위한 8 개의 병렬 SRAM
·
DRAM Write Controller 내장: 모든 input channel에 대한 Convolution 값이 각 Output Channel의 Output Buffer에 누적된 후에 그 값들을 DDR DRAM Controller에 전송하기 위한 제어기
Business Area
Accelerator
Category
Arithmetic & Mathematic > Arithmetic & Logic Unit
Deliverables
· gtech netlist, Verification- testbench, datasheet
Validation Status
· Verilog Block Level Simulation, System level simulation 검증 완료