Akcelerator sieciowy oparty na FPGA wyprzedza procesory graficzne
Zostało zademonstrowane jako CNN GoogLeNet Inception-v1, wykorzystując ośmiobitową rozdzielczość całkowitą. Uzyskano 16,8 operacji terra na sekundę (TOPS) i można wnioskować ponad 5 300 obrazów na sekundę na a Xilinx Virtex UltraScale + XCVU9P-3 FPGA. Modułowe, skalowalne podejście sprawia, że nadaje się on do wykrywania obiektów i przetwarzania wideo na krawędzi iw chmurze, wyjaśnia Fawcett, a także do wnioskowania w centrach danych i inteligentnych kamerach.
DPU może być skonfigurowany w celu zapewnienia optymalnej wydajności obliczeniowej dla topologii sieci neuronowych w aplikacjach uczenia maszynowego, z wykorzystaniem równoległej architektury DSP, rozproszonej pamięci i rekonfigurowalności logiki i łączności dla różnych algorytmów.
DPU osiąga ponad 50% wyższą wydajność niż jakiekolwiek konkurencyjne CNN i osiąga lepsze wyniki GPU dla danego budżetu lub budżetu, twierdzi firma. "FPGA to platforma i architektura pobudzająca świat, która jest bardzo elastyczna dla przyszłych zastosowań i może wyprzedzać GPU w AI, z mniejszym opóźnieniem" - dodał Fawcett.
Firma ogłosiła również, że sponsoruje DPhil (PhD0 na Uniwersytecie w Oksfordzie, aby studiować techniki wdrażania przyspieszonej nauki na fpgas), a prace będą prowadzone we współpracy z własnymi badaniami Omnitek nad silnikami obliczeniowymi AI i algorytmami.
