Sieci neuronowe IP ukierunkowane na przetwarzanie złożonych wypowiedzi SoC

Zasoby są wystarczające do rozpoznawania głosu w dalekim polu, gdzie użytkownik znajduje się w odległości kilku metrów od mikrofonu. Sterowane głosem cyfrowe domowe asystenty i samochodowe systemy informacyjno-rozrywkowe są zamierzonymi zastosowaniami.

Dlaczego przetwarzać mowę na lokalnej płytce drukowanej?

"Algorytmy rozpoznawania mowy oparte na sieci neuronowej wykonują więcej zadań lokalnie, niż w chmurze, ze względu na obawy o opóźnienie, prywatność i dostępność sieci" - powiedział Cadence.

Nazywany HiFi 5, ma dwukrotnie większą pojemność przetwarzania dźwięku i czterokrotnie wyższą jakość przetwarzania sieci neuronowej niż wcześniejszy procesor HiFi 4 DSP.

"Naszym celem jest udostępnienie dużego silnika słownika, który jest w stanie przetwarzać język naturalny" - powiedział dyrektor marketingu Cadence, Gerard Andrews. "Przeanalizowaliśmy otwarte sieci neuronowe rozpoznawania mowy i zaprojektowaliśmy HiFi 5, aby uruchomić te typy sieci.

Elementy przetwarzania obejmują:

Pięć architektur o bardzo długiej instrukcji (VLIW), zdolnych do emisji dwóch 128-bitowych obciążeń na cykl
Akumulatory mnożnika DSP:
Wsparcie dla 8 32x32 bitów MAC / cykl lub 16 16x16 bitów MAC / cykl
Opcjonalnie osiem MAC z jedną dokładnością w jednym cyklu
Akumulatory mnożnikowe sieci neuronowej:
32 16 × 8 MAC / cykl lub 16 × 4 MAC / cykl
Opcjonalne 16 zmiennych MAC z dokładnością do połowy na cykl

DSP MAC, zgodnie z Andrews, obejmują, na przykład, obsługę nasycenia, podczas gdy sieci neuronowe są zoptymalizowane pod kątem mnożenia wartości wektorowej przez macierz. "W tak wielu sieciach neuronowych, spędzasz mnóstwo czasu na mnożeniu wektora przez matrycę", powiedział, dodając, że: wybór liczby MAC, które należy uwzględnić oraz jakie typy danych i długości w oparciu o pracę z klientami HiFi 4.

Mnogość zmiennoprzecinkowa została zastosowana dla dwóch przypadków użycia - pojedynczej precyzji dla wokalnego interfejsu dla tworzenia wiązki i eliminacji echa oraz połowy precyzji dla niektórych sieci neuronowych. "Płynność daje szybki czas wejścia na rynek", powiedział Andrews. "Na przykład, jeśli rozwiniesz coś zmiennoprzecinkowego w MatLab, konwertowanie go na stały punkt jest dość czasochłonne."

Mnożnik obsługuje wagi 8-bitowe, ponieważ "wielkim trendem jest kwantyzacja do 8-bitowych ciężarków dla rozpoznawania mowy, która nie musi się nadmiernie komplikować w dokładności. Widzisz referaty, w których ludzie próbują zejść do 4 bitów "- powiedział Andrews. "Spodziewamy się, że większość algorytmów skorzysta z naszego mnożnika 16x8bit: 16bit dla danych z mikrofonu i 8bit dla wag".

Cadence_Tensilica_HiFi5_DSP_overview-617

W przypadku innych schematów ważenia dostępna jest operacja 4-bitowa, 2-bitowa i 1-bitowa oraz 8-bitowa.

Ambiq Micro, producent mikrokontrolerów zbudowanych na "podprogowych" procesach krzemowych w celu oszczędzania energii, był pierwszym klientem HiFi 5.

"Aby sprostać niezwykle trudnym wyzwaniom związanym z zaawansowanymi obliczeniowo procesorami neuronowymi i algorytmami rozpoznawania mowy z urządzeniami wrażliwymi na energię, Ambiq Micro wybrał pierwszą licencję na krzem firmy Cadence HiFi 5 DSP", powiedział Ambiq vp marketingu Aaron Grassian. "Przeniesienie HiFi 5 DSP na podprogową platformę Ambiq Micro zoptymalizowaną pod kątem mocy umożliwia projektantom, ODM i producentom OEM korzystanie z zalet technologii pochodzących od liderów oprogramowania audio, takich jak DSP Concepts i Sensory, poprzez integrację asystenta głosowego, sterowanie i kontrolę. konwersacyjne interfejsy do przenośnych, mobilnych produktów bez utraty jakości lub żywotności baterii. "

Wspierając własność intelektualną, istnieje biblioteka zoptymalizowanych funkcji bibliotecznych powszechnie stosowanych w przetwarzaniu sieci neuronowych - w szczególności do przetwarzania mowy. Funkcje te mają na celu integrację z popularnymi systemami uczenia maszynowego.

HiFi 5 jest również kompatybilny z biblioteką firmowych kodeków audio i głosowych oraz pakietami oprogramowania do poprawy jakości dźwięku, zoptymalizowanymi dla wcześniejszych wersji gamy produktów HiFi firmy.

Wybierz swój kraj lub region.

Sieci neuronowe IP ukierunkowane na przetwarzanie złożonych wypowiedzi SoC