Nvidia RAD-TTS tworzy realistyczne głosy sztucznej inteligencji

Syntezatory mowy są w użyciu już od wielu dekad. Nie ma w Polsce chyba nikogo, kto nigdy nie słyszał choćby o słynnym syntezatorze mowy Ivona. Technologia wspomagana przez sztuczną inteligencję początkowo była obecna jedynie w filmach science fiction, a dziś korzysta z niej w zasadzie każdy asystent głosowy – Asystent Google, Siri, Alexa i inni. Głównym wyzwaniem, jakie stoi obecnie przed programistami polega na sprawieniu, aby głos wirtualnych „pomagierów” w jak najwierniejszy sposób odwzorowywał naturalną mowę ludzką. Na tym polu interesująco wygląda Nvidia RAD-TTS.

Nvidia sięga po uczenie maszynowe, by uczynić syntetyczny głos realistycznym

Dział badań nad syntezą mowy firmy Nvidia opracował kilka narzędzi do uczenia maszynowego, dzięki którym imitowanie ludzkiego głosu staje się bardziej realistyczne w różnych zastosowaniach. Firma opracował model sztucznej inteligencji o nazwie RAD-TTS. Programiści mogą szkolić go własnym głosem i konwertować komunikaty tekstowe na mowę naturalną, korzystając z wyuczonych przez SI fleksji i tonów. Co ciekawe, program może konwertować głos jednego mówcy na głos drugiego.

Przykłady zastosowanej technologii pokazuje seria materiał wideo Nvidii „I AM AI”. Technologia ma potencjał w wielu obszarach, w tym w zautomatyzowanej obsłudze klienta, tłumaczeniu języków, pomocy dla osób niepełnosprawnych, a nawet w grach. Praktycznie każda aplikacja wymagająca naturalnie brzmiącego ludzkiego głosu może odnieść korzyści z RAD-TTS.

Narzędzia są akcelerowane przez układy graficzne i są oczywiście zoptymalizowane do użytku na komputerach wyposażonych w karty graficzne Nvidia. Dzieło jest otwartoźródłowe i dostępne bezpłatnie dla wszystkich zainteresowanych programistów. Nividia udostępniła go w zestawie narzędzi Nvidia NeMo Python.

Źródło: Nvidia