Nvidia sięga po uczenie maszynowe, by uczynić syntetyczny głos realistycznym
Dział badań nad syntezą mowy firmy Nvidia opracował kilka narzędzi do uczenia maszynowego, dzięki którym imitowanie ludzkiego głosu staje się bardziej realistyczne w różnych zastosowaniach. Firma opracował model sztucznej inteligencji o nazwie RAD-TTS. Programiści mogą szkolić go własnym głosem i konwertować komunikaty tekstowe na mowę naturalną, korzystając z wyuczonych przez SI fleksji i tonów. Co ciekawe, program może konwertować głos jednego mówcy na głos drugiego.
Przykłady zastosowanej technologii pokazuje seria materiał wideo Nvidii „I AM AI”. Technologia ma potencjał w wielu obszarach, w tym w zautomatyzowanej obsłudze klienta, tłumaczeniu języków, pomocy dla osób niepełnosprawnych, a nawet w grach. Praktycznie każda aplikacja wymagająca naturalnie brzmiącego ludzkiego głosu może odnieść korzyści z RAD-TTS.
Narzędzia są akcelerowane przez układy graficzne i są oczywiście zoptymalizowane do użytku na komputerach wyposażonych w karty graficzne Nvidia. Dzieło jest otwartoźródłowe i dostępne bezpłatnie dla wszystkich zainteresowanych programistów. Nividia udostępniła go w zestawie narzędzi Nvidia NeMo Python.
Źródło: Nvidia