TA STRONA UŻYWA COOKIE. Usługodawca oraz jego zaufani partnerzy korzystają z plików cookies i innych technologii automatycznego przechowywania danych do celów statystycznych, reklamowych oraz realizacji usług, w tym również aby wyświetlać użytkownikom najbardziej dopasowane oferty i reklamy.
Usługodawca i jego zaufani partnerzy wymagają zgody użytkownika na gromadzenie danych w celu obsługi spersonalizowanych treści i ogłoszeń. Jeśli korzystasz ze strony instalki.pl bez zmiany ustawień przeglądarki, to oznacza to, że nie wyrażasz sprzeciwu co do otrzymywania wszystkich plików cookies na swoje urządzenie ze strony instalki.pl.
Dowiedz się więcej o celu ich używania i zmianie ustawień cookie w przeglądarce.
Od dnia 25.05.2018 r. na terenie Unii Europejskiej wchodzi w życie Rozporządzenie Parlamentu Europejskiego w sprawie ochrony danych osobowych. Prosimy o zapoznanie się z regulaminem oraz polityką prywatności serwisu  [X]
Instalki.pl » Aktualności » Technika » Sztuczna inteligencja generuje ludzkie twarze na podstawie próbek głosu
Środa, 12 Czerwiec 2019 13:02, Wpisany przez Maksym Słomski
sztucznainteligencja1
Przyszłość. Teraz.

Możliwości sztucznej inteligencji są ogromne. Powstały już algorytmy, które potrafią z wysoką dokładnością wykrywać nowotwory, tworzyć porno z celebrytami lub postaciami z gier czy rysować prawdziwe dzieła sztuki, a to tylko nieliczne z wielu przykładów. Teraz okazuję się, że sztuczna inteligencja jest także w stanie generować twarze zaledwie na podstawie… próbki mowy. Dotychczas coś takiego trudno było sobie wyobrazić.

Sieć neuronowa zdolna do tworzenia renderów twarzy w oparciu o mowę – Speech2Face - została wytrenowana z pomocą milionów filmów edukacyjnych dostępnych w Internecie przez badaczy z instytutu badawczego CSAIL (ang. Computer Science and Artificial Intelligence Laboratory) będącego częścią MIT. Łącznie filmy te zawierały ponad 100 tysięcy wypowiadających się osób.

sztucznainteligencja2

Na podstawie materiałów wideo sztuczna inteligencja nauczyła się powiązań między poszczególnymi cechami ludzkiego głosu a pewnymi cechami wyglądu ludzkiej twarzy. Dzięki temu ta zyskała umiejętność generowania twarzy pasujących do „usłyszanych” próbek mowy. Niemniej, rezultaty jej działań jeszcze nie są idealne.

Póki co sieć neuronowa nie jest w stanie stwierdzić, jak dokładnie wygląda osoba, której próbkę głosu usłyszała. Ta rozpoznaje pewne cechy mowy, które wskazują na płeć wiek i pochodzenie etniczne, czyli cechy wspólne dla wielu ludzi. W efekcie, gdy słyszy Daniela Craiga, generuje twarz białego człowieka, a niekoniecznie twarz Daniela Craiga.

Poza tym, Speech2Face ma problemy „językowe”. O co dokładnie chodzi? Wyjaśnimy na przykładzie. Gdy algorytm słuchał próbki głosu Azjaty mówiącego po chińsku, generował twarz o rysach azjatyckich. Gdy ten natomiast słuchał tego samego mężczyzny, ale mówiącego po angielsku, generował twarz białego człowieka. Kolejne komplikacje wiązały się z płcią. Program w tej chwili kojarzy niskie głosy z męskimi twarzami, a wysokie głosy z kobiecymi twarzami. Niektóre kłopoty mogły wynikać z faktu, że zestaw danych szkoleniowych zawierał jedynie filmy edukacyjne z serwisu YouTube, a więc nie reprezentował w równym stopniu całej populacji światowej.

sztucznainteligencja3

To że wspomniane filmy zostały wykorzystane podczas badań, może być nieco kontrowersyjne. Jedna z osób, które w takim filmie wystąpiły tylko przypadkiem dowiedziała się, że jej twarz oraz głos zostały do badania włączone. Nic dziwnego, że to ją zaskoczyło. Tą osobą był niejaki Nick Sullivan, szef działu kryptografii w firmie zajmującej się internetowymi zabezpieczeniami – Cloudfare.

Sullivan nie wyraził zgody na udział w badaniu. Jego autorzy uznali, że skoro filmy z serwisu YouTube są powszechnie dostępne, o żadną zgodę nie trzeba pytać. Czy słusznie? Ciężko ocenić.

Dotychczas praca naukowa opisująca sztuczną inteligencję generującą twarze na podstawie mowy nie została zrecenzowana. Trzeba zatem poczekać na potwierdzenie zawartych w niej wniosków.

Źródło: MIT CSAIL