Sztuczna inteligencja generuje ludzkie twarze na podstawie próbek głosu

{reklama-artykul}
Możliwości sztucznej inteligencji są ogromne. Powstały już algorytmy, które potrafią z wysoką dokładnością wykrywać nowotwory, tworzyć porno z celebrytami lub postaciami z gier czy rysować prawdziwe dzieła sztuki, a to tylko nieliczne z wielu przykładów. Teraz okazuję się, że sztuczna inteligencja jest także w stanie generować twarze zaledwie na podstawie… próbki mowy. Dotychczas coś takiego trudno było sobie wyobrazić.

Sieć neuronowa zdolna do tworzenia renderów twarzy w oparciu o mowę – Speech2Face – została wytrenowana z pomocą milionów filmów edukacyjnych dostępnych w Internecie przez badaczy z instytutu badawczego CSAIL (ang. Computer Science and Artificial Intelligence Laboratory) będącego częścią MIT. Łącznie filmy te zawierały ponad 100 tysięcy wypowiadających się osób.

Na podstawie materiałów wideo sztuczna inteligencja nauczyła się powiązań między poszczególnymi cechami ludzkiego głosu a pewnymi cechami wyglądu ludzkiej twarzy. Dzięki temu ta zyskała umiejętność generowania twarzy pasujących do „usłyszanych” próbek mowy. Niemniej, rezultaty jej działań jeszcze nie są idealne.

Póki co sieć neuronowa nie jest w stanie stwierdzić, jak dokładnie wygląda osoba, której próbkę głosu usłyszała. Ta rozpoznaje pewne cechy mowy, które wskazują na płeć wiek i pochodzenie etniczne, czyli cechy wspólne dla wielu ludzi. W efekcie, gdy słyszy Daniela Craiga, generuje twarz białego człowieka, a niekoniecznie twarz Daniela Craiga.

Poza tym, Speech2Face ma problemy „językowe”. O co dokładnie chodzi? Wyjaśnimy na przykładzie. Gdy algorytm słuchał próbki głosu Azjaty mówiącego po chińsku, generował twarz o rysach azjatyckich. Gdy ten natomiast słuchał tego samego mężczyzny, ale mówiącego po angielsku, generował twarz białego człowieka. Kolejne komplikacje wiązały się z płcią. Program w tej chwili kojarzy niskie głosy z męskimi twarzami, a wysokie głosy z kobiecymi twarzami. Niektóre kłopoty mogły wynikać z faktu, że zestaw danych szkoleniowych zawierał jedynie filmy edukacyjne z serwisu YouTube, a więc nie reprezentował w równym stopniu całej populacji światowej.

To że wspomniane filmy zostały wykorzystane podczas badań, może być nieco kontrowersyjne. Jedna z osób, które w takim filmie wystąpiły tylko przypadkiem dowiedziała się, że jej twarz oraz głos zostały do badania włączone. Nic dziwnego, że to ją zaskoczyło. Tą osobą był niejaki Nick Sullivan, szef działu kryptografii w firmie zajmującej się internetowymi zabezpieczeniami – Cloudfare.

Sullivan nie wyraził zgody na udział w badaniu. Jego autorzy uznali, że skoro filmy z serwisu YouTube są powszechnie dostępne, o żadną zgodę nie trzeba pytać. Czy słusznie? Ciężko ocenić.

Dotychczas praca naukowa opisująca sztuczną inteligencję generującą twarze na podstawie mowy nie została zrecenzowana. Trzeba zatem poczekać na potwierdzenie zawartych w niej wniosków.

Źródło: MIT CSAIL