Narzędzie wykorzystujące lata pracy
Jak wskazuje nazwa, Make-A-Video to sztuczna inteligencja, która w oparciu o komendy tekstowe potrafi generować… materiały wideo, i to wysokiej jakości. Tak jak Make-a-Scene, Dall-E i Midjourney, wykorzystuje ona algorytmy uczenia maszynowego i ogromne bazy danych dzieł zaciągniętych z sieci, aby konwertować tekst, tyle że nie na pojedyncze obrazy, a całe filmy.
„Nasze założenie jest proste: dowiedz się, jak wygląda świat i jak jest opisany na podstawie sparowanych ze sobą danych tekstowych i obrazowych oraz dowiedz się, jak świat się porusza się, z nienadzorowanych materiałów wideo.”, czytamy w pracy badawczej naukowców z Meta.
Powyższe podejście oraz fakt, że naukowcy postanowili wykorzystać postępy dokonane wcześniej w przypadku sztucznej inteligencji Make-a-Scene, pozwoliły uczonym znacznie zredukować czas potrzebny do wytrenowania ich nowej sztucznej inteligencji. To dlatego, że nie musieli oni ponownie trenować algorytmu z użyciem sparowanych danych tekstowych i wizualnych. Mimo to uzyskali jednocześnie poziom zaawansowania odpowiadający dzisiejszym modelom generującym obrazy.
Make-a-Video w użyciu
Póki co nie ma możliwości wypróbowania Make-a-Video. Niemniej jednak, Meta udostępniła kilka filmików demonstrujących możliwości sztucznej inteligencji. Dotychczas wygenerowała ona na przykład film przedstawiający pluszowego misia malującego portret, kota oglądającego telewizję z pilotem w ręku czy jednorożce biegnące po plaży.
W przyszłości, choć nie wiadomo jak odległej przyszłości, Meta zamierza udostępnić demo Make-a-Video. Wtedy własnoręcznie będziemy mogli przekonać się, jakie są granice możliwości tej sztucznej inteligencji. Ja jestem na przykład ciekawa, czy byłaby ona w stanie generować filmy dłuższe niż 5-sekundowe.
Źródło: Meta, fot. tyt. Canva