Google przekonuje, że takiego narzędzia jeszcze świat nie widział. Gemini Omni po prostu bierze jakiekolwiek dane (wideo, audio, tekst, grafika), analizuje je i na ich podstawie tworzy wideo. Można edytować powstałe klipy praktycznie bez ograniczeń, a także potem publikować w dowolnym miejscu.
Gemini Omni to coś, co po raz kolejny ma zrewolucjonizować świat. Cienka granica między WOW a AI SLOP
Samo przyswajanie różnorodnych danych wejściowych to jedno i tak naprawdę Google nie poświęca temu większej uwagi. Praktycznie wszystkie udostępnione materiały skupiają się na ułatwionym procesie edycji wygenerowanych treści wideo. Wystarczy rozmawiać z modelem tak, jak z kolegą, a on wypluje spójne postacie, zachowa prawa fizyki i zapamięta wcześniejszy układ elementów.
Świetnie obrazuje to główny materiał promocyjny. Gemini Omni potrafi zmienić wybrane elementy lub cały kadr. Drzewo może nagle być wykonane z metalu, a blok mieszkalny przeobrazić się w marmurowe dzieło sztuki. Wtedy też pierwotny film czy zdjęcie stanowią wyłącznie punkt wyjścia do dalszej zabawy.
Bardziej klasycznym zastosowaniem jest zmiana przebiegu akcji, co akurat nie jest niczym nowym. Model ma po prostu lepiej radzić sobie z modyfikowaniem wydarzeń, dodawaniem postaci czy przedmiotów. Nie widać tu żadnego efektu wow, przynajmniej na razie.
Mnie osobiście zaskoczyła opcja wprowadzania poprawek na praktycznie każdym etapie tworzenia wideo. Wystarczy jeden prompt, by skorygować otoczenie, kąt kamery czy nawet użyty styl. Podobno odbywa się to bez żadnej utraty spójności i głównego wątku.
Bardziej realistyczne sceny to coś, co może przerażać i nowy model robi to zaskakująco dobrze
Google nie ukrywa, że głównym celem przy opracowywaniu Gemini Omni było sprawienie, by model niemalże bezbłędnie pojmował fizykę, historię i kontekst kulturowy. Dlatego też generowane klipy powinny być jeszcze bardziej zgodne z prawami fizyki, zwłaszcza pod względem odwzorowania grawitacji, energii kinetycznej czy dynamiki płynów.
Często bywa tak, że sztuczna inteligencja nie radzi sobie z pozornie prostymi zadaniami. Każemy jej wskazać dziesięć słów na literę C, a ona wypluwa dodatkowe wyrazy zaczynające się od A. To bywa irytujące i Gemini Omni ma zrywać z takimi pomyłkami w materiałach wideo. Do tego dochodzi wizualizacja skomplikowanych pomysłów ilustrujących np. medyczne zagadnienia w prosty sposób.
Gemini Omni Flash to model, który jest już dostępny dla wszystkich subskrybentów Google AI Pro oraz Ultra, wkrótce też trafi do YouTube Shorts.
Źródło tekstu i zdjęcia otwierającego: Google