Nowa sztuczna inteligencja OpenAI tworzy obrazy tylko na podstawie opisów

OpenAI, firma założona między innymi przez Elona Muska i wspierana prze Microsoft dokonała wiele ciekawych osiągnięć w dziedzinie sztucznej inteligencji. Ta dotychczas opracowała między innymi takie algorytmy, które grają w Dotę 2 na poziomie najlepszych profesjonalnych drużyn, które generują muzykę w stylu znanych artystów czy też takie, które tworzą wiarygodne fake newsy. Teraz przedsiębiorstwo zaprezentowało swoje kolejne dzieło – sieć neuronową, która generuje obrazy na podstawie jakichkolwiek opisów.

Komputerowy artysta

Wystarczy kilka słów w postaci zdania bądź równoważnika zdania, by DALL-E, bo tak brzmi nazwa sztucznej inteligencji (nazwa nawiązująca do Salvadora Dali oraz robota Wall-E), wygenerowała pożądany obraz. Jeżeli sieć neuronowa zostanie poproszona (w języku angielskim) o wygenerowanie „kota z sushi” czy też „chimery żółwia i żyrafy, w formie ilustracji o wysokiej rozdzielczości”, to to zrobi. Doskonale pokazują to zestawy grafik, którymi podzieliła się OpenAI.

Wygenerowane przez DALL-E obrazy przedstawiające sushi w kształcie kota. | Źródło: OpenAI

DALL-E potrafi nie tylko rysować i łączyć wiele obiektów, ale również przedstawiać je z różnych perspektyw. Poza tym, w przeciwieństwie do innych programów konwertujących tekst na obrazy, ta dodaje nawet szczegóły, które nie zostały wymienione w opisie, ale były niezbędne, by utworzyć realistyczną grafikę. Na przykład, generując obraz o opisie „render 3D przedstawiający lisa siedzącego na polu”, ta wiedziała, że powinien znaleźć się na nim cień.

Wygenerowane przez DALL-E rendery 3D przedstawiające lisa siedzącego na polu. Źródło: OpenAI

„W przeciwieństwie do silników renderujących, których dane wejściowe muszą zostać określone jednoznacznie i z uwzględnieniem wszystkich szczegółów, DALL-E często jest w stanie samodzielnie uzupełnić niewiadome, gdy opis sugeruje, że obraz musi zawierać pewne detale, które nie zostały wyraźnie przedstawione.”, wyjaśnia OpenAI.

System o wielu zdolnościach

Sztuczna inteligencja OpenAI jest naprawdę wszechstronna. Ta jest w stanie tworzyć zarówno obrazy wyglądające niczym prawdziwe zdjęcia, szkice, czy komputerowe grafiki. Poza tym, rozumie ona, że niektóre obiekty, takie jak telefony, na przestrzeni lat się zmieniały.

Wygenerowane przez DALL-E obrazy krzeseł w kształcie awokado. | Źródło: OpenAI

Rzecz jasna, DALL-E ma pewne ograniczenia. Choć z reguły generuje ona to, czego się od niej oczekuje, czasem jest inaczej. Twórcy póki co nie mają pewności, dlaczego tak jest. Niemniej, niezależnie od tego, czy ten problem zostanie rozwiązany, czy też nie, ma ona ogromny, ogromny potencjał.

„W przyszłości planujemy przeanalizować, w jaki sposób modele takie jak DALL-E odnoszą się do pewnych kwestii społecznych, takich jak ekonomiczny wpływ na konkretne profesje i zawody, potencjalna stronniczość w rezultatach generowanych przez system oraz długoterminowe etyczne wyzwania związane z tą technologią.”, informuje OpenAI.

Niestety, w tej chwili OpenAI nie pozwala wypróbować swojej najnowszej sztucznej inteligencji. Mam nadzieję, że w niedalekiej przyszłości się to zmieni.

Źródło: OpenAI, fot. tyt. OpenAI