Sztuczna inteligencja Microsoftu opisuje zdjęcia tak dobrze jak ludzie

Maksym SłomskiSkomentuj
Sztuczna inteligencja Microsoftu opisuje zdjęcia tak dobrze jak ludzie
Dla nas, ludzi, opisanie pokazanego nam zdjęcia to żaden problem. Zupełnie inaczej jest w przypadku sztucznej inteligencji, którą do takich zadań trzeba odpowiednio wytrenować. Jak się jednak okazuje, Microsoft zdołał wytrenować sztuczną inteligencję tak, by ta potrafiła opisywać obrazy równie dobrze jak człowiek. To zaskakujące.

Skuteczność potwierdzona benchmarkiem

Wyposażenie sztucznej inteligencji w umiejętność dokładnego opisywania zdjęć od dawna było celem uczonych zajmujących się tą dziedziną. Ten cel w 2016 roku częściowo zrealizowało Google, tworząc sztuczną inteligencję opisującą zdjęcia niemal tak dobrze jak ludzie, z 94-procentową dokładnością. Jak już jednak wspomniałam, Microsoft niedawno wyprzedził pod tym względem wszystkie inne firmy i instytucje. Jego sztuczna inteligencja opisuje obrazy z trafnością dorównującą człowiekowi, co zapewniło jej pierwsze miejsce w specjalnym rankingu tego typu algorytmów. Gigant z Redmond twierdzi, iż model ten jest dwa razy skuteczniejszy niż ten, którego używał od 2015 roku.

Co najlepsze, Microsoft postanowił podzielić się swoją sztuczną inteligencją ze światem. Od teraz model opisujący zdjęcia jest oferowany w ramach rodziny usług Azure Cognitive Services, dzięki czemu każdy deweloper może wykorzystać go w swoich programach i aplikacjach. Jej możliwości pokazano już w stworzonej przez Microsoft aplikacji Seeing AI – aplikacji przeznaczonej dla osób niewidomych i niedowidzących, która opisuje takim osobom otaczający je świat.

Słowo klucz? Trening

W jaki sposób sztuczna inteligencja Microsoftu nauczyła się tak dobrze opisywać zdjęcia? Badacze pracujący dla firmy wytrenowali ją z pomocą obrazów, którym towarzyszyły wyłącznie specyficzne słowa kluczowe. Z reguły podobne modele trenowane są z użyciem zdjęć z pełnymi opisami, co utrudnia im zrozumienie, jak poszczególne obiekty na tych zdjęciach wchodzą ze sobą w interakcje.

„Ten wstępny wizualny trening słownictwa jest zasadniczą formą edukacji potrzebną do wytrenowania systemu; staramy się wyedukować tę pamięć motoryczną.”, powiedział Xuedong Huang, CTO Azure AI Cognitive Services w Redmond.

Model Microsoftu znalazł się na szczycie rankingu podobnych systemów ponieważ świetnie radzi sobie z opisywaniem zdjęć, których dotychczas nie widział. Niemniej, wyniki benchmarków to jedno, zaś to, jak sztuczna inteligencja radzi sobie w prawdziwym świecie, to zupełnie co innego. Póki co prezentuje ona jednak ogromny potencjał.

Takie firmy jak Microsoft regularnie dzielą się ze światem swoimi innowacjami, także w dziedzinie sztucznej inteligencji, ale rzadko zdarza się, by te innowacje tak szybko doczekiwały się implementacji. Mam nadzieję, że w przyszłości taka szybka implementacja stanie się panującym standardem.

Źródło: Microsoft, fot. tyt. Pixabay

Udostępnij

Maksym SłomskiZ dziennikarstwem technologicznym związany od 2009 roku, z nowymi technologiami od dzieciństwa. Pamięta pakiety internetowe TP i granie z kumplami w kafejkach internetowych. Obecnie newsman, tester oraz "ten od TikToka". Miłośnik ulepszania swojego desktopa, czochrania kotów, Mazdy MX-5 i aktywnego uprawiania sportu. Wyznawca filozofii xD.