Nowy robot z MIT „czuje” obiekty, które widzi

Gdy my, ludzie, dotkniemy czegoś z zamkniętymi oczami, jesteśmy w stanie wyobrazić sobie, jak ten obiekt wygląda. Posiadamy również zdolność do przewidywania, co odczulibyśmy na dłoniach, gdybyśmy dotknęli przedmiotu, na który zaledwie patrzymy. Tego samego nie można powiedzieć o robotach, które raczej nie rozumieją związku między zmysłem wzroku i dotyku. Inaczej ma być w przypadku nowej maszyny, którą zbudowali naukowcy z instytutu badawczego CSAIL (ang. Computer Science and Artificial Intelligence Laboratory) MIT.

Nowy robot, składający się na robotyczne ramię firmy KUKA oraz czujnik dotykowy o nazwie GelSight zbudowany przez inną grupę z MIT, został wyposażony w sztuczną inteligencję, którą nauczono, „jak widzieć z pomocą dotyku i czuć z pomocą wzroku.” Dokonano tego, tworząc specjalną bazę danych składającą się na 3 miliony par zdjęć różnych przedmiotów oraz informacji na tekstur tych przedmiotów. Obrazy były klatkami wyciągniętymi z 12 tysięcy materiałów wideo. Te materiały wideo nagrali sami badacze, a było na nich widać niemalże 200 obiektów, takich jak narzędzia, tkaniny, czy produkty do użytku domowego, które najzwyczajniej w świecie były dotykane.

Ponadto, system oparto na Generatywnych Sieciach Przeciwstawnych (GANs), które uczą się z pomocą tak zwanego generatora i dyskryminatora. Generator tworzy na podstawie dostarczanych informacji obrazy, które mają wyglądać niczym zdjęcia, a dyskryminator, który otrzymuje zarówno obrazy wygenerowane, jak i dostarczone z zasobów innej sieci neuronowej, musi je od siebie odróżniać. Proces nauczania kończy się, gdy generator zaczyna tworzyć obrazy tak podobne do rzeczywistych zdjęć, że dyskryminator przestaje być w stanie wychwytywać różnice.

„Patrząc na obraz, nasz model może wyobrazić sobie uczucie dotykania płaskiej powierzchni lub ostrej krawędzi.”, powiedział Yunzhu Li, jeden z badaczy. „Dotykając przedmiot na ślepo, nasz model może przewidzieć interakcję [wzrokową] ze środowiskiem wyłącznie na podstawie odczuć dotykowych. Połączenie tych dwóch zmysłów może usprawnić robota i zmniejszyć ilość danych potrzebnych do realizowania zadań związanych z manipulowaniem przedmiotami i chwytaniem ich.”

Jak wyjaśniają naukowcy, aby robot patrząc na obiekt mógł przewidzieć, jaka byłaby jego tekstura przy dotknięciu go, najpierw system musi ustalić, jaki fragment przedmiotu zostałby dotknięty, a następnie wydedukować informacje o kształcie przedmiotu i odczuciach związanych z dotykaniem go. Pomagają mu w tym wspomniane obrazy będące częścią bazy danych. Algorytm po prostu porównuje te obrazy do widoku, który ma przed sobą.

Ta z omawianych dwóch umiejętności pozwoliłaby robotom na planowanie bezpieczniejszych i wydajniejszych działań. Gdybyśmy wgrali do systemu zdjęcie myszy komputerowej, ten określiłby, gdzie najlepiej byłoby ją chwycić, aby ją podnieść.

Co z ustalaniem wyglądu przedmiotów na podstawie dotyku? W tym przypadku sztuczna inteligencja analizuje dane na temat tekstury obiektu, po czym dedukuje, jakiego materiału dotyka oraz jaki jest kształt przedmiotu, w miejscu, w którym go dotyka. Następnie system porównuje pozyskane informacje do zawartości bazy danych, wyobrażając sobie wygląd dotykanego obiektu.

Ta umiejętność byłaby z kolei przydatna podczas działań w ciemności. Dzięki niej roboty mogłyby radzić sobie w jeszcze cięższych warunkach, niż dotychczas.

W tej chwili robot MIT potrafi identyfikować wygląd obiektów na podstawie dotyku i wyobrażać sobie odczucia związane z dotykaniem przedmiotów na podstawie interakcji wzrokowej tylko w kontrolowanym środowisku. W przyszłości badacze zamierzają powiększyć swoją bazę danych, aby to zmienić.

Źródło: MIT News