Google DeepMind pokazuje, że w grach wideo można trenować coś więcej niż sprytne boty. Druga generacja projektu SIMA (Scalable Instructable Multiworld Agent - Wielośrodowiskowy agent o skalowalnej szkoleniowości), działa w otwartych, trójwymiarowych światach w sposób, który coraz bardziej przypomina ludzką współpracę. Agent AI obserwuje wydarzenia na ekranie, korzysta z wirtualnej klawiatury i myszki, a jego zadaniem jest sensowne poruszanie się po rozbudowanych środowiskach i wykonywanie celów. Poligonami ćwiczeniowymi, na których SIMA 2 się uczy to światy popularnych gier, w tym m.in. Symulatora Kozy 3, No Man's Sky, Valheima oraz Satisfactory.
Od leśnej osady po stacje kosmiczne
SIMA 2 działa w oparciu o model Gemini, który nadaje mu zdolność analizowania celu, tłumaczenia go na konkretne działania i wyjaśniania, jaki plan zamierza zrealizować. Agent AI Google'a rozumie język naturalny, rozpoznaje szkice, obrazy i emotikony, a także radzi sobie w grach, których wcześniej nie widział. Google zauważa, że zakres umiejętności agenta SIMA 2 jest znacznie szerszy niż w pierwszej generacji. AI sprawnie radzi sobie z wykonywaniem wielu zadań, potrafi zmagać się także z bardziej złożonymi problemami, które wymagają wielu kroków i dłuższego czasu na ich ukończenie.
Dla przykładu w Valheimie agent AI po otrzymaniu prostych komunikatów w stylu "Wyglądnij przez okno", "Opisz, co widzisz" i wykonuje je płynnie, obserwując to, co widzi na ekranie. Jednak równie dobrze radzi sobie z bardziej skomplikowanymi zadaniami np. dotyczącymi zebrania miodu z uli czy stworzenia pochodni z dostępnych w ekwipunku przedmiotów. Ponadto rozumie różne języki, w tym obrazkowy. Po wprowadzeniu grafik siekiery i drzewa, SIMA 2 natychmiast przystąpił do wyszukania i ścinania najbliższych. Z kolei po odczytaniu w oknie chata grafik "otwartego folderu" i "plecaka" otworzył ekwipunek, by następnie zamknąć go po wyświetleniu ikonki "machającej dłoni".
Jakby tego było agent AI Google'a potrafi zareagować także na polecenia o mniej dosłownym charakterze. Gdy w grze No Man's Sky otrzymuje komunikat z prośbą o znalezienie obiektu z rysunku i wskoczeniu na niego, natychmiast rusza na poszukiwania, a po napotkaniu wskazanego statku, wykonuje zleconą czynność.
To odejście od klasycznego podejścia do sztucznej inteligencji w grach, gdzie NPC-e działają tylko w obrębie narzuconych skryptów. SIMA 2 zbiera dane, łączy i wykorzystuje zdobytą wiedzę z różnych środowisk. Jeśli w jednym tytule nauczy się, czym jest "wydobywanie", będzie potrafił przełożyć informacje na "zbieranie zasobów" w innym uniwersum.
Od instrukcji po świadome działanie
Druga generacja projektu SIMA korzysta z mieszanego zestawu danych: filmów demonstracyjnych z udziałem ludzi, opisów tego, co robią, a także opisów stworzonych automatycznie przez system Gemini. W efekcie agent AI Google'a potrafi już jasno wyjaśnić, jaki ma plan działania i krok po kroku opowiedzieć, jak zamierza osiągnąć wyznaczony cel.
SIMA 2 to przełomowa zmiana i znacząca poprawa możliwości w porównaniu do SIMA 1. To bardziej uniwersalny agent, który potrafi wykonywać złożone zadania w środowiskach, których wcześniej nie widział
Skuteczność wykonywania złożonych zadań wzrosła dwukrotnie w porównaniu z pierwszą wersją agenta.

Perfekcyjny partner nie tylko do gry
SIMA od DeepMind może w przyszłości pełnić rolę kooperacyjnego partnera do gier dla osób, które nie mają z kim grać albo stanowić swego rodzaju ratunek w przypadku, gdy nagle w trakcie rozgrywki jeden z zawodników rozłączy się z serwerami. Jednak nie tylko.
Agent AI Google'a świetnie sprawdza się w charakterze narzędzia pomocniczego, a wirtualne światy stanowią dla niego bezpieczne miejsca do ćwiczenia nawigacji, obsługi narzędzi, rozumienia poleceń i współpracy. To właśnie te umiejętności mają w przyszłości znaleźć zastosowanie w dynamicznych środowiskach rzeczywistości, w których będą działać bardziej zaawansowane systemy i roboty.
Prawdziwa inteligencja
SIMA 2 na razie pozostaje w fazie projektu badawczego udostępnianego wyłącznie wybranym naukowcom i studiom deweloperskim. Pomimo sukcesów wciąż pozostają wyzwania do osiągnięcia. Agent działa w oparciu o krótką pamięć interakcji i musi zmieścić się w ograniczonym oknie kontekstowym, by zapewnić szybkie reakcje. Trudności jest znacznie więcej, to problemy, z którymi mierzy się nie tylko SIMA 2, ale cały sektor AI. Pomimo tego każda kolejna poprawka pokazuje, że granica między wirtualnym światem, a rzeczywistością staje się coraz cieńsza. DeepMind konsekwentnie zbliża się do budowy inteligencji zdolnej działać w środowiskach znacznie bardziej wymagających niż jakakolwiek gra.











