Humanoide hjemmeroboter er ikke lenger science fiction, men de står enda ovenfor én stor utfordring: å forstå den fysiske verden
Hjemmeroboter trenger å forstå hvordan verden fungerer. Tyngdekraft, bevegelser, kontakt, årsak og virkning er alle elementer som slik robot må lære seg. Mange roboter i dager bruker vision-language-action-modeller (VLA). Disse modellene er flinke på å tolke bilder og tekst og handle etter det. En slik tilnærming gjør oppgaver som er enkle for mennesker til en stor utfordring for en robot. Dette gjøres i tillegg med enorme mengder trengingsdata og til en dyr pris.
Utfordringen ligger i å forstå den fysiske verden og dens dynamikk. Det norsk-amerikanske selskapet 1X sitt svar på denne utfordringen ligger i å bruke sin world model, kalt 1XWM. Fremfor å se bilder og deretter velge handling bruker modellen en annen fremgangsmåte: først se verden, deretter forestille seg fremtiden, for så å handle. Denne modellen er trent på video integrert i deres humanoide hjemmerobot NEO, hvor kameraene beleilig er plassert som to kulerunde øyne. Video inneholder bevegelse, samspill og årsak-virkning, og gir et godt bilde på hvordan mennesker håndterer verden. Dette skal gi roboten en mer generell forståelse av verden.
En world model fungerer ved at roboten observerer verden, simulerer mulige fremtider, og handler basert på dette, omtrent som når du selv tenker deg om en gang før du gjør noe dumt, eller klokt. Treningsvideoen den innhenter ved å observere mennesker vil være direkte overførbar til NEOs menneskelignende kropp. Rekkevidde, ledd og bevegelsesmønster er eksempler på elementer som vil være like hos mennesker og NEO.
Det høres optimistisk ut, men som med alt annet er det begrensninger og utfordringer også med world model. Enn så lenge sliter NEO med dybdeforståelse og presisjon i 3D, og den kan ha tolket det visuelle korrekt, men likevel handle feil fysisk. Presise oppgaver og dårlig kvalitet på videoopptak er også utfordringer som på sikt må løses. En midlertidig ulempe med roboten er at roboten enda trenger mye hjelp av menneskelige operatører til komplekse oppgaver. Dette er grunnet manglende treningsdata, som selskapet nå, med disse første robotene, bruker tiden sin på å samle.
NEO har en prislapp på 200 000 norske kroner, og de første kjøperne vil få sine roboter levert allerede i år. Det gjenstår å se hvor autonom den faktisk blir, men NEO vider en tydelig retning for AI i fysisk bruk i årene som kommer.