Google Genie (https://sites.google.com/view/genie-2024/) är en grundläggande världsmodell utvecklad av DeepMind. Det är en generativ AI-modell som har tränats på över 30 000 timmar av offentligt tillgängligt videospelmaterial från 2D-plattformsspel. Dess nyckelfunktion är förmågan att generera helt interaktiva, spelbara miljöer direkt från enskilda bilder, foton och till och med handritade skisser.
Källa: Genie: Generative Interactive Environments (https://arxiv.org/abs/2402.15391)
Hur är detta möjligt? Genie använder en osupervised inlärningsteknik i processen att förvärva förmågan att exakt kontrollera miljön baserat enbart på videomaterial. Ingen mänsklig åtgärdsetikettering krävs. Genom att använda en speciell åtgärdskodningsmodul fångar den subtila förändringar mellan efterföljande videoramar och kartlägger dem till interna representationer av rörelse, såsom hopp eller svänga vänster. Dynamikmodellen genererar sedan nästa ram i sekvensen baserat på de kodade åtgärderna.
Som ett resultat kan Genie skapa helt kontrollerbara, interaktiva spelmiljöer från vilket visuellt data som helst. Varje spelarens rörelse genererar en ny, unik ram i realtid, vilket skapar en smidig, spelbar session. Detta är en verklig stor innovation som gör att vi kan skapa hela interaktiva världar från bilder eller text.
Genies innovation ligger i att kombinera flera nyckelelement i en enda modell:
Även om varje av dessa områden har utforskats tidigare, är Genie den första modellen som kombinerar dem för att lära sig kontrollerbara miljöer direkt från videomaterial. Denna oöverträffade metod för att lära modeller utan mänsklig övervakning är en nyckelinnovation av Genie. Det öppnar dörren för att använda den stora mängden video som finns på Internet som en träningskälla för AI-modeller och bryter ner barriärerna som är förknippade med den begränsade tillgången på märkta data.
Kombinationen av generativa videomodeller, världsmodeller och osupervised inlärning i en enda lösning representerar ett grundläggande framsteg inom utvecklingen av artificiell intelligens. Genie visar att avancerade AI-system kan lära sig komplexa beteenden och miljöer direkt från ostrukturerad data, utan manuell etikettering. Detta är ett viktigt steg på vägen mot att uppnå verklig artificiell generell intelligens (AGI).
Källa: Google Genie (https://sites.google.com/view/genie-2024/)
Google Genies kapabiliteter sträcker sig långt bortom att generera videospel. Denna banbrytande AI-modell kan hitta tillämpningar inom många områden:
Men de potentiella utmaningarna och begränsningarna av denna teknik bör inte förbises. I det nuvarande utvecklingsstadiet fungerar Genie bäst i snäva domäner som 2D-plattformsspel. Att skala upp till mer komplexa 3D-miljöer kommer att kräva ytterligare forskning och optimering. Dessutom finns det en risk att denna teknik kan missbrukas för att skapa skadligt eller farligt innehåll. Det är därför avgörande att utveckla en robust etisk och juridisk ram för att styra utvecklingen och användningen av sådana AI-modeller.
Källa: Google Genie (https://sites.google.com/view/genie-2024/)
Genom att möjliggöra skapandet av helt interaktiva miljöer direkt från visuell data, utan behov av att manuellt märka åtgärder, representerar Google Genie ett verkligt genombrott inom generativ artificiell intelligens. Denna grundläggande världsmodell ger makten att uttrycka bilder i form av spelbara virtuella verkligheter som kan utforskas och kontrolleras av en människa eller AI-agent.
Genies potential är enorm – från verktyg för spelutvecklare, till en obegränsad källa av träningsdata för AI, till fysiska simuleringar för robotik. Det är också ett viktigt steg på vägen mot AGI. När modeller som Genie fortsätter att utvecklas, blir gränsen mellan de verkliga och virtuella världarna mer flytande.
Om du gillar vårt innehåll, gå med i vår aktiva bi-gemenskap på Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.
JavaScript-expert och instruktör som coachar IT-avdelningar. Hans huvudmål är att höja teamets produktivitet genom att lära andra hur man effektivt samarbetar medan man kodar.
Företag kämpar med att hantera en stor mängd innehåll som publiceras online, från inlägg på…
I den digitala transformationens era har företag tillgång till en oöverträffad mängd data om sina…
Visste du att du kan få essensen av en flera timmar lång inspelning från ett…
Föreställ dig en värld där ditt företag kan skapa engagerande, personliga videor för alla tillfällen…
För att fullt ut utnyttja potentialen hos stora språkmodeller (LLM:er) behöver företag implementera en effektiv…
År 2018 hade Unilever redan påbörjat en medveten resa för att balansera automatisering och förstärkningsförmågor.…