Categories: AI i affärerBlogg

ReALM. En banbrytande språkmodell från Apple? | AI i affärer #121

Vad är ReALM?

ReALM står för “Reference Resolution As Language Modeling,” en banbrytande lösning utvecklad av Apple-forskare. Det är alltså en ny språkmodell (Large Language Model, LLM) som behandlar problemet med referensigenkänning som en uppgift inom språkmodellering.

ReALM konverterar effektivt olika typer av kontext till en textuell representation, som den sedan bearbetar som en del av en språkuppgift. Detta kan inkludera:

  • konversationer – såsom textmeddelanden, röstkommandon till en assistent eller e-post,
  • element på skärmen – till exempel, foton, kalender, väderwidget eller applikationer och processer som körs i bakgrunden.

Vad gör ReALM annorlunda än andra modeller för referensigenkänning? Först och främst tillvägagångssättet – istället för att förlita sig på bildbehandling, kör ReALM i textdomänen. Detta gör den mycket lättare och mer effektiv, vilket bör möjliggöra att den kan köras direkt på mobila enheter samtidigt som användarens integritet upprätthålls.

På vilka sätt är ReALM bättre än GPT-4?

Apples forskningsteam jämförde ReALM med de mest kraftfulla språkmodellerna på marknaden idag – GPT-3.5 och GPT-4 från OpenAI. Resultaten var imponerande. I uppgifter för referensigenkänning uppnådde den minsta ReALM-varianten noggrannhet som var jämförbar med GPT-4! De större ReALM-modellerna överträffade till och med GPT-4 i att känna igen referenser till objekt som visas på skärmen (http://arxiv.org/abs/2403.20329).

Vad förklarar denna fördel? Först och främst är ReALM utmärkt med domänspecifika frågor, såsom de som rör smarta hem-apparater. Detta beror på att ReALM visar en djupare förståelse för kontext genom att finjustera modellen för domänspecifika data.

Vad mer är, till skillnad från GPT-4, som främst tränar på bilder av verkliga objekt, excellerar ReALM på att känna igen textuella element och komponenter i applikationers användargränssnitt. Och det är förståelsen av gränssnittet som är avgörande för den smidiga interaktionen mellan röstassistenter och de applikationer vi använder idag.

Källa: DALL·E 3, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)

Är detta början på en era av verkligt intelligenta assistenter?

Verkligen, integrationen av ReALM med Siri skulle kunna öppna ett helt nytt kapitel i människa-datorinteraktion. Med ReALM kommer Siri att kunna förstå kommandon som inkluderar referenser till objekt som visas på smartphoneskärmen, samt processer och applikationer som körs i bakgrunden. Men när kommer detta alternativ att vara tillgängligt för användare? Det är fortfarande okänt.

Vi står kvar med spekulationer baserade på modellens tekniska kapabiliteter. Så hur skulle en ReALM-drivna Siri kunna fungera? Till exempel, om du bläddrar på en företagslistningssajt och ser ett företag du är intresserad av, skulle du helt enkelt kunna säga till Siri, “Ring detta företag,” och assistenten – som använder ReALM för att analysera kontexten – kommer att hitta telefonnumret till det företag du specificerar och initiera samtalet. Du behöver inte ens förklara exakt vilket företag du menar.

Detta är bara början på ReALMs möjligheter. Kommandon som “Spela upp den senaste spellistan” skulle möjliggöra intuitiv kontroll av medieapplikationer och smarta hem-enheter. ReALM skulle också kunna möjliggöra för Siri att förstå kontexten av konversationer och kommandohistorik, så att assistenten reagerar adekvat på användarens tidigare begärningar. Detta är ett steg mot intelligenta agenter som för oss närmare inte en artificiell intelligens som förstår våra förfrågningar, utan en som vet hur man utför kommandon.

Och detta är bara början på vad ReALM kan göra. Kommandon som “spela upp den senaste spellistan” skulle möjliggöra intuitiv kontroll av medieapplikationer och smarta hem-enheter. ReALM skulle också kunna möjliggöra för Siri att förstå kontexten av konversationer och kommandohistorik, så att assistenten svarar lämpligt på användarens tidigare begärningar. Detta är ett steg mot intelligenta agenter, som för oss närmare inte en artificiell intelligens som förstår våra förfrågningar, utan en som vet hur man utför kommandon.

Tyvärr kommer användare av Android-enheter att få vänta. För närvarande finns det ingen information om Googles planer på att lägga till Geminis kapabiliteter till Google Assistant. En Google Gemini-app för Android-enheter har utvecklats (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US), men den är ännu inte tillgänglig utanför USA.

Källa: Google Play (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US)

Sammanfattning

ReALM är Apples innovativa tillvägagångssätt för att lösa problemet med kontextigenkänning av röstassistenter. Istället för att förlita sig på bildbehandling, konverterar denna språkmodell olika typer av kontext till en textuell representation, som den sedan bearbetar i en språkuppgift. Detta tillvägagångssätt säkerställer inte bara hög noggrannhet i igenkänning, utan också förmågan att fungera på en mobil enhet samtidigt som användarens integritet upprätthålls.

Att ge Siri tillgång till ReALM kan ge mer naturliga och kontextuella röstinteraktioner, ett viktigt steg mot verkligt intelligenta assistenter. Med ReALM kommer Siri att kunna svara omedelbart på kommandon relaterade till skärmelement, applikationer och bakgrundsprocesser. En sak är säker – att förbättra assistenternas kontextuella medvetenhet är nyckeln till att skapa verkligt intelligenta och naturliga röstinteraktioner, och ReALM är utan tvekan ett viktigt steg i den riktningen.

Om du gillar vårt innehåll, gå med i vår aktiva gemenskap av bin på Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

JavaScript-expert och instruktör som coachar IT-avdelningar. Hans huvudmål är att höja teamets produktivitet genom att lära andra hur man effektivt samarbetar medan man kodar.

View all posts →

Robert Whitney

JavaScript-expert och instruktör som coachar IT-avdelningar. Hans huvudmål är att höja teamets produktivitet genom att lära andra hur man effektivt samarbetar medan man kodar.

Share
Published by
Robert Whitney

Recent Posts

AI:s roll i innehållsmoderering | AI i affärer #129

Företag kämpar med att hantera en stor mängd innehåll som publiceras online, från inlägg på…

4 days ago

Sentimentanalys med AI. Hur hjälper det till att driva förändring i företag? | AI i företag #128

I den digitala transformationens era har företag tillgång till en oöverträffad mängd data om sina…

4 days ago

Bästa AI-transkription verktyg. Hur omvandlar man långa inspelningar till koncisa sammanfattningar? | AI i affärer #127

Visste du att du kan få essensen av en flera timmar lång inspelning från ett…

4 days ago

AI-videogenerering. Nya horisonter inom videoinnehållsproduktion för företag | AI i affärer #126

Föreställ dig en värld där ditt företag kan skapa engagerande, personliga videor för alla tillfällen…

4 days ago

LLMOps, eller hur man effektivt hanterar språkmodeller i en organisation | AI i affärer #125

För att fullt ut utnyttja potentialen hos stora språkmodeller (LLM:er) behöver företag implementera en effektiv…

4 days ago

Automation eller förstärkning? Två tillvägagångssätt för AI i ett företag | AI i affärer #124

År 2018 hade Unilever redan påbörjat en medveten resa för att balansera automatisering och förstärkningsförmågor.…

4 days ago