ReALM står för “Reference Resolution As Language Modeling,” en banbrytande lösning utvecklad av Apple-forskare. Det är alltså en ny språkmodell (Large Language Model, LLM) som behandlar problemet med referensigenkänning som en uppgift inom språkmodellering.
ReALM konverterar effektivt olika typer av kontext till en textuell representation, som den sedan bearbetar som en del av en språkuppgift. Detta kan inkludera:
Vad gör ReALM annorlunda än andra modeller för referensigenkänning? Först och främst tillvägagångssättet – istället för att förlita sig på bildbehandling, kör ReALM i textdomänen. Detta gör den mycket lättare och mer effektiv, vilket bör möjliggöra att den kan köras direkt på mobila enheter samtidigt som användarens integritet upprätthålls.
Apples forskningsteam jämförde ReALM med de mest kraftfulla språkmodellerna på marknaden idag – GPT-3.5 och GPT-4 från OpenAI. Resultaten var imponerande. I uppgifter för referensigenkänning uppnådde den minsta ReALM-varianten noggrannhet som var jämförbar med GPT-4! De större ReALM-modellerna överträffade till och med GPT-4 i att känna igen referenser till objekt som visas på skärmen (http://arxiv.org/abs/2403.20329).
Vad förklarar denna fördel? Först och främst är ReALM utmärkt med domänspecifika frågor, såsom de som rör smarta hem-apparater. Detta beror på att ReALM visar en djupare förståelse för kontext genom att finjustera modellen för domänspecifika data.
Vad mer är, till skillnad från GPT-4, som främst tränar på bilder av verkliga objekt, excellerar ReALM på att känna igen textuella element och komponenter i applikationers användargränssnitt. Och det är förståelsen av gränssnittet som är avgörande för den smidiga interaktionen mellan röstassistenter och de applikationer vi använder idag.
Källa: DALL·E 3, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)
Verkligen, integrationen av ReALM med Siri skulle kunna öppna ett helt nytt kapitel i människa-datorinteraktion. Med ReALM kommer Siri att kunna förstå kommandon som inkluderar referenser till objekt som visas på smartphoneskärmen, samt processer och applikationer som körs i bakgrunden. Men när kommer detta alternativ att vara tillgängligt för användare? Det är fortfarande okänt.
Vi står kvar med spekulationer baserade på modellens tekniska kapabiliteter. Så hur skulle en ReALM-drivna Siri kunna fungera? Till exempel, om du bläddrar på en företagslistningssajt och ser ett företag du är intresserad av, skulle du helt enkelt kunna säga till Siri, “Ring detta företag,” och assistenten – som använder ReALM för att analysera kontexten – kommer att hitta telefonnumret till det företag du specificerar och initiera samtalet. Du behöver inte ens förklara exakt vilket företag du menar.
Detta är bara början på ReALMs möjligheter. Kommandon som “Spela upp den senaste spellistan” skulle möjliggöra intuitiv kontroll av medieapplikationer och smarta hem-enheter. ReALM skulle också kunna möjliggöra för Siri att förstå kontexten av konversationer och kommandohistorik, så att assistenten reagerar adekvat på användarens tidigare begärningar. Detta är ett steg mot intelligenta agenter som för oss närmare inte en artificiell intelligens som förstår våra förfrågningar, utan en som vet hur man utför kommandon.
Och detta är bara början på vad ReALM kan göra. Kommandon som “spela upp den senaste spellistan” skulle möjliggöra intuitiv kontroll av medieapplikationer och smarta hem-enheter. ReALM skulle också kunna möjliggöra för Siri att förstå kontexten av konversationer och kommandohistorik, så att assistenten svarar lämpligt på användarens tidigare begärningar. Detta är ett steg mot intelligenta agenter, som för oss närmare inte en artificiell intelligens som förstår våra förfrågningar, utan en som vet hur man utför kommandon.
Tyvärr kommer användare av Android-enheter att få vänta. För närvarande finns det ingen information om Googles planer på att lägga till Geminis kapabiliteter till Google Assistant. En Google Gemini-app för Android-enheter har utvecklats (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US), men den är ännu inte tillgänglig utanför USA.
Källa: Google Play (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US)
ReALM är Apples innovativa tillvägagångssätt för att lösa problemet med kontextigenkänning av röstassistenter. Istället för att förlita sig på bildbehandling, konverterar denna språkmodell olika typer av kontext till en textuell representation, som den sedan bearbetar i en språkuppgift. Detta tillvägagångssätt säkerställer inte bara hög noggrannhet i igenkänning, utan också förmågan att fungera på en mobil enhet samtidigt som användarens integritet upprätthålls.
Att ge Siri tillgång till ReALM kan ge mer naturliga och kontextuella röstinteraktioner, ett viktigt steg mot verkligt intelligenta assistenter. Med ReALM kommer Siri att kunna svara omedelbart på kommandon relaterade till skärmelement, applikationer och bakgrundsprocesser. En sak är säker – att förbättra assistenternas kontextuella medvetenhet är nyckeln till att skapa verkligt intelligenta och naturliga röstinteraktioner, och ReALM är utan tvekan ett viktigt steg i den riktningen.
Om du gillar vårt innehåll, gå med i vår aktiva gemenskap av bin på Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.
JavaScript-expert och instruktör som coachar IT-avdelningar. Hans huvudmål är att höja teamets produktivitet genom att lära andra hur man effektivt samarbetar medan man kodar.
Företag kämpar med att hantera en stor mängd innehåll som publiceras online, från inlägg på…
I den digitala transformationens era har företag tillgång till en oöverträffad mängd data om sina…
Visste du att du kan få essensen av en flera timmar lång inspelning från ett…
Föreställ dig en värld där ditt företag kan skapa engagerande, personliga videor för alla tillfällen…
För att fullt ut utnyttja potentialen hos stora språkmodeller (LLM:er) behöver företag implementera en effektiv…
År 2018 hade Unilever redan påbörjat en medveten resa för att balansera automatisering och förstärkningsförmågor.…