ReALM – innehållsförteckning
Vad är ReALM?
ReALM står för “Reference Resolution As Language Modeling,” en banbrytande lösning utvecklad av Apple-forskare. Det är alltså en ny språkmodell (Large Language Model, LLM) som behandlar problemet med referensigenkänning som en uppgift inom språkmodellering.
ReALM konverterar effektivt olika typer av kontext till en textuell representation, som den sedan bearbetar som en del av en språkuppgift. Detta kan inkludera:
- konversationer – såsom textmeddelanden, röstkommandon till en assistent eller e-post,
- element på skärmen – till exempel, foton, kalender, väderwidget eller applikationer och processer som körs i bakgrunden.
Vad gör ReALM annorlunda än andra modeller för referensigenkänning? Först och främst tillvägagångssättet – istället för att förlita sig på bildbehandling, kör ReALM i textdomänen. Detta gör den mycket lättare och mer effektiv, vilket bör möjliggöra att den kan köras direkt på mobila enheter samtidigt som användarens integritet upprätthålls.
På vilka sätt är ReALM bättre än GPT-4?
Apples forskningsteam jämförde ReALM med de mest kraftfulla språkmodellerna på marknaden idag – GPT-3.5 och GPT-4 från OpenAI. Resultaten var imponerande. I uppgifter för referensigenkänning uppnådde den minsta ReALM-varianten noggrannhet som var jämförbar med GPT-4! De större ReALM-modellerna överträffade till och med GPT-4 i att känna igen referenser till objekt som visas på skärmen (http://arxiv.org/abs/2403.20329).
Vad förklarar denna fördel? Först och främst är ReALM utmärkt med domänspecifika frågor, såsom de som rör smarta hem-apparater. Detta beror på att ReALM visar en djupare förståelse för kontext genom att finjustera modellen för domänspecifika data.
Vad mer är, till skillnad från GPT-4, som främst tränar på bilder av verkliga objekt, excellerar ReALM på att känna igen textuella element och komponenter i applikationers användargränssnitt. Och det är förståelsen av gränssnittet som är avgörande för den smidiga interaktionen mellan röstassistenter och de applikationer vi använder idag.

Källa: DALL·E 3, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)
Är detta början på en era av verkligt intelligenta assistenter?
Verkligen, integrationen av ReALM med Siri skulle kunna öppna ett helt nytt kapitel i människa-datorinteraktion. Med ReALM kommer Siri att kunna förstå kommandon som inkluderar referenser till objekt som visas på smartphoneskärmen, samt processer och applikationer som körs i bakgrunden. Men när kommer detta alternativ att vara tillgängligt för användare? Det är fortfarande okänt.
Vi står kvar med spekulationer baserade på modellens tekniska kapabiliteter. Så hur skulle en ReALM-drivna Siri kunna fungera? Till exempel, om du bläddrar på en företagslistningssajt och ser ett företag du är intresserad av, skulle du helt enkelt kunna säga till Siri, “Ring detta företag,” och assistenten – som använder ReALM för att analysera kontexten – kommer att hitta telefonnumret till det företag du specificerar och initiera samtalet. Du behöver inte ens förklara exakt vilket företag du menar.
Detta är bara början på ReALMs möjligheter. Kommandon som “Spela upp den senaste spellistan” skulle möjliggöra intuitiv kontroll av medieapplikationer och smarta hem-enheter. ReALM skulle också kunna möjliggöra för Siri att förstå kontexten av konversationer och kommandohistorik, så att assistenten reagerar adekvat på användarens tidigare begärningar. Detta är ett steg mot intelligenta agenter som för oss närmare inte en artificiell intelligens som förstår våra förfrågningar, utan en som vet hur man utför kommandon.
Och detta är bara början på vad ReALM kan göra. Kommandon som “spela upp den senaste spellistan” skulle möjliggöra intuitiv kontroll av medieapplikationer och smarta hem-enheter. ReALM skulle också kunna möjliggöra för Siri att förstå kontexten av konversationer och kommandohistorik, så att assistenten svarar lämpligt på användarens tidigare begärningar. Detta är ett steg mot intelligenta agenter, som för oss närmare inte en artificiell intelligens som förstår våra förfrågningar, utan en som vet hur man utför kommandon.
Tyvärr kommer användare av Android-enheter att få vänta. För närvarande finns det ingen information om Googles planer på att lägga till Geminis kapabiliteter till Google Assistant. En Google Gemini-app för Android-enheter har utvecklats (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US), men den är ännu inte tillgänglig utanför USA.

Källa: Google Play (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US)
Sammanfattning
ReALM är Apples innovativa tillvägagångssätt för att lösa problemet med kontextigenkänning av röstassistenter. Istället för att förlita sig på bildbehandling, konverterar denna språkmodell olika typer av kontext till en textuell representation, som den sedan bearbetar i en språkuppgift. Detta tillvägagångssätt säkerställer inte bara hög noggrannhet i igenkänning, utan också förmågan att fungera på en mobil enhet samtidigt som användarens integritet upprätthålls.
Att ge Siri tillgång till ReALM kan ge mer naturliga och kontextuella röstinteraktioner, ett viktigt steg mot verkligt intelligenta assistenter. Med ReALM kommer Siri att kunna svara omedelbart på kommandon relaterade till skärmelement, applikationer och bakgrundsprocesser. En sak är säker – att förbättra assistenternas kontextuella medvetenhet är nyckeln till att skapa verkligt intelligenta och naturliga röstinteraktioner, och ReALM är utan tvekan ett viktigt steg i den riktningen.

Om du gillar vårt innehåll, gå med i vår aktiva gemenskap av bin på Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.
Robert Whitney
JavaScript-expert och instruktör som coachar IT-avdelningar. Hans huvudmål är att höja teamets produktivitet genom att lära andra hur man effektivt samarbetar medan man kodar.
AI in business:
- 6 fantastiska ChatGTP-plugins som kommer att göra ditt liv enklare
- Navigera nya affärsmöjligheter med ChatGPT-4
- 3 fantastiska AI-skribenter du måste prova idag
- Syntetiska skådespelare. Topp 3 AI-videogeneratorer
- Vilka är svagheterna i min affärsidé? En brainstorming-session med ChatGPT
- Att använda ChatGPT i affärer
- Nya tjänster och produkter som använder AI
- Automatiserade inlägg på sociala medier
- Schemalägga inlägg på sociala medier. Hur kan AI hjälpa till?
- AI:s roll i affärsbeslutsfattande
- Affärsnlp idag och imorgon
- AI-assisterade textchattbotar
- AI-applikationer inom affärsvärlden - översikt
- Hot och möjligheter med AI i affärer (del 2)
- Hot och möjligheter med AI i affärer (del 1)
- Vad är framtiden för AI enligt McKinsey Global Institute?
- Artificiell intelligens i affärer - Introduktion
- Vad är NLP, eller naturlig språkbehandling i affärer
- Google Translate vs DeepL. 5 tillämpningar av maskinöversättning för företag
- Automatisk dokumenthantering
- Drift och affärsapplikationer för röstrobotar
- Virtuell assistentteknik, eller hur man pratar med AI?
- Vad är affärsintelligens?
- Hur kan artificiell intelligens hjälpa till med BPM?
- Kreativ AI idag och imorgon
- Artificiell intelligens i innehållshantering
- Utforska kraften i AI inom musikskapande
- 3 användbara AI-grafikdesignverktyg. Generativ AI i affärer
- AI och sociala medier – vad säger de om oss?
- Kommer artificiell intelligens att ersätta affärsanalytiker?
- AI-verktyg för chefen
- Framtidens arbetsmarknad och kommande yrken
- RPA och API:er i ett digitalt företag
- Nya interaktioner. Hur förändrar AI sättet vi använder enheter?
- Multimodal AI och dess tillämpningar inom affärer
- Artificiell intelligens och miljön. 3 AI-lösningar för att hjälpa dig bygga en hållbar verksamhet
- AI-innehållsdetektorer. Är de värda det?
- ChatGPT vs Bard vs Bing. Vilken AI-chattbot leder racet?
- Är chatbot-AI en konkurrent till Google-sökning?
- Effektiva ChatGPT-frågor för HR och rekrytering
- Prompt engineering. Vad gör en promptingenjör?
- AI och vad mer? Toppteknologitrender för företag 2024
- AI och affärsetik. Varför du bör investera i etiska lösningar
- Meta AI. Vad bör du veta om Facebooks och Instagrams AI-stödda funktioner?
- AI-reglering. Vad behöver du veta som entreprenör?
- 5 nya användningar av AI i affärer
- AI-produkter och projekt - hur skiljer de sig från andra?
- AI som en expert i ditt team
- AI-team vs. rollfördelning
- Hur väljer man ett karriärområde inom AI?
- AI inom HR: Hur rekryteringsautomation påverkar HR och teamutveckling
- AI-assisterad processautomation. Var ska man börja?
- 6 mest intressanta AI-verktyg 2023
- Vad är företagets AI-mognadsanalys?
- AI för B2B-personalisering
- ChatGPT-användningsfall. 18 exempel på hur du kan förbättra ditt företag med ChatGPT 2024
- AI Mockup-generator. Topp 4 verktyg
- Mikrolärande. Ett snabbt sätt att få nya färdigheter
- De mest intressanta AI-implementationerna i företag 2024
- Vilka utmaningar medför AI-projektet?
- Topp 8 AI-verktyg för företag 2024
- AI i CRM. Vad förändrar AI i CRM-verktyg?
- UE:s AI-lag. Hur reglerar Europa användningen av artificiell intelligens
- Topp 7 AI webbplatsbyggare
- Ingen kodverktyg och AI-innovationer
- Hur mycket ökar användningen av AI produktiviteten i ditt team?
- Hur man använder ChatGTP för marknadsundersökningar?
- Hur kan du bredda räckvidden för din AI-marknadsföringskampanj?
- AI inom transport och logistik
- Vilka affärsproblem kan AI lösa?
- Hur matchar du en AI-lösning med ett affärsproblem?
- Artificiell intelligens i medierna
- AI inom bank och finans. Stripe, Monzo och Grab
- AI inom resebranschen
- Hur AI främjar födelsen av nya teknologier
- AI inom e-handel. Översikt över globala ledare
- Topp 4 AI-bildskapande verktyg
- Topp 5 AI-verktyg för dataanalys
- Revolutionen av AI i sociala medier
- Är det alltid värt att lägga till artificiell intelligens i produktutvecklingsprocessen?
- 6 största affärsmisstag orsakade av AI
- AI-strategi i ditt företag - hur bygger man den?
- Bästa AI-kurser – 6 fantastiska rekommendationer
- Optimera sociala medier-lyssnande med AI-verktyg
- IoT + AI, eller hur man minskar energikostnaderna i ett företag
- AI inom logistik. 5 bästa verktyg
- GPT Store – en översikt över de mest intressanta GPT:erna för företag
- LLM, GPT, RAG... Vad betyder AI-förkortningar?
- AI-robotar – framtiden eller nutiden för affärer?
- Vad kostar det att implementera AI i ett företag?
- Vad gör specialister inom artificiell intelligens?
- Hur kan AI hjälpa till i en frilansares karriär?
- Automatisera arbete och öka produktiviteten. En guide till AI för frilansare
- AI för startups – bästa verktyg
- Bygga en webbplats med AI
- Eleven Labs och vad mer? De mest lovande AI-startups.
- OpenAI, Midjourney, Anthropic, Hugging Face. Vem är vem i AI-världen?
- Syntetisk data och dess betydelse för utvecklingen av ditt företag
- Topp AI-sökmotorer. Var ska man leta efter AI-verktyg?
- Video AI. De senaste AI-videogeneratorerna
- AI för chefer. Hur AI kan göra ditt jobb enklare
- Vad är nytt i Google Gemini? Allt du behöver veta
- AI i Polen. Företag, möten och konferenser
- AI-kalender. Hur optimerar du din tid i ett företag?
- AI och framtiden för arbete. Hur förbereder du ditt företag för förändring?
- AI-röstkloning för företag. Hur skapar man personliga röstmeddelanden med AI?
- "Vi är alla utvecklare". Hur kan medborgarutvecklare hjälpa ditt företag?
- Faktakontroll och AI-hallucinationer
- AI i rekrytering – utveckla rekryteringsmaterial steg för steg
- Sora. Hur kommer realistiska videor från OpenAI att förändra affärer?
- Midjourney v6. Innovationer inom AI-bildgenerering
- AI i små och medelstora företag. Hur kan små och medelstora företag konkurrera med jättar med hjälp av AI?
- Hur förändrar AI influencer-marknadsföring?
- Är AI verkligen ett hot mot utvecklare? Devin och Microsoft AutoDev
- Bästa AI-chatbots för e-handel. Plattformar
- AI-chattbottar för e-handel. Fallstudier
- Hur håller man sig uppdaterad om vad som händer i AI-världen?
- Tämja AI. Hur tar man de första stegen för att tillämpa AI i sitt företag?
- Förvirring, Bing Copilot eller You.com? Jämförelse av AI-sökmotorer
- AI-experter i Polen
- ReALM. En banbrytande språkmodell från Apple?
- Google Genie — en generativ AI-modell som skapar helt interaktiva världar från bilder
- Automation eller förstärkning? Två tillvägagångssätt för AI i ett företag
- LLMOps, eller hur man effektivt hanterar språkmodeller i en organisation
- AI-videogenerering. Nya horisonter inom videoinnehållsproduktion för företag
- Bästa AI-transkription verktyg. Hur man omvandlar långa inspelningar till koncisa sammanfattningar?
- Sentimentanalys med AI. Hur hjälper det till att driva förändring i företag?
- AI:s roll i innehållsmoderering