Vad är ReALM?

ReALM står för “Reference Resolution As Language Modeling,” en banbrytande lösning utvecklad av Apple-forskare. Det är alltså en ny språkmodell (Large Language Model, LLM) som behandlar problemet med referensigenkänning som en uppgift inom språkmodellering.

ReALM konverterar effektivt olika typer av kontext till en textuell representation, som den sedan bearbetar som en del av en språkuppgift. Detta kan inkludera:

  • konversationer – såsom textmeddelanden, röstkommandon till en assistent eller e-post,
  • element på skärmen – till exempel, foton, kalender, väderwidget eller applikationer och processer som körs i bakgrunden.

Vad gör ReALM annorlunda än andra modeller för referensigenkänning? Först och främst tillvägagångssättet – istället för att förlita sig på bildbehandling, kör ReALM i textdomänen. Detta gör den mycket lättare och mer effektiv, vilket bör möjliggöra att den kan köras direkt på mobila enheter samtidigt som användarens integritet upprätthålls.

På vilka sätt är ReALM bättre än GPT-4?

Apples forskningsteam jämförde ReALM med de mest kraftfulla språkmodellerna på marknaden idag – GPT-3.5 och GPT-4 från OpenAI. Resultaten var imponerande. I uppgifter för referensigenkänning uppnådde den minsta ReALM-varianten noggrannhet som var jämförbar med GPT-4! De större ReALM-modellerna överträffade till och med GPT-4 i att känna igen referenser till objekt som visas på skärmen (http://arxiv.org/abs/2403.20329).

Vad förklarar denna fördel? Först och främst är ReALM utmärkt med domänspecifika frågor, såsom de som rör smarta hem-apparater. Detta beror på att ReALM visar en djupare förståelse för kontext genom att finjustera modellen för domänspecifika data.

Vad mer är, till skillnad från GPT-4, som främst tränar på bilder av verkliga objekt, excellerar ReALM på att känna igen textuella element och komponenter i applikationers användargränssnitt. Och det är förståelsen av gränssnittet som är avgörande för den smidiga interaktionen mellan röstassistenter och de applikationer vi använder idag.

ReALM

Källa: DALL·E 3, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)

Är detta början på en era av verkligt intelligenta assistenter?

Verkligen, integrationen av ReALM med Siri skulle kunna öppna ett helt nytt kapitel i människa-datorinteraktion. Med ReALM kommer Siri att kunna förstå kommandon som inkluderar referenser till objekt som visas på smartphoneskärmen, samt processer och applikationer som körs i bakgrunden. Men när kommer detta alternativ att vara tillgängligt för användare? Det är fortfarande okänt.

Vi står kvar med spekulationer baserade på modellens tekniska kapabiliteter. Så hur skulle en ReALM-drivna Siri kunna fungera? Till exempel, om du bläddrar på en företagslistningssajt och ser ett företag du är intresserad av, skulle du helt enkelt kunna säga till Siri, “Ring detta företag,” och assistenten – som använder ReALM för att analysera kontexten – kommer att hitta telefonnumret till det företag du specificerar och initiera samtalet. Du behöver inte ens förklara exakt vilket företag du menar.

Detta är bara början på ReALMs möjligheter. Kommandon som “Spela upp den senaste spellistan” skulle möjliggöra intuitiv kontroll av medieapplikationer och smarta hem-enheter. ReALM skulle också kunna möjliggöra för Siri att förstå kontexten av konversationer och kommandohistorik, så att assistenten reagerar adekvat på användarens tidigare begärningar. Detta är ett steg mot intelligenta agenter som för oss närmare inte en artificiell intelligens som förstår våra förfrågningar, utan en som vet hur man utför kommandon.

Och detta är bara början på vad ReALM kan göra. Kommandon som “spela upp den senaste spellistan” skulle möjliggöra intuitiv kontroll av medieapplikationer och smarta hem-enheter. ReALM skulle också kunna möjliggöra för Siri att förstå kontexten av konversationer och kommandohistorik, så att assistenten svarar lämpligt på användarens tidigare begärningar. Detta är ett steg mot intelligenta agenter, som för oss närmare inte en artificiell intelligens som förstår våra förfrågningar, utan en som vet hur man utför kommandon.

Tyvärr kommer användare av Android-enheter att få vänta. För närvarande finns det ingen information om Googles planer på att lägga till Geminis kapabiliteter till Google Assistant. En Google Gemini-app för Android-enheter har utvecklats (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US), men den är ännu inte tillgänglig utanför USA.

ReALM

Källa: Google Play (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US)

Sammanfattning

ReALM är Apples innovativa tillvägagångssätt för att lösa problemet med kontextigenkänning av röstassistenter. Istället för att förlita sig på bildbehandling, konverterar denna språkmodell olika typer av kontext till en textuell representation, som den sedan bearbetar i en språkuppgift. Detta tillvägagångssätt säkerställer inte bara hög noggrannhet i igenkänning, utan också förmågan att fungera på en mobil enhet samtidigt som användarens integritet upprätthålls.

Att ge Siri tillgång till ReALM kan ge mer naturliga och kontextuella röstinteraktioner, ett viktigt steg mot verkligt intelligenta assistenter. Med ReALM kommer Siri att kunna svara omedelbart på kommandon relaterade till skärmelement, applikationer och bakgrundsprocesser. En sak är säker – att förbättra assistenternas kontextuella medvetenhet är nyckeln till att skapa verkligt intelligenta och naturliga röstinteraktioner, och ReALM är utan tvekan ett viktigt steg i den riktningen.

ReALM

Om du gillar vårt innehåll, gå med i vår aktiva gemenskap av bin på Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

JavaScript-expert och instruktör som coachar IT-avdelningar. Hans huvudmål är att höja teamets produktivitet genom att lära andra hur man effektivt samarbetar medan man kodar.

View all posts →

AI in business:

  1. 6 fantastiska ChatGTP-plugins som kommer att göra ditt liv enklare
  2. Navigera nya affärsmöjligheter med ChatGPT-4
  3. 3 fantastiska AI-skribenter du måste prova idag
  4. Syntetiska skådespelare. Topp 3 AI-videogeneratorer
  5. Vilka är svagheterna i min affärsidé? En brainstorming-session med ChatGPT
  6. Att använda ChatGPT i affärer
  7. Nya tjänster och produkter som använder AI
  8. Automatiserade inlägg på sociala medier
  9. Schemalägga inlägg på sociala medier. Hur kan AI hjälpa till?
  10. AI:s roll i affärsbeslutsfattande
  11. Affärsnlp idag och imorgon
  12. AI-assisterade textchattbotar
  13. AI-applikationer inom affärsvärlden - översikt
  14. Hot och möjligheter med AI i affärer (del 2)
  15. Hot och möjligheter med AI i affärer (del 1)
  16. Vad är framtiden för AI enligt McKinsey Global Institute?
  17. Artificiell intelligens i affärer - Introduktion
  18. Vad är NLP, eller naturlig språkbehandling i affärer
  19. Google Translate vs DeepL. 5 tillämpningar av maskinöversättning för företag
  20. Automatisk dokumenthantering
  21. Drift och affärsapplikationer för röstrobotar
  22. Virtuell assistentteknik, eller hur man pratar med AI?
  23. Vad är affärsintelligens?
  24. Hur kan artificiell intelligens hjälpa till med BPM?
  25. Kreativ AI idag och imorgon
  26. Artificiell intelligens i innehållshantering
  27. Utforska kraften i AI inom musikskapande
  28. 3 användbara AI-grafikdesignverktyg. Generativ AI i affärer
  29. AI och sociala medier – vad säger de om oss?
  30. Kommer artificiell intelligens att ersätta affärsanalytiker?
  31. AI-verktyg för chefen
  32. Framtidens arbetsmarknad och kommande yrken
  33. RPA och API:er i ett digitalt företag
  34. Nya interaktioner. Hur förändrar AI sättet vi använder enheter?
  35. Multimodal AI och dess tillämpningar inom affärer
  36. Artificiell intelligens och miljön. 3 AI-lösningar för att hjälpa dig bygga en hållbar verksamhet
  37. AI-innehållsdetektorer. Är de värda det?
  38. ChatGPT vs Bard vs Bing. Vilken AI-chattbot leder racet?
  39. Är chatbot-AI en konkurrent till Google-sökning?
  40. Effektiva ChatGPT-frågor för HR och rekrytering
  41. Prompt engineering. Vad gör en promptingenjör?
  42. AI och vad mer? Toppteknologitrender för företag 2024
  43. AI och affärsetik. Varför du bör investera i etiska lösningar
  44. Meta AI. Vad bör du veta om Facebooks och Instagrams AI-stödda funktioner?
  45. AI-reglering. Vad behöver du veta som entreprenör?
  46. 5 nya användningar av AI i affärer
  47. AI-produkter och projekt - hur skiljer de sig från andra?
  48. AI som en expert i ditt team
  49. AI-team vs. rollfördelning
  50. Hur väljer man ett karriärområde inom AI?
  51. AI inom HR: Hur rekryteringsautomation påverkar HR och teamutveckling
  52. AI-assisterad processautomation. Var ska man börja?
  53. 6 mest intressanta AI-verktyg 2023
  54. Vad är företagets AI-mognadsanalys?
  55. AI för B2B-personalisering
  56. ChatGPT-användningsfall. 18 exempel på hur du kan förbättra ditt företag med ChatGPT 2024
  57. AI Mockup-generator. Topp 4 verktyg
  58. Mikrolärande. Ett snabbt sätt att få nya färdigheter
  59. De mest intressanta AI-implementationerna i företag 2024
  60. Vilka utmaningar medför AI-projektet?
  61. Topp 8 AI-verktyg för företag 2024
  62. AI i CRM. Vad förändrar AI i CRM-verktyg?
  63. UE:s AI-lag. Hur reglerar Europa användningen av artificiell intelligens
  64. Topp 7 AI webbplatsbyggare
  65. Ingen kodverktyg och AI-innovationer
  66. Hur mycket ökar användningen av AI produktiviteten i ditt team?
  67. Hur man använder ChatGTP för marknadsundersökningar?
  68. Hur kan du bredda räckvidden för din AI-marknadsföringskampanj?
  69. AI inom transport och logistik
  70. Vilka affärsproblem kan AI lösa?
  71. Hur matchar du en AI-lösning med ett affärsproblem?
  72. Artificiell intelligens i medierna
  73. AI inom bank och finans. Stripe, Monzo och Grab
  74. AI inom resebranschen
  75. Hur AI främjar födelsen av nya teknologier
  76. AI inom e-handel. Översikt över globala ledare
  77. Topp 4 AI-bildskapande verktyg
  78. Topp 5 AI-verktyg för dataanalys
  79. Revolutionen av AI i sociala medier
  80. Är det alltid värt att lägga till artificiell intelligens i produktutvecklingsprocessen?
  81. 6 största affärsmisstag orsakade av AI
  82. AI-strategi i ditt företag - hur bygger man den?
  83. Bästa AI-kurser – 6 fantastiska rekommendationer
  84. Optimera sociala medier-lyssnande med AI-verktyg
  85. IoT + AI, eller hur man minskar energikostnaderna i ett företag
  86. AI inom logistik. 5 bästa verktyg
  87. GPT Store – en översikt över de mest intressanta GPT:erna för företag
  88. LLM, GPT, RAG... Vad betyder AI-förkortningar?
  89. AI-robotar – framtiden eller nutiden för affärer?
  90. Vad kostar det att implementera AI i ett företag?
  91. Vad gör specialister inom artificiell intelligens?
  92. Hur kan AI hjälpa till i en frilansares karriär?
  93. Automatisera arbete och öka produktiviteten. En guide till AI för frilansare
  94. AI för startups – bästa verktyg
  95. Bygga en webbplats med AI
  96. Eleven Labs och vad mer? De mest lovande AI-startups.
  97. OpenAI, Midjourney, Anthropic, Hugging Face. Vem är vem i AI-världen?
  98. Syntetisk data och dess betydelse för utvecklingen av ditt företag
  99. Topp AI-sökmotorer. Var ska man leta efter AI-verktyg?
  100. Video AI. De senaste AI-videogeneratorerna
  101. AI för chefer. Hur AI kan göra ditt jobb enklare
  102. Vad är nytt i Google Gemini? Allt du behöver veta
  103. AI i Polen. Företag, möten och konferenser
  104. AI-kalender. Hur optimerar du din tid i ett företag?
  105. AI och framtiden för arbete. Hur förbereder du ditt företag för förändring?
  106. AI-röstkloning för företag. Hur skapar man personliga röstmeddelanden med AI?
  107. "Vi är alla utvecklare". Hur kan medborgarutvecklare hjälpa ditt företag?
  108. Faktakontroll och AI-hallucinationer
  109. AI i rekrytering – utveckla rekryteringsmaterial steg för steg
  110. Sora. Hur kommer realistiska videor från OpenAI att förändra affärer?
  111. Midjourney v6. Innovationer inom AI-bildgenerering
  112. AI i små och medelstora företag. Hur kan små och medelstora företag konkurrera med jättar med hjälp av AI?
  113. Hur förändrar AI influencer-marknadsföring?
  114. Är AI verkligen ett hot mot utvecklare? Devin och Microsoft AutoDev
  115. Bästa AI-chatbots för e-handel. Plattformar
  116. AI-chattbottar för e-handel. Fallstudier
  117. Hur håller man sig uppdaterad om vad som händer i AI-världen?
  118. Tämja AI. Hur tar man de första stegen för att tillämpa AI i sitt företag?
  119. Förvirring, Bing Copilot eller You.com? Jämförelse av AI-sökmotorer
  120. AI-experter i Polen
  121. ReALM. En banbrytande språkmodell från Apple?
  122. Google Genie — en generativ AI-modell som skapar helt interaktiva världar från bilder
  123. Automation eller förstärkning? Två tillvägagångssätt för AI i ett företag
  124. LLMOps, eller hur man effektivt hanterar språkmodeller i en organisation
  125. AI-videogenerering. Nya horisonter inom videoinnehållsproduktion för företag
  126. Bästa AI-transkription verktyg. Hur man omvandlar långa inspelningar till koncisa sammanfattningar?
  127. Sentimentanalys med AI. Hur hjälper det till att driva förändring i företag?
  128. AI:s roll i innehållsmoderering