Categories: AI i affärerBlogg

Multimodal AI. Nya användningar av artificiell intelligens i affärer | AI i affärer #21

Vad är multimodal AI?

Multimodal AI är en mycket avancerad form av AI som efterliknar människans förmåga att tolka världen med hjälp av innehåll och data från olika sinnen. Precis som människor förstår text, bilder och ljud, integrerar multimodal AI dessa olika typer av data för att förstå kontexten och den komplexa betydelsen som finns i information. Inom affärsvärlden kan det till exempel möjliggöra en bättre förståelse av kundernas åsikter genom att analysera både vad de säger och hur de uttrycker det genom tonfall eller ansiktsuttryck.

Traditionella AI-system är typiskt unimodala, vilket innebär att de specialiserar sig på en typ av data, såsom text eller bilder. De kan bearbeta stora mängder data snabbt och upptäcka mönster som mänsklig intelligens inte kan uppfatta. Men de har allvarliga begränsningar. De är okänsliga för kontext och mindre skickliga på att hantera ovanliga och tvetydiga situationer.

Det är därför multimodal AI går ett steg längre och integrerar modaliteter. Detta möjliggör djupare förståelse och mycket mer intressanta interaktioner mellan människor och AI.

Vad kan multimodal AI göra?

Artificiella intelligensmodeller som utvecklas idag använder följande par av modaliteter:

  • från text till bild – sådan multimodal AI kan skapa bilder baserat på textuella uppmaningar; detta är en kärnfunktion hos den berömda Midjourney, OpenAI-utvecklade DALL-E 3, tillgänglig i webbläsaren som Bing Image Creator, den avancerade Stable Diffusion eller det yngsta verktyget i familjen, Ideogram, som inte bara förstår textuella uppmaningar utan också kan placera text på en bild:
  • Källa: Ideogram (https://ideogram.ai)

    Multimodal AI-modeller kan också följa textuella ledtrådar och bilden de är “inspirerade” av samtidigt. De erbjuder ännu mer intressanta, mer precist definierade resultat och variationer av skapade bilder. Detta är mycket hjälpsamt om du bara vill få en något annorlunda grafik eller banner, eller lägga till eller ta bort ett enda element, som en kaffekopp:

    Källa: Ideogram (https://ideogram.ai)

  • Från bild till text – artificiell intelligens kan göra mycket mer än att känna igen och översätta text som ses i en bild eller hitta en liknande produkt. Den kan också beskriva en bild med ord – som Midjourney gör när du skriver kommandot /describe, Google Bard och Salesforce-modellen (som huvudsakligen används för att skapa automatiserade produkt- och bildbeskrivningar på e-handelswebbplatser,
  • Källa: HuggingFace.co (https://huggingface.co/tasks/image-to-text)

  • från röst till text – multimodal AI möjliggör också röstkommandon i Google Bard, men det utförs bäst av Bing Chat, liksom ChatGPT tack vare dess utmärkta Whisper API, som klarar av att känna igen och spela in tal tillsammans med interpunktion på flera språk, vilket bland annat kan underlätta arbetet för internationella kundtjänstcenter, samt förbereda snabb transkribering av möten och översättning av affärssamtal till andra språk i realtid,
  • från text till röst – ElevenLabs verktyg gör det möjligt för oss att konvertera vilken text vi väljer till ett realistiskt ljudande yttrande, och till och med “röstkloning”, där vi kan lära AI:n dess ljud och uttryck för att skapa en inspelning av vilken text som helst på ett främmande språk för marknadsföring eller presentationer för utländska investerare, till exempel,
  • från text till video – att konvertera text till video med en talande avatar är möjligt i D-ID, Colossyan och Synthesia-verktyg, bland andra,
  • från bild till video – att generera videor, inklusive musikvideor, från bilder och textuella ledtrådar är redan möjligt idag med Kaiber, och Meta har meddelat att de snart kommer att släppa verktyget Make-A-Video,
  • bild och 3D-modell – detta är ett särskilt lovande område inom multimodal AI, riktat av Meta och Nvidia, som möjliggör skapandet av realistiska avatarer från foton, samt byggandet av 3D-modeller av objekt och produkter av Masterpiece Studio (https://masterpiecestudio.com/masterpiece-studio-pro), NeROIC (https://zfkuang.github.io/NeROIC/), 3DFY (https://3dfy.ai/), med vilket, till exempel, en tvådimensionell prototypad produkt kan återföras till kameran med en annan sida, en snabb 3D-visualisering kan skapas från en skiss av ett möbelstycke, eller till och med en textuell beskrivning:
  • Källa: NeROIC (https://zfkuang.github.io/NeROIC/resources/material.png)

  • från bild till rörelse i rymden – denna modalitet gör att multimodal AI sträcker sig bortom skärmar in i zonen för Internet of Things (IoT), autonoma fordon och robotik, där enheter kan utföra precisa åtgärder tack vare avancerad bildigenkänning och förmågan att reagera på förändringar i miljön.

Det pågår också experiment med multimodal AI som översätter musik till bilder, till exempel (https://huggingface.co/spaces/fffiloni/Music-To-Image), men låt oss ta en närmare titt på affärsapplikationerna av multimodal AI. Så hur spelar frågan om multimodalitet ut i de mest populära AI-baserade chattbottarna, ChatGPT och Google Bard?

Multimodalitet i Google Bard, BingChat och ChatGPT

Google Bard kan beskriva enkla bilder och har utrustats med röstkommunikation sedan juli 2023, när den dök upp i Europa. Trots den varierande kvaliteten på bildigenkänningsresultaten har detta hittills varit en av styrkorna som särskiljer Googles lösning från ChatGPT.

BingChat, tack vare sin användning av DALL-E 3, kan generera bilder baserat på text- eller röstuppmaningar. Även om den inte kan beskriva med ord de bilder som användaren bifogar, kan den modifiera dem eller använda dem som inspiration för att skapa nya bilder.

Från och med oktober 2023 började OpenAI också införa nya röst- och bildfunktioner i ChatGPT Plus, den betalda versionen av verktyget. De möjliggör att ha en röstkonversation eller visa ChatGPT en bild, så att den vet vad du frågar utan att behöva beskriva det med exakta ord.

Till exempel kan du ta ett foto av ett monument medan du reser och ha en livekonversation om vad som är intressant med det. Eller ta en bild av insidan av ditt kylskåp för att ta reda på vad du kan laga till middag med de tillgängliga ingredienserna och be om ett steg-för-steg-recept.

3 tillämpningar av Multimodal AI i affärer

Att beskriva bilder kan hjälpa, till exempel, att förbereda varulager baserat på CCTV-kameradata eller identifiera saknade produkter på butikshyllor. Objektmanipulation kan användas för att fylla på de saknade varorna som identifierades i föregående steg. Men hur kan multimodala chattbottar användas i affärer? Här är tre exempel:

  1. Kundservice: En multimodal chatt implementerad i en onlinebutik kan fungera som en avancerad kundserviceassistent som inte bara svarar på textfrågor utan också förstår bilder och frågor som ställs med röst. Till exempel kan en kund ta en bild av en skadad produkt och skicka den till chattbotten, som hjälper till att identifiera problemet och erbjuda en lämplig lösning.
  2. Analys av sociala medier: Multimodal artificiell intelligens kan analysera inlägg på sociala medier, som inkluderar både text och bilder och till och med videor, för att förstå vad kunderna säger om ett företag och dess produkter. Detta kan hjälpa ett företag att bättre förstå kundernas feedback och snabbare svara på deras behov.
  3. Utbildning och utveckling: ChatGPT kan användas för att träna anställda. Till exempel kan den genomföra interaktiva utbildningssessioner som inkluderar både text och bilder för att hjälpa anställda att bättre förstå komplexa koncept.

Framtiden för multimodal AI i affärer

Ett utmärkt exempel på framåtblickande multimodal AI är optimeringen av ett företags affärsprocesser. Till exempel skulle ett AI-system kunna analysera data från olika källor, såsom försäljningsdata, kunddata och data från sociala medier, för att identifiera områden som behöver förbättras och föreslå möjliga lösningar.

Ett annat exempel är att använda multimodal AI för att organisera logistik. Att kombinera GPS-data, lagersituationen avläst från en kamera och leveransdata för att optimera logistikprocesser och minska kostnaderna för verksamheten.

Många av dessa funktioner tillämpas redan idag i komplexa system som autonoma bilar och smarta städer. Men de har inte funnits i denna skala i mindre affärssammanhang.

Sammanfattning

Multimodalitet, eller förmågan att bearbeta flera typer av data, såsom text, bilder och ljud, främjar djupare kontextuell förståelse och bättre interaktion mellan människor och AI-system.

En öppen fråga kvarstår, vilka nya kombinationer av modaliteter kan finnas inom kort? Till exempel, kommer det att vara möjligt att kombinera textanalys med kroppsspråk, så att AI kan förutse kundernas behov genom att analysera deras ansiktsuttryck och gester? Denna typ av innovation öppnar nya horisonter för affärer, vilket hjälper till att möta ständigt föränderliga kundförväntningar.

Om du gillar vårt innehåll, gå med i vår aktiva bi-gemenskap på Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

JavaScript-expert och instruktör som coachar IT-avdelningar. Hans huvudmål är att höja teamets produktivitet genom att lära andra hur man effektivt samarbetar medan man kodar.

View all posts →

Robert Whitney

JavaScript-expert och instruktör som coachar IT-avdelningar. Hans huvudmål är att höja teamets produktivitet genom att lära andra hur man effektivt samarbetar medan man kodar.

Share
Published by
Robert Whitney

Recent Posts

AI:s roll i innehållsmoderering | AI i affärer #129

Företag kämpar med att hantera en stor mängd innehåll som publiceras online, från inlägg på…

4 days ago

Sentimentanalys med AI. Hur hjälper det till att driva förändring i företag? | AI i företag #128

I den digitala transformationens era har företag tillgång till en oöverträffad mängd data om sina…

4 days ago

Bästa AI-transkription verktyg. Hur omvandlar man långa inspelningar till koncisa sammanfattningar? | AI i affärer #127

Visste du att du kan få essensen av en flera timmar lång inspelning från ett…

4 days ago

AI-videogenerering. Nya horisonter inom videoinnehållsproduktion för företag | AI i affärer #126

Föreställ dig en värld där ditt företag kan skapa engagerande, personliga videor för alla tillfällen…

4 days ago

LLMOps, eller hur man effektivt hanterar språkmodeller i en organisation | AI i affärer #125

För att fullt ut utnyttja potentialen hos stora språkmodeller (LLM:er) behöver företag implementera en effektiv…

4 days ago

Automation eller förstärkning? Två tillvägagångssätt för AI i ett företag | AI i affärer #124

År 2018 hade Unilever redan påbörjat en medveten resa för att balansera automatisering och förstärkningsförmågor.…

4 days ago