by Matthew Finnegan

Deepfakes på jobbet? Nu flyttar AI-avatarerna in på arbetsplatsen

Fördjupning
29 jan, 20249 min
FöretagsprogramGenerativ AI

Företagen bör förbereda sig för en våg av syntetiska medier på arbetsplatsen nu när nya AI-baserade verktyg kan skapa videopresentationer för marknadsföring eller utbildning på alla språk – utan behov av dyra produktionsteam.

it worker with laptop
Foto: Shutterstock

Trots den pågående oron över ökningen av deepfake-videor – innehåll på nätet som skapas eller manipuleras i brottsliga syften, från valfusk till nya hot mot cybersäkerheten – kan digitala ”syntetiska medier” ge faktiska fördelar på arbetsplatsen.

Det är åtminstone vad en rad startups lovar som har använt sig av generativa AI-verktyg och djupinlärningsalgoritmer för att skapa människoliknande digitala avatarer. De nya verktygen kan framför allt användas av företag för att skapa internkommunikation, utbildningsvideor för anställda, instruktionsmanualer för specifika jobb eller uppgifter och till och med kundinriktade marknadsföringsvideor.

Med ett färdigskrivet manus kan digitala avatarer användas i videoinnehåll utan de vanliga produktions- och redigeringskostnaderna och ansträngningarna. Resultatet: snabbare skapande av innehåll, större personalisering och möjlighet att översätta kommunikation till en rad olika språk utan att anlita en röstskådespelare – allt samtidigt som användbar information levereras till anställda och kunder.

Ritu Jyoti, chef för AI på analysföretaget IDC, ser en ”enorm potential” för AI-baserade verktyg för videoskapande i affärssammanhang.

– Företagen kommer att använda det för marknadsföring, utbildning, träning och för att skapa videomanualer, säger hon.

I de flesta fall är det omedelbart uppenbart att en video har skapats på konstgjord väg. Men tekniken har utvecklats till en så realistisk nivå att AI-verktyg för videogenerering nu är lämpliga för företagskommunikation.

– De ser väldigt realistiska ut, säger Jyoti om de syntetiska avatarerna.

– Nu kan de blinka, röra på ögonen, kinderna och läpparna…

Ett antal startups har dykt upp under de senaste åren som lovar att hjälpa företag att skapa verklighetstrogna digitala avatarer av sina anställda. På listan finns Synthesia, som har tagit in 156 miljoner dollar i finansiering under de senaste två åren, D-ID, HeyGen och Hour One. Ett annat företag, Rephrase.ai, förvärvades nyligen av ett ”ledande teknikföretag” som uppges vara Adobe.

Större aktörer utvecklar också liknande funktioner: Microsoft presenterade sin Azure AI Speech-tjänst i november, ett verktyg som för närvarande finns i en förhandsversion.

– Jag tror att vi kommer att fortsätta att se en marknad växa fram ur detta, både på den stora teknikleverantörssidan och på startup-sidan, säger Rowan Curran, senioranalytiker på Forrester.

Än så länge befinner sig dock marknaden i ett tidigt skede, åtminstone när det gäller företagens användning.

– Vi befinner oss fortfarande i ett mycket tidigt stadie med dessa verktyg, mer när det gäller införandet än när det gäller den faktiska funktionaliteten, säger han.

Video som ersättning för textdokument?

Den grundläggande processen för att skapa AI-genererat innehåll i de flesta applikationer är ganska okomplicerad. Användarna väljer vanligtvis antingen en generisk avatar från en rad olika alternativ, eller laddar upp videofilmer (eller i vissa fall bara en bild) av en anställd för att skapa en digital representation. En röst väljs, ett textmanus läggs sedan till och andra anpassade aspekter som bakgrund kan också inkluderas.

När alla delar är på plats genereras en video som kan användas fristående eller inbäddad i filer – till exempel som ett talande huvud i en Power Point-presentation.

Den största fördelen för företagen är minskade kostnader, säger Victor Riparbelli, vd och medgrundare av Synthesia, i en e-postintervju. Bland företagets kunder finns multinationella företag som Heineken, Zoom och DuPont.

– Priset för att anställa ett videoproduktionsteam, samt att betala för utgifter som utrustning och studiotid, kan göra videoproduktion omöjligt för många organisationer, säger Riparbelli.

Kunderna kan minska den tid som krävs för att producera videor, säger han, och göra ändringar utan att behöva göra omtagningar. Verktygen gör det också möjligt för ett bredare urval av medarbetare att skapa video inom en organisation, utan behov av kunskap om videoproduktion.

Bortsett från marknadsföringsinnehåll är den vanligaste användningen för närvarande att skapa innehåll för lärande och utveckling, säger Riparbelli, med onboarding- och anställningsvideor som andra vanliga exempel.

Representanter för D-ID, vars kunder inkluderar Fortune 500-företag, förklarar att video som skapats via en genAI-baserad plattform ofta ersätter traditionella kontorsdokument för ändamål som utbildning och utveckling av anställda.

– Medan innehållet tidigare främst var skriftligt, som Power Point-slides eller liknande, kan vi nu hjälpa dem att skapa innehållet och göra det till video, säger Matthew Kershaw, vice vd för kommersiell strategi på D-ID.

Människor är mer benägna att titta på en video än att läsa ett skriftligt dokument eller presentationsbilder, säger han – och mer benägna att behålla informationen efteråt.

Förutom video fokuserar D-ID även på användningen av AI-avatarer för realtidsnära interaktion med företagskunder eller interna medarbetare. Tanken är att kombinera syntetiska medier med kraftfull innehållsgenerering av AI – i princip att göra avatarer till ”ansiktet” på LLM-baserade chattbotar, säger Kershaw.

– Sedan kan man skapa en digital mänsklig avatar som man kan prata med i realtid och ställa frågor till. LLM är mycket begränsade. Det är fortfarande text: du skriver in text och får tillbaka text. Vad vi har är möjligheten att chatta med den på ett mycket mer naturligt mänskligt sätt.

Företaget hoppas att så småningom kunna inkludera sentimentanalys för att spåra det känslomässiga flödet i konversationen. (Detta är för närvarande inte en funktion i D-ID:s produkt).

– Så om det handlar om kundservice – och kunden blir frustrerad eller arg – kan avataren känna igen det och säga: ”Jag hör att du är ganska frustrerad”, säger Kershaw.

Ett annat exempel skulle kunna vara för HR-relaterade ändamål med möjligheten att ställa en avatar en fråga som rör företagets regler snarare än att behöva konsultera en personalhandbok som kanske till och med är på ett annat språk.

Försiktighet krävs med AI-avatarer

Som med alla generativa AI-verktyg råder analytiker företag att vidta försiktighetsåtgärder kring säkerhet och styrning när de använder AI-verktyg för att skapa video.

– Alla företag som överväger att använda dessa applikationer bör göra rigorösa tester och riskbedömningar, säger Rowan Curran på Forrester.

Det inkluderar användaracceptanstester för att förstå hur medarbetarna reagerar på dessa verktyg i praktiken.

Företagen bör också vara försiktiga med resultaten från AI-verktyg för videoskapande, säger Ritu Jyoti på IDC. Precis som textbaserade verktyg som Chat GPT kan ha ”hallucinationer”, kan en avatars konversation avvika från manuset. Detta kan särskilt vara ett problem när texten översätts till flera språk. Företag bör se till att innehållsfiltrering finns på plats för att mildra hallucinationer och alla ”giftiga” resultat, säger Jyoti.

Det är också viktigt att se till att det finns kontroller tillgängliga för att styra en avatars leverans så att den matchar den avsedda tonen i meddelandet.

– Se till att du testar det, experimenterar med det väl och använder det för enklare, mindre riskfyllda användningsfall först, säger Jyoti.

Användningen av avatarer väcker också verkliga frågor om äganderätten till data. AI-baserade verktyg för videoskapande gör det till exempel enkelt för en arbetsgivare att fortsätta skapa videoinnehåll baserat på en anställds avbild även efter att personen lämnat företaget.

– Vissa av de här frågorna besvaras redan i vissa anställningsavtal, men det kommer att finnas ytterligare gråzoner, säger Curran.

Och även om oron för att dessa verktyg ska missbrukas för att skapa deepfakes eller obehörigt innehåll är verklig, vidtar leverantörerna åtgärder för att förhindra att detta sker. Kershaw påpekar till exempel att videor som skapas med D-ID:s programvara kommer att innehålla en logotyp (antingen från D-ID själv eller från kunden) eller en märkning för att indikera att videon är ”äkta”.

Ett kommande inflöde av syntetiska medier?

AI-verktyg för videogenerering utgör på sätt och vis nästa evolutionära steg i den generativa AI-våg som inleddes i slutet av 2022. Tidiga verktyg som Open AI:s Chat GPT förlitade sig mer på textgenerering, men det kommer sannolikt att förändras.

Curran förutspår ett ”stort omfokus på bild- och videogenerering” 2024, ”istället för bara den textgenerering som vi har sett som fokus för den generativa AI-boomen under det senaste året.”

Utöver AI-genererade avatarer för video finns det andra text-till-video-verktyg under utveckling, inklusive röst- och ljudgenereringstekniker som börjar få genomslag. Kombinationen av dessa tekniker kan dramatiskt öka mängden innehåll som genereras av företag och över internet. Människor kan komma att titta på eller interagera med så mycket syntetisk media att innehåll snart kan skapas i en takt som faktiskt kan möta kraven från företagen, säger Curran.

Därmed inte sagt att generativ AI kommer att ersätta behovet av mänsklig inblandning i innehållsskapandet i närtid. AI-genererat innehåll kan vara olämpligt för vissa typer av kommunikation där en mänsklig kontakt är önskvärd – till exempel när en vd talar till sina medarbetare under en kris inom organisationen.

Matthew Kershaw säger att poängen med verktyg som D-ID inte är att ersätta videoproduktion i alla scenarier, utan att göra det möjligt att skapa video där det inte har varit praktiskt möjligt att göra det tidigare.

– Verkligheten är att det fortfarande kommer att finnas videoproduktion, eftersom det finns saker du kan göra med riktig video som du för närvarande inte kan göra med AI. Men det här gör det möjligt att använda video på fler ställen – ställen där man normalt sett kanske aldrig skulle ha haft det.

– Förr fanns det många svartvita utskrifter. Nu går det nästan inte att trycka i svartvitt, allt är i färg. Och jag tror att vi kommer att få se något liknande med video: video kommer helt enkelt att bli normen för kommunikation inom näringslivet.