by Lucas Mearian

Analytiker: därför är nya Google Gemini ”en riktigt stor grej”

Nyhet
12 feb, 20245 min
Generativ AIBransch

Google har lanserat marknadens första multimodala generativa AI-modell som kan ta in och producera innehåll baserat på text, ljud, bilder och video.

Google
Foto: Kai Wenzel / Unsplash

Google meddelade i torsdags att man har byggt om och döpt om sin chattbot Bard – som nu heter Gemini – för att erbjuda företag och konsumenter branschens första multimodala plattform för generativ AI (genAI) som inte längre bara förlitar sig på text för att ge människoliknande svar.

Lanseringen av Gemini är en direkt utmanare till Microsofts Copilot, som bygger på Open AI:s Chat GPT, och alla andra chattbotar som enbart bygger på LLM-teknik (Large Language Model).

– Gemini är för närvarande den enda inbyggda multimodala generativa AI-modellen som finns tillgänglig, säger Chirag Dekate, analytiker på Gartner. 

– Google är inte längre på efterkälken. Nu är det tvärtom.

Dekate kallar Gemini ”en riktigt stor grej” eftersom en enda generativ AI-motor med en multimodal modell utför enskilda uppgifter mer exakt eftersom den lär sig från en enormt mycket större kunskapsmassa. Det kastar i princip Google till toppen av generativ AI-ligan.

Google presenterade först sin Gemini AI-modell i december, med multimodala funktioner som gör det möjligt att kombinera olika typer av information – in- och utdata – inklusive text, kod, ljud, bilder och video.

Till skillnad från AI-motorer som endast använder LLM, som Open AI:s GPT, Metas Llama 2 eller till och med Googles egen PaLM 2 förlitar sig Gemini inte på samma teknik. Istället kan den tränas med hjälp av alla typer av media och innehåll.

Det är viktigt eftersom ett företag nu kan skapa en chattbot som inte längre är begränsad till att ladda in svar på frågor från text som dess LLM har tränats på.

– När jag tittar på en film tittar jag på videon, jag läser undertexter, jag lyssnar på ljudet och allt sker samtidigt, vilket skapar en hyperintensiv upplevelse, säger Dekate. 

– Det här är multimodalitet i ett nötskal. Jämför detta med att uppleva en film genom att enbart läsa manuset. Det är skillnaden mellan LLM och multimodalitet.

Förra året, säger Dekate, var ett år av idéskapande då företag och konsumenter lärde sig mer om generativ AI och chattbotar i kölvattnet av Chat GPT:s lansering i slutet av 2022. Nu förstår företagen bättre möjligheterna med generativ AI och öppnar sina plånböcker för att spendera en betydande summa på att infoga det i back-end- och front-end-system.

Om du till exempel är ett vårdföretag som försöker utforma en mer uppslukande chattbot för läkare kan en multimodal generativ AI-motor ta in läkarens ljudklipp, radiologiska bilder och MR-videoscanningar för att skapa betydligt mer exakta prognoser och behandlingsresultat.

– Detta skapar en hyperimmersiv, personlig upplevelse. Inget av detta är möjligt med en enkel LLM-upplevelse, säger Dekate. 

– Om Google kan göra det möjligt för företag och konsumenter att uppleva denna multimodala upplevelse, då har Google chansen att förändra sin marknadsandel.

År 2024 förväntas utgifterna för generativ AI-lösningar uppgå till 40 miljarder dollar, en ökning från 19,4 miljarder dollar år 2023. År 2027 förväntas utgifterna för generativ AI uppgå till 143 miljarder dollar, med en femårig genomsnittlig årlig tillväxttakt på 73,3 procent, enligt analysföretaget IDC.

– Det vi såg förra året var framväxten av uppgiftsspecifika modeller – text-till-text, text-till-bild, text-till-video, bild-till-ext, och så vidare, säger Dekate. 

– Varje uppgift hade sin egen modell. Så om du har en smal uppgift med text-till-text fungerar LLM-modeller bra.

Googles prenumerationsmodell för Gemini verkar också syfta till att ta marknadsandelar från ledande Microsoft.

Kunder i USA kan prenumerera på Gemini Advanced för 19,99 dollar i månaden, vilket inkluderar en mer kraftfull Ultra 1.0 AI-modell. Prenumeranter får två terabyte molnlagring som vanligtvis kostar 9,99 dollar per månad, och kommer snart att få tillgång till Gemini i Gmail och Googles produktivitetssvit.

– Dels handlar det om att konkurrera med Microsoft, dels om att erbjuda premiumtjänster till sina premiumkunder, främst kontorsanvändare som redan betalar, säger Jack Gold, chefsanalytiker på J.Gold Associates. 

– Om du tar ut en avgift begränsar du också antalet användare som skulle ha registrerat sig gratis. Det ger dig möjlighet att åtgärda eventuella problem som upptäcks av ett mer begränsat antal användare, och ger en intäktsström för att hålla igång tekniken, snarare än att förlita dig på annonser för att betala för den.

Det är också en kostnadsfråga för Google, eftersom det inte är billigt att träna en stor AI-modell i datacenter.

– Jag är inte säker på hur de får betalt för att köra all AI i bakgrunden, vilket kräver mycket mer processorkraft, och kraft är en av de största kostnaderna för att driva ett moln/datacenter, säger Gold.