by Lucas Mearian

Därför kommer allt mer AI köras lokalt på din pc och i din smartphone

Fördjupning
06 feb, 202414 min
DatorkomponenterEdge ComputingGenerativ AI

Generativ AI som använder processorkraften i på själva enheterna kan komma åt data lokalt, ger snabbare resultat och är säkrare.

Woman holding an Iphone
Foto: Jenny Ueberberg / Unsplash

Generativ AI som Chat GPT har hittills främst funnits i tjänsteleverantörernas och företagens massiva datacenter. När företag vill använda generativ AI-tjänster köper de i princip tillgång till en AI-plattform som Microsoft 365 Copilot – på samma sätt som alla andra saas-produkter.

Ett problem med molnbaserade system är att de underliggande stora språkmodellerna (LLM) som körs i datacenter förbrukar enorma GPU-cykler och elektricitet, inte bara för att driva applikationer utan även för att träna generativa AI-modeller på stora data och företagsspecifika data. Det kan också uppstå problem med nätverksanslutningar. Dessutom har genererativ AI-industrin brist på specialiserade processorer som behövs för att träna och köra LLM. (Det tar upp till tre år att starta en ny chippfabrik).

– Så frågan är om branschen fokuserar mer på att fylla datacenter med rack av GPU-baserade servrar, eller om den fokuserar mer på edge-enheter som kan avlasta bearbetningsbehoven?säger Jack Gold, chefsanalytiker på affärskonsultföretaget J. Gold Associates.

Svaret, enligt Gold och andra, är att lägga generativ AI-bearbetning på edge-enheter. Därför kommer chipptillverkarna under de närmaste åren att rikta in sig på datorer, surfplattor, smartphones och till och med bilar, vilket gör att de i princip kan avlasta datacentren – och ge sina AI-apptillverkare en gratisresa eftersom användaren betalar för hårdvaran och nätverksanslutningen.

Den digitala omvandlingen inom generativ AI driver på tillväxten inom edge, vilket gör det till det snabbast växande datorsegmentet, som till och med överträffar molnet. År 2025 kommer mer än 50 procent av företagets data att skapas och bearbetas utanför datacentret eller molnet, enligt analysföretaget Gartner.

Processortillverkare som Intel, AMD och Nvidia har redan skiftat fokus mot att producera mer dedikerade SoC-chiplets och NPU-enheter (neuro-processing units) som hjälper processorer och GPU-enheter i edge-enheter att utföra generativa AI-uppgifter.

Snart i Iphone och andra smartphones?

– Tänk Iphone 16, inte Iphone 15, som den plats där detta dyker upp, säger Rick Villars, IDC:s Group Vice President for Worldwide Research. 

Villars syftar på inbäddad generativ AI som en Apple GPT, en version av Chat GPT som finns på telefonen istället för som en molntjänst.

Apple GPT kan enligt flera rapporter komma att tillkännages redan i samband med Apples Worldwide Developers Conference i juni, då Apple väntas presentera IOS 18 och en helt ny Siri med generativa AI-funktioner.

I dessa Iphone (och smartphones från andra tillverkare) väntas snart NPU:er på SoC:er som kommer att hantera generativa AI-funktioner som Googles Pixel 8-fotofunktion “Best Take”. Funktionen gör att en användare kan byta ut fotot av en persons ansikte mot ett annat från en tidigare bild.

– De processorer i en Pixel-telefon eller en Amazon-telefon eller en Apple-telefon som ser till att du aldrig tar en bild där någon inte ler eftersom du kan ställa om den med fem andra foton och skapa den perfekta bilden – det är bra för konsumenten, säger Villars.

Ett steg i den riktningen gör det möjligt för generativ AI-företagen att gå från en knapphetsekonomi, där leverantören måste betala för allt arbete, till en överflödsekonomi, där leverantören säkert kan anta att vissa viktiga uppgifter kan skötas gratis av edge-enheten, säger Villars.

Lanseringen av nästa version av Windows – kanske kallad Windows 12 – senare i år förväntas också bli en katalysator för användningen av generativ AI i kanten; det nya operativsystemet förväntas ha inbyggda AI-funktioner.

Användningen av generativ AI i edge går långt utöver stationära datorer och fotomanipulation. Intel och andra chipptillverkare riktar in sig på vertikaler som tillverkning, detaljhandel och hälso- och sjukvård för edge-baserad generativ AI-acceleration.

Detaljhandlare kommer till exempel att ha acceleratorchipp och programvara i kassasystem och digitala skyltar. Tillverkarna kan få AI-aktiverade processorer i robotar och logistiksystem för processpårning och defektdetektering. Och läkare kan komma att använda AI-assisterade arbetsflöden – inklusive AI-baserade mätningar – för diagnostik.

Intel hävdar att deras Core Ultra-processorer som lanserades i december ger en 22-25-procentig ökning av AI-prestanda för ultraljudsavbildningsappar i realtid jämfört med tidigare Intel Core-processorer i kombination med en konkurrenskraftig diskret GPU.

– AI-aktiverade applikationer distribueras alltmer i kanten, säger Bryan Madden, global chef för AI-marknadsföring på AMD. 

– Det kan vara allt från en AI-aktiverad pc eller laptop till en industriell sensor till en liten server i en restaurang till en nätverksgateway eller till och med en molnbaserad edge-server för 5g-arbetsbelastningar.

Generativ AI, säger Madden, är den ”enskilt mest omvälvande tekniken under de senaste 50 åren och AI-aktiverade applikationer används i allt större utsträckning i kanten.”

Faktum är att generativ AI redan används i flera branscher, däribland vetenskap, forskning, industri, säkerhet och sjukvård – där det driver genombrott inom upptäckt och testning av läkemedel, medicinsk forskning och framsteg inom medicinska diagnoser och behandlingar.

AMD:s kund inom adaptiv databehandling, Clarius, använder till exempel generativ AI för att hjälpa läkare att diagnostisera fysiska skador. Och Hiroshima University i Japan använder AMD-driven AI för att hjälpa läkare att diagnostisera vissa typer av cancer.

– Vi använder det till och med för att utforma våra egna produkter och tjänster inom AMD, säger Madden.

En tid av chippbrist

Chippindustrin har för närvarande ett problem: brist på processorer. Det är en av anledningarna till att Biden-administrationen drev igenom CHIPS-lagen för att öka produktionen av kretsar. Administrationen hoppas också kunna säkerställa att USA inte är beroende av offshore-leverantörer som Kina. Även om USA skulle befinna sig i en period med överflöd av processorer så förbrukar de chipp som krävs för generativ AI mycket mer ström per enhet.

– De är helt enkelt energislukande, säger Villars. 

– Ett vanligt datacenter för företag har plats för rack med cirka 12 kW per rack. Ett av de GPU-rack som du behöver för att göra stora språkmodelleringar förbrukar cirka 80 kW. Så på sätt och vis är det ekonomiskt omöjligt att föra in AI i 90 procent av moderna företagsdatacenter.

I synnerhet Intel kommer att dra nytta av en eventuell förskjutning från AI i datacentret till edge-enheter. Företaget har redan lanserat ett ”AI överallt”-tema, vilket innebär AI-acceleration i molnet, företagens datacenter – och i kanten.

AI-applikationer och deras LLM-baserade plattformar kör inferensalgoritmer, det vill säga de tillämpar maskininlärning på ett dataset och genererar en output. Detta resultat förutsäger i princip nästa ord i en mening, bild eller kodrad i programvaran baserat på vad som hänt tidigare.

NPU:er kommer att kunna hantera den mindre intensiva inferensbearbetningen medan rack med GPU:er i datacenter kommer att hantera utbildningen av LLM:er, som matas med information från varje hörn av internet samt företagsspecifika datauppsättningar som erbjuds av företag. En smartphone eller pc skulle bara behöva hård- och mjukvara för att utföra inferensfunktioner på data som finns på enheten eller i molnet.

Intels Core Ultra-processorer, de första som byggdes med den nya Intel 4-kärniga processen, gjorde sitt intåg genom att driva AI-acceleration på pc. Men nu är de på väg till edge-enheter, enligt Bill Pearson, vice president för Intels nätverks- och edge-grupp.

– Den har CPU, GPU och NPU, säger han. 

– De erbjuder alla möjligheten att köra AI, och särskilt inferens och acceleration, vilket är det användningsfall vi ser i edge. När vi gör det säger folk: ”Jag har data som jag inte vill skicka till molnet” – kanske på grund av kostnaden, kanske för att det är privat och de vill behålla datan på plats i fabriken, eller ibland inom landet. Genom att erbjuda beräkning där datan finns kan vi hjälpa dessa människor att utnyttja AI i sina produkter.

Intel planerar att leverera mer än 100 miljoner processorer till pc under de närmaste åren och förväntas driva AI i 80 procent av alla pc. Och Microsoft har åtagit sig att lägga till ett antal AI-drivna funktioner i Windows.

Apple har liknande planer. 2017 introducerade de A11 Bionic SoC med sin första Neural Engine – en del av chippet som är specialbyggd för att utföra AI-uppgifter på Iphone. Sedan dess har alla chipp i A-serien haft en Neural Engine – precis som M1-processorn som lanserades 2020; den gav AI-bearbetningskapacitet till Mac. M1 följdes av M2, och förra året kom M3, M3 Pro och M3 Max – branschens första 3-nanometerschipp för en persondator.

Varje ny generation av Apple Silicon har gjort det möjligt att hantera mer komplexa AI-uppgifter på Iphones, Ipad och Mac-datorer med snabbare och mer effektiva processorer och kraftfullare neurala motorer. 

– Det här är en brytpunkt för nya sätt att interagera och nya möjligheter för avancerade funktioner, med många nya företag som växer fram, säger Jack Gold. 

– Precis som vi gick från enbart CPU till integrerad GPU på chipet kommer nästan alla processorer framöver att ha en NPU AI-accelerator inbyggd. Det är det nya slagfältet och möjliggöraren för avancerade funktioner som kommer att förändra många aspekter av mjukvaruappar.

AMD lägger också till AI-acceleration i sina processorfamiljer, så att de kan utmana Intel om prestandaledningen inom vissa områden, enligt Gold. 

– Inom två till tre år kommer det att vara en stor nackdel att ha en pc utan AI, säger han. 

– Intel leder utvecklingen. Vi förväntar oss att minst 65-75 procent av alla pc kommer att ha inbyggd AI-acceleration under de kommande tre åren, liksom i stort sett alla smartphones i mellan- och premiumsegmentet.

Enligt en ny rapport från Deloitte är generativa AI-chipp ett tillväxtområde för en bransch som kämpar i motvind på grund av svaga minnespriser och svag efterfrågan på chipp för smartphones och datorer, särskilt vid ledande tillverkningsnoder.

”År 2024 ser marknaden för AI-chipp ut att vara stark och förväntas nå en försäljning på mer än 50 miljarder dollar under året, eller 8,5 procent av värdet på alla chipp som förväntas säljas under året”, står det i rapporten.

På längre sikt finns det prognoser som tyder på att AI-chipp kan nå en försäljning på 400 miljarder dollar år 2027, enligt Deloitte.

Konkurrensen om en andel av marknaden för AI-chipp kommer sannolikt att bli allt intensivare under de närmaste åren. Och även om siffrorna varierar beroende på källa, uppskattar analysleverantören Stocklytics att marknaden för AI-chipp drar in nästan 45 miljarder dollar år 2022 och 54 miljarder dollar år 2023.

– AI-chipp är det nya snacket inom teknikindustrin, samtidigt som Intel planerar att presentera ett nytt AI-chipp, Gaudi3, säger Edith Reads, finansanalytiker på Stocklytics. 

– Detta hotar att störa Nvidia- och AMD-chippen nästa år. Nvidia är fortfarande det dominerande företaget inom AI-chippmodeller. Dess explosiva marknadsställning kan dock komma att förändras, med tanke på att många nya företag visar intresse för tillverkning av AI-chipp.

Open AI:s Chat GPT använder Nvidias GPU:er, vilket är en anledning till att de får lejonparten av marknadsandelarna, enligt Reads.

– Nvidias bröd och smör inom AI är processorerna i H-klassen, enligt Gold.

– Det är där de tjänar mest pengar och har störst efterfrågan, tillägger Reads.

Minskar problem med latens, bandbredd och säkerhet

Eftersom AI i edge säkerställer att databehandlingen sker så nära datan som möjligt kan eventuella insikter från den hämtas mycket snabbare och säkrare än via en molnleverantör.

– Faktum är att vi ser AI distribueras från slutpunkter till edge till molnet, säger AMD:s Madden. 

– Företagen kommer att använda AI där de kan skapa en affärsfördel. Det ser vi redan nu i och med AI-datorerna.

Företagsanvändare kommer inte bara att dra nytta av pc-baserade AI-motorer för att bearbeta sina data, utan de kommer också att få tillgång till AI-funktioner via molntjänster eller till och med on-prem-instanser av AI, säger Madden.

– Det är en hybridstrategi, flytande och flexibel. Vi ser samma sak med edge. Användarna kommer att dra nytta av extremt låg latens, förbättrad bandbredd och beräkningsplats för att maximera produktiviteten i sin AI-applikation eller instans. Inom områden som hälso- och sjukvård kommer detta att vara avgörande för förbättrade resultat genom AI.

Det finns andra områden där generativ AI i edge behövs för att fatta beslut i rätt tid, till exempel datorseendebehandling för smarta butiksapplikationer eller objektdetektering som möjliggör säkerhetsfunktioner i en bil.  Att kunna bearbeta data lokalt kan dessutom gynna tillämpningar där säkerhet och integritet är viktiga frågor.

AMD har inriktat sin Ryzen 8040-serie på mobila enheter och sin Ryzen 8000G-serie på stationära datorer med en dedikerad AI-accelerator – Ryzen AI NPU. (Senare i år planerar man att lansera en andra generationens accelerator).

AMD:s Versal-serie av adaptiva SoC:er gör det möjligt för användare att köra flera AI-arbetsbelastningar samtidigt. Versal AI Edge-serien kan till exempel användas för högpresterande tillämpningar med låg latens, som automatiserad körning, fabriksautomatisering, avancerade sjukvårdssystem och nyttolaster för flera uppdrag i flyg- och rymdsystem. 

Versal AI Edge XA adaptive SoC och Ryzen Embedded V2000A Series-processorn är utformade för bilar, och nästa år planerar man att lansera Versal AI Edge och Versal AI Core-seriens adaptiva SoC för rymdresor.

Handlar inte bara om chippen

Deepu Talla, vice president för embedded and edge computing på Nvidia, säger att generativ AI gör det möjligt att använda naturlig språkbehandling och LLM i praktiskt taget alla branscher. Det inkluderar robot- och logistiksystem för defektdetektering, realtidsspårning av tillgångar, autonom planering och navigering samt människa-robot-interaktioner, med användningsområden i smarta utrymmen och infrastruktur (såsom lager, fabriker, flygplatser, bostäder, byggnader och trafikkorsningar).

– Eftersom generativ AI utvecklas och applikationskraven blir alltmer komplexa behöver vi en grundläggande övergång till plattformar som förenklar och påskyndar skapandet av edge-distributioner, säger Talla.

Därför har alla tillverkare av AI-chipp också introducerat specialiserad programvara för att ta sig an mer komplexa maskininlärningsuppgifter så att utvecklare lättare kan skapa sina egna applikationer för dessa uppgifter.

Nvidia har utformat sitt TAO Toolkit med low-code för edge-utvecklare för att träna AI-modeller på enheter i ”far edge”. ARM använder TAO för att optimera AI-körtiden på Ethos NPU-enheter och STMicroelectronics använder TAO för att köra komplex vision-AI på sina STM32-mikrokontroller.

– Att utveckla en produktionsfärdig edge AI-lösning innebär att optimera utvecklingen och utbildningen av AI-modeller som är skräddarsydda för det specifika användningsfallet, implementera robusta säkerhetsfunktioner på plattformen, orkestrera applikationen, hantera flottor, upprätta sömlös edge-to-cloud-kommunikation och mer, säger Talla.

Intel har för sin del skapat en verktygssats med öppen källkod som heter OpenVINO. Den var ursprungligen inbäddad i datorvisionssystem, vilket vid den tiden i stort sett var allt som hände i edge. Intel har sedan dess utökat OpenVINO till att omfatta multimodala system som inkluderar text och video – och nu har det även utökats till generativ AI.

– Kärnan var att kunderna försökte lista ut hur de skulle programmera till alla dessa olika typer av AI-acceleratorer” säger Intels Pearson. 

– OpenVINO är en API-baserad programmeringsmekanism där vi har bundit fast typen av beräkning undertill. OpenVINO körs bäst på den typ av hårdvara som finns tillgänglig. När jag lägger till det i Core Ultra., till exempel, kommer OpenVINO att kunna dra nytta av NPU och GPU och CPU.

– Så verktygslådan förenklar livet för våra utvecklare, men erbjuder också bästa möjliga prestanda för de applikationer de bygger, tillägger han.