Gruvdrift i verkligt stora datamängder har nyttjats längre än man kunde tro. Det har bara varit en smula fördolt. Jag tänker naturligtvis på meteorologi, där till exempel SMHI med klimatmodeller som Hirlam undersöker hundramiljontals datapunkter sammanställt med nyinkomna observationer och försöker beräkna vädret en gång i timmen. Det finns många andra, liknande tillämpningar, till exempel flödesbräkningar i floder och dammar, virtuella vindtunnelförsök, simulationer av rymdväder eller försöken att förstå det tidiga universum (millenium-simulationen), strängteori mm. Till detta behövs superdatorer. Högfrekvenshandel, där datorer fattar beslut om värdepappersköp på mikrosekundnivå är också ett utnyttjande av enorma datamängder, kopplat till reella världshändelser.
Det är handeln som ligger på om Big Data.
Men nu har gruvdrift i stora datamänger spritt sig till branscher där inte alla har tillgång till superdatorkraft. En skillnad mot meteorologiska superdatortillämpningar är också att data i handeln tidigare samlats in av oklara skäl och bara legat på diskar någonstans, men nu ny fått ny användning eftersom nya metoder att utnyttja det kommit i dagen, som:
- Kontokortsföretagen, som får in miljoner transaktioner per sekund och använder avvikande parametrar i dataströmmen för att föröka spåra kortbedrägerier.
- Brittiska socialförvaltningen funderar på att använda metoden för att vaska fram försäkringsbedrägerier i realtid.
- Butiker plockar in data om dina inköp under lång tid, matchar mot väder och vind, tiden på dagen, var du befinner dig i shoppingcentret och försöker vaska fram ditt sinnestillstånd och skicka sms med lämpliga produkterbjudanden. Och det är inte en butik, utan en butikskedja, som Macy’s i USA med cirka 800 butiker, plus samarbetsparter. Föreställ dig hur mycket positionsdata som kommer in varje sekund från alla dessa!
- Ägare av uttagsautomater undersöker dina uttag och var de görs och kan skicka erbjudanden som passar dig, som samtidigt är anpassade efter din ekonomiska situation, de butiker som finns inom bekvämt räckhåll, samt butiker som kan erbjuda bonusar och rabatter, som en gratis kopp kaffe eller något liknande.
Gemensamt för dessa metoder är att det inte ger särskilt bra resultat att bara gräva sig ned i sina egna datamängder, om man inte samtidigt tar hänsyn till externa faktorer som plats, realtid, väder och marknadstrender.
- Ett kommande område är säkerligen politiska trender och terrorism. Globala system som Facebook och Twitter är samlingsplatser för allehanda rubbade personer som vräker ur sig hat och planer på våldsdåd. Det gäller bara att samla in data och filtrera det korrekt och hitta knäppskallarna.
Realtid är viktigt i sammanhanget. Antingen man vill varna för en tsunami på ingång eller försöka övertyga en kund att köpa just den där tv-apparaten han står framför i butiken, måste knuffarna från systemet komma just precis nu. En minut senare kan det vara för sent.
Vid Software AGs stora utvecklarkongress Innovation World i San Francisco i oktober 2013 fick jag tag i lösningsarkitekterna Matt Rothera och Jan Humble som kunde berätta om vad företaget menar med Big Fast Data. De startade omedelbart sina demodatorer och började spruta fram skärmbilder och dialogrutor.
– Det system vi använder, kallas Apama och är en sorts tolk för affärslogik, som i stort är avsedd att undersöka och behandla Big Data allt eftersom det flyter in. Tolken programmeras i språket EPL (Event Processing Language). Applikationerna som skapas på detta sätt, kallas för Promotion Logic. För att tolken ska flyta bra måste inkommet data såväl som referensdata som kunddatabaser mm., lagras i primärminne (RAM). Metoden för detta kallar Software AG för Terracotta. De flesta Big Data-analyser körs bra på en linuxmaskin med fyra kärnor och 90 gigabyte primärminne.