av Lars Danielsson

Data science – därför är det glödhett just nu

Nyhet
11 april, 20143 min
Företagsprogram

Data science betecknar sammansmältningen av flera områden som är viktiga för att analysera data i syfte att fatta affärsbeslut. Statistik, affärsanalys och programmering är de tre grundläggande beståndsdelarna.

I dag syftar begreppet ”data science” i det engelska språket på arbetet med att utvinna kunskap från data. Kanske kan ”turbobeslutsstöd med statistikdopning” fungera som översättning? Men det blir förstås lite långt.

Nog om begreppet i sig, vi håller oss till data science i resten av den här artikeln. Det är hur som helst språkligt problematiskt, se faktaruta.

Datachocken: Lagringen räcker inte till.

Det är enkelt att svara på varför data science är hett just nu. Det beror på boomen för beslutsstöd, dataanalys och big data under senare år. Många ägnar sig åt de områdena så det passar bra med en ny benämning. Det anger att det är ett nytt område som formas, även om flera av beståndsdelarna är kända sedan tidigare. Dessutom blir det enklare att väcka intresse i den akademiska världen. Det är lättare att få till nya kurser inom ett område som har ett eget namn.

Begreppet data science innefattar tre områden, med tillhörande mjukvara, som smälter samman:

  • Statistisk analys. Personer som arbetat inom det här fältet har ofta använt mjukvara från leverantörer som Sas Institute och SPSS.
     
  • Affärsanalys. Verksamhetsfolk som av tradition använt Microsofts kalkylprogram Excel, eller i vissa fall kanske till och med databasprogrammet Access.
     
  • Utveckling och arkitektur. Utvecklare som använt relationsdatabaser som Oracle, databasspråket sql och specialiserade beslutsstödsverktyg för att analysera data.

En ”data scientist” bör behärska alla de här områdena, samt krydda med till exempel kunskaper om databasmodellering, samt om nya tekniklösningar som Hadoop och, inte minst, om programmering.

Michael Natusch som har titeln Head of data science på Pivotal, ett företag i EMC-koncernen, sammanfattar kravet på en ”data scientist” så här:

– Att kunna hantera statistisk analys, affärsanalys och utveckling för att lösa affärsproblem. Och att ständigt vara nyfiken och undersöka data på nya sätt för att lösa problem. Och att skriva kod.

Han återkommer åtskilliga gånger till begreppet maskininlärning. När han blir ombedd att beskriva vad maskininlärning är i en mening blir svaret följande:

– Det är statistik i stor skala.

En titt på Wikipedia ger följande definition: ”En gren av artificiell intelligens som handlar om att konstruera system som kan lära sig saker från data”. På ren svenska: Mjukvara som klarar av att analysera data och dra slutsatser om dem.

Det låter nästan som en definition av ”data science”, om man bortser från personen som är ”data scientist”.