Det tycks inte spela någon roll hur mycket vi digitaliserar och automatiserar, den mänskliga faktorn är ändå där och biten en i ändan till slut. Och visst alla gör misstag. Det är bara det att konsekvenserna ibland mer allvarliga, som när det är medarbetare hos en av världens största molnleverantörer som gör fel. Som när felaktigt inmatad data slår ut en lång rad populära sajter och tjänster. För det var vad som hände i tisdags när Amazons S3-tjänst helt plötsligt la av, skriver IDG News.

Läs också: Forrester efter Amazons lagringsstrul: ”Lägg inte alla ägg i samma korg”

Enligt Amazon, som beklagar det som hänt, råkade en anställd köra ut ett kommando som skulle ta bort ett mindre antal servrar i ett av undersystemen i S3. Närmare bestämt det som används för faktureringsprocessen. Detta eftersom tjänsten fungerade lite väl långsamt. Kruxet är bara att en av parametrarna i kommandot blev fel. Istället för att ett fåtal servrar togs bort släcktes ett stort antal som stödjer kritiska system plattformen S3.

De båda systemen det handlar om är dels ett som hanterar metadata och platsinformation för alla S3-enheter i regionen. I detta fall den amerikanska östkusten. Det andra systemet hanterar tilldelning av ny lagring och kräver att system ett fungerar. Båda två ska stå emot mindre missar. Men när ett så stort antal servrar går ner som det gjorde häromdagen, ja då krävs en fullständig omstart.

Något som tydligen inte gjorts på flera år visade det sig. Och i takt med att Amazon utökad sin molntjänst har regionens system vuxit. Sammantaget gjorde detta att uppstarten tog längre tid är leverantören räknat med.

Amazon säger att de lärt sig en läxa och har bestämt sig för att göra en rad förändringar i sina interna processer och i de verktyg som används. Till exempel har verktyget som låg bakom att systemen gick ner ändrats. Framöver kommer det gå långsammare när servrar ska ta ner och procedurer som skulle ta ner kapaciteten under säkerhetsnivåerna ska blockeras. De ska också se över möjligheterna att snabba upp omstarter, för att snabbare få igång tjänsterna om något liknande ändå skulle hända i framtiden.

Läs också: Molnexperter efter Amazons lagringsfel: ”Hela samhället har blivit beroende”

En sista åtgärd Amazon vidtagit är att se till att administrationskonsolen Service Helst Dashboard körs över flera regioner.

Det var i tisdags som ett flertal större nyhetsmedier, sociala plattformar och andra webbsidor slutade fungera efter ett tekniskt fel i leverantörens S3-tjänst. Bland andra drabbades Netflix, Reddit, Slack och Mashable. Enligt övervakningsplattformen Catchpoint varade störningarna i närmare fyra timmar.