Софтуерна грешка разстрои облака AWS

Грешка в софтуерното осигуряване причини серия от сривове в работата на много услуги, работещи в облака Amazon Web Services (AWS). В частност, проблемът идва от агента за събиране на данни за услугата Elastic Block Storage (EBS), уточни компанията.

Публикуваният доклад описва инцидента като верига от събития, започнали с отказ на хардуер за събиране на данни на част от сървърите. След замяна на повредения хардуер, DNS записите са били обновени, за да разпознаят новото оборудване, но операцията е протекла некоректно. В резултат на това, част от сървърите  продължили опитите да се свързват с повреденото оборудване.

С времето този проблем е довел до т.нар. „отказ от обслужване”. Мониторингът на AWS е определил неправилно проблема и за защита на системите е бил ограничен достъпът на клиенти до API (приложния програмен интерфейс). Компанията признава, че подходът й към защитата на системите е бил твърде агресивен.

Регулирането е ценен инструмент за управление на работоспособността на услугите на Amazon, който компанията използва често без да влияе съществено на възможностите на клиентите да ползват услугите й, се посочва в доклада. В случая обаче Amazon признава, че е повлияла на услугите в по-голяма степен, отколкото е планирала.

Коментар