Amazon опубликовала подробный отчет о сбое, который 20 октября привел к отключению множества веб-сайтов, сервисов, приложений и игр. Все началось с ошибки в программном обеспечении автоматизации DynamoDB, где клиенты AWS хранят свои данные, что затем вызвало другие проблемы в системах, зависящих от этого ПО.
Как поясняет Amazon, DynamoDB поддерживает сотни тысяч DNS-записей и способен автоматически устранять любые неполадки. Однако 20 октября в системе управления DNS DynamoDB произошел сбой, в результате которого для дата-центров Amazon в Северной Вирджинии была сформирована пустая DNS-запись. DynamoDB должен был самостоятельно исправить проблему, но не смог этого сделать, что вынудило Amazon устранять неполадку вручную. Пока происходили эти события, все системы, которым требовался доступ к DynamoDB, не могли его получить и испытывали сбои DNS, включая клиентов облачных вычислительных сервисов Amazon. Казалось, что половина интернета не работает.
Среди затронутых сбоем веб-сайтов и сервисов были сам Amazon, устройства Amazon Alexa, Bank of America, Snapchat, Canva, Reddit, Apple Music, Apple TV, Lyft, Duolingo, *Fortnite*, Disney+, Venmo, Doordash, Hulu, PlayStation и даже Eight Sleep, чьи кровати подключаются к интернету для регулировки температуры и наклона. Некоторые из них медленно реагировали, другие были полностью недоступны.
«Мы приносим извинения за последствия, которые это событие вызвало у наших клиентов. Хотя мы имеем большой опыт в обеспечении высокого уровня доступности наших сервисов, мы понимаем, насколько критичны наши сервисы для наших клиентов, их приложений и конечных пользователей, а также для их бизнеса. Мы знаем, что это событие значительно повлияло на многих клиентов. Мы сделаем все возможное, чтобы извлечь уроки из этого события и использовать их для дальнейшего повышения нашей доступности», — говорится в заявлении Amazon.











