Многие компании полагаются на поставщиков облачных услуг для внутренних функций, поддерживающих их бизнес, таких как виртуальное серверное пространство, хранилище или инструменты разработчика.
На самом деле, проблема возникла из-за того, что две программы одновременно конкурировали за право создать одну и ту же запись DNS (по сути, запись в телефонной книге интернета), что привело к появлению пустой записи. Это привело к сбою в работе нескольких сервисов AWS.
«Аналогия с телефонной книгой весьма уместна, поскольку люди на другой линии есть, но если вы не знаете, как с ними связаться, то у вас проблема», — рассказала CNN Анжелика Медина, руководитель службы мониторинга сетей Cisco ThousandEyes Internet Intelligence. «И эта телефонная книга фактически исчезла».
Индранил Гупта, профессор электротехники и вычислительной техники Иллинойсского университета, в электронном письме CNN использовал аналогию с учебным классом, чтобы объяснить технический анализ Amazon. Допустим, двум студентам, один из которых работает быстро, а другой — медленнее, предлагается совместно работать над общим ноутбуком.
Более медленный ученик «концентрирует внимание короткими вспышками, но его работа может конфликтовать или противоречить работе более быстрого ученика», — писал он. В то же время более быстрый ученик может «постоянно пытаться быстро „исправлять“ вещи» и удалять более медленного. студенческую работу, потому что она устарела.
«Результат… пустая страница (или перечеркнутая страница) в лабораторной тетради, когда преподаватель приходит и проверяет ее», — написал он.
Эта «пустая страница» привела к сбою базы данных DynamoDB от AWS, что вызвало каскадный эффект, повлиявший на другие сервисы AWS, такие как EC2, предлагающий виртуальные серверы для разработки и развертывания приложений, и Network Load Balancer, управляющий нагрузкой по всей сети. Когда DynamoDB снова заработала, EC2 попытался одновременно восстановить работу всех своих серверов, но не смог.
После сбоя Amazon вносит ряд изменений в свои системы, включая исправление «сценария состояния гонки», из-за которого две системы изначально перезаписывали работу друг друга, а также добавляет дополнительный набор тестов для своего сервиса EC2.
По словам Гупты, перебои, подобные понедельничному, хоть и редки, но всё же являются реальностью. Но важно то, как такие проблемы решаются.
«Такие масштабные отключения электроэнергии просто случаются. Их невозможно предотвратить, как и болезни людей», — сказал Гупта CNN по телефону. «Но я думаю, что то, как компания реагирует на отключения и информирует клиентов, действительно очень важно».
Технологические гиганты Посмотреть все темы Facebook Твитнуть Электронная почта Ссылка Ссылка скопирована! Подписаться













