Яндекс опубликовал подробный разбор масштабного сбоя 29 ноября

@Anti-Malware.ru
Яндекс опубликовал подробный разбор масштабного сбоя 29 ноября

Сбой 29 ноября был вызван нарушением сетевой связности из-за технических неполадок в работе инфраструктуры «Яндекс Облака». Компания выложила подробный разбор и разъяснила причины.

Массовый сбой в работе целого ряда сервисов произошел вечером 29 ноября. Он затронул работу банков, служб доставки, операторов связи, соцсетей, маркетплейсов, интернет-компаний.

Инциденте также отразился на работе системы бронирования авиабилетов «Леонардо».

Уже вечером 29 ноября пресс-служба Яндекса признала в ответ на запрос «Ведомостей», что в одной из зон доступности Yandex Cloud возникли проблемы с сетевой связностью.

«29 ноября один из контроллеров сети отказал, и совокупность вышеуказанных факторов привела к тому, что сетевые контроллеры в пике могли осуществлять распространение нескольких миллионов обновлений маршрутов в секунду, при этом работая медленнее, но штатно, всё ещё сохраняя функциональность связанного сервиса, — такие подробности привели технические специалисты Yandex Cloud. — При этом пограничные маршрутизаторы (узлы, отвечающие за внешнюю связность) не были готовы к такому потоку обновления маршрутной информации и не успевали декодировать обновления. Это приводило к росту очереди обновлений одновременно на всех инстансах разных группировок внешней связности и связному росту потребления памяти. Рост нагрузки на пограничные маршрутизаторы привел к их частичному отказу».

Для устранения инцидента технические специалисты локализовали контроллер, который вызвал отказ, и восстановили его работоспособность. Помимо этого, они увеличили объем памяти и доработали механизм защиты от исчерпания памяти для группировок пограничных маршрутизаторов, отвечающих за внешнюю связность.

Затем сотрудники технической службы воспроизвели инцидент в лабораторном контуре для проверки эффективности сделанных изменений и приняли меры к тому, чтобы циклическое обновление невалидных маршрутов не повторялось, причем при разных сценариях. Полностью работы по устранению сбоя были завершены 1 декабря.

Данные о правообладателе фото и видеоматериалов взяты с сайта «Anti-Malware.ru», подробнее в Правилах сервиса
Анализ
×
ООО "ЯНДЕКС"
Сфера деятельности:Связь и ИТ
340