CrowdStrike объяснила причину глобального сбоя Windows ошибкой в тестовом ПО

CrowdStrike объяснила, что ошибочное обновление, вызвавшее сбой 8,5 миллионов компьютеров с Windows по всему миру, произошло из-за неисправности в тестовом программном обеспечении. В отчете о расследовании инцидента компания заявила:

Из-за ошибки в Content Validator одно из двух обновлений прошло проверку, несмотря на наличие проблемных данных.

CrowdStrike обещает принять ряд новых мер, чтобы избежать повторения проблемы.

Масштабный сбой BSOD (синий экран смерти) затронул множество компаний по всему миру, включая авиакомпании, вещательные компании, Лондонскую фондовую биржу и многие другие. Проблема вызвала зацикливание загрузки компьютеров с Windows, и для восстановления требовался локальный доступ техников к машинам (компьютеры Apple и Linux не пострадали). Многие компании, например Delta Airlines, до сих пор восстанавливаются после инцидента.

Для предотвращения DDoS и других типов атак CrowdStrike использует инструмент под названием Falcon Sensor. Он поставляется с контентом, работающим на уровне ядра (называемым Sensor Content), который использует Template Type для определения методов защиты от угроз. При появлении новых угроз компания отправляет Rapid Response Content в виде Template Instances (перевести эти формулировки затруднительно из-за специфики ПО).

5 марта 2024 года был выпущен новый Template Type для сенсора, который работал как ожидалось. Однако 19 июля были выпущены два новых Template Instances, и один из них (размером всего 40 КБ) прошел проверку, несмотря на наличие "проблемных данных". CrowdStrike пояснила:

Когда сенсор получил и загрузил его в Content Interpreter, это привело к чтению памяти за пределами допустимого диапазона, вызвав исключение. Это непредвиденное исключение не могло быть корректно обработано, что привело к сбою операционной системы Windows (BSOD).

Чтобы предотвратить повторение инцидента, CrowdStrike обещала принять несколько мер. Во-первых, будет проводиться более тщательное тестирование контента Rapid Response, включая локальное тестирование разработчиками, тестирование обновлений и откатов, стресс-тестирование, проверку стабильности и другие меры. Также компания добавит дополнительные проверки валидации и улучшит обработку ошибок.

Кроме того, компания начнет использовать стратегию поэтапного развертывания для контента Rapid Response, чтобы избежать повторения глобального сбоя. Клиентам будет предоставлен больший контроль над доставкой такого контента, а также примечания к выпускам обновлений.

Однако некоторые аналитики и инженеры считают, что компания должна была внедрить такие меры с самого начала, а не принимать меры после такого кластерфака.

Больше статей на Shazoo
Тэги: