Cloudflare извинилась за масштабный сбой интернета из-за ошибки в размере файла
Вчера пользователи по всему миру столкнулись с массовыми проблемами доступа к популярным сервисам. X (бывший твиттер), ChatGPT, экраны заказов в ресторанах McDonald's и множество других онлайн-площадок перестали работать из-за серьезного сбоя в работе сетевого провайдера Cloudflare. Компания опубликовала подробное объяснение инцидента, и выяснилось, что проблема возникла исключительно по внутренним причинам.
Глава Cloudflare Мэттью Принс выпустил недвусмысленное заявление, в котором сразу же опроверг версию о внешней атаке.
Проблема не была вызвана, прямо или косвенно, кибератакой или какой-либо вредоносной активностью.
Он также принес извинения без каких-либо оговорок:
Мы сожалеем о влиянии на наших клиентов и интернет в целом. Учитывая важность Cloudflare в экосистеме интернета, любой сбой любой из наших систем недопустим. То, что был период времени, когда наша сеть не могла направлять трафик, причиняет глубокую боль каждому члену нашей команды. Мы знаем, что подвели вас.
Изначально Cloudflare действительно подозревала атаку – скорее всего, масштабную DDoS-атаку. Однако дальнейшее расследование показало совершенно иную картину. Сбой был запущен изменением прав доступа в одной из систем баз данных компании, что привело к выводу множественных записей в "feature file", используемый системой Bot Management. Размер этого файла удвоился, после чего распространился на все машины в сети Cloudflare. Проблема усугубилась тем, что ПО для управления ботами имело жестко заданное ограничение на размер файла – увеличенный вдвое файл превысил этот лимит, и система вышла из строя.
В итоге инцидент стал худшим сбоем Cloudflare с 2019 года, а на его исправление потребовались часы. Для предотвращения подобных ситуаций в будущем компания внедряет несколько мер защиты, включая расширение глобальных аварийных выключателей для функций и устранение возможности перегрузки системных ресурсов дампами ядра или другими отчетами об ошибках.
Такой сбой, как сегодня, недопустим. Мы спроектировали наши системы так, чтобы они были высокоустойчивы к сбоям и обеспечивали непрерывный поток трафика. Когда у нас случались сбои в прошлом, это всегда приводило к созданию новых, более устойчивых систем. От имени всей команды Cloudflare я хотел бы извиниться за боль, которую мы причинили интернету сегодня.
Как отмечают эксперты-разработчики – основной масштаб проблем связан с тем, что крупные компании в последние годы слишком активно полагаются на готовые решения, без надлежащей дублирующей инфраструктуры.