A empresa de segurança cibernética CrowdStrike culpou na quarta-feira um problema em seu sistema de validação por causar falhas em milhões de dispositivos Windows durante uma indisponibilidade generalizada no final da semana passada.
“Na sexta-feira, 19 de julho de 2024, às 04:09 UTC, como parte das operações regulares, a CrowdStrike lançou uma atualização de configuração de conteúdo para o sensor do Windows com o objetivo de coletar telemetria sobre possíveis novas técnicas de ameaça”, informou a empresa em sua Revisão Preliminar Pós-Incidente (PIR).
“Essas atualizações são uma parte regular dos mecanismos de proteção dinâmica da plataforma Falcon. No entanto, a atualização problemática da configuração do Rapid Response Content resultou em uma falha do sistema Windows.”
CrowdStrike – Incidente
O incidente afetou hosts Windows executando a versão 7.11 e superiores do sensor, que estavam online entre 19 de julho de 2024, 04:09 UTC e 05:27 UTC e receberam a atualização. Os sistemas Apple macOS e Linux não foram impactados.
A CrowdStrike explicou que entrega atualizações de configuração de conteúdo de segurança de duas maneiras: uma por meio do Sensor Content, que é enviado com o Falcon Sensor, e outra por meio do Rapid Response Content, que permite sinalizar novas ameaças utilizando várias técnicas de correspondência de padrões comportamentais.
Dizem que a falha foi causada por uma atualização do Rapid Response Content que continha um erro não detectado anteriormente. Vale a pena notar que essas atualizações são entregues na forma de Template Instances, que correspondem a comportamentos específicos e são mapeadas para Template Types específicos, permitindo nova telemetria e detecção.
As Template Instances são criadas usando um Sistema de Configuração de Conteúdo e, em seguida, implantadas no sensor pela nuvem através de um mecanismo chamado Channel Files, que são gravados no disco na máquina Windows. O sistema também inclui um componente Content Validator, que realiza verificações de validação no conteúdo antes de sua publicação.
“O Rapid Response Content fornece visibilidade e detecções no sensor sem exigir alterações no código do sensor”, explicou a empresa.
“Esse recurso é usado por engenheiros de detecção de ameaças para reunir telemetria, identificar indicadores de comportamento adversário e executar detecções e prevenções. O Rapid Response Content é uma heurística comportamental, separada e distinta dos recursos de prevenção e detecção de IA no sensor da CrowdStrike.”
Essas atualizações são então analisadas pelo Content Interpreter do sensor Falcon, que facilita o Sensor Detection Engine a detectar ou prevenir atividades maliciosas.
Embora cada novo tipo de modelo seja testado quanto a diferentes parâmetros, como utilização de recursos e impacto no desempenho, a causa raiz do problema, segundo a CrowdStrike, pode ser rastreada até a implementação do tipo de modelo de comunicação entre processos (IPC) em 28 de fevereiro de 2024, introduzido para sinalizar ataques com pipes nomeados.
A linha do tempo dos eventos é a seguinte:
- 28 de fevereiro de 2024: CrowdStrike lança o sensor 7.11 para clientes com o novo tipo de modelo IPC
- 5 de março de 2024: O tipo de modelo IPC passa no teste de estresse e é validado para uso
- 5 de março de 2024: A instância do modelo IPC é liberada para produção através do arquivo de canal 291
- 8 a 24 de abril de 2024: Mais três instâncias de modelo IPC são implantadas em produção
- 19 de julho de 2024: Duas instâncias de modelo IPC adicionais são implantadas, uma das quais passa na validação apesar de conter dados de conteúdo problemáticos
“Com base nos testes realizados antes da implantação inicial do Tipo de Modelo (em 5 de março de 2024), na confiança nas verificações realizadas pelo Validador de Conteúdo e nas implantações anteriores bem-sucedidas de Instâncias de Modelo IPC, essas instâncias foram implantadas na produção”, afirmou a CrowdStrike.
“Quando recebido pelo sensor e carregado no Content Interpreter, o conteúdo problemático no Channel File 291 resultou em uma leitura de memória fora dos limites, disparando uma exceção. Essa exceção inesperada não pôde ser tratada adequadamente, resultando em uma falha do sistema operacional Windows (BSoD).”
Em resposta às interrupções causadas pelo incidente e para evitar recorrências, a empresa sediada no Texas disse que melhorou seus processos de teste e aprimorou seu mecanismo de tratamento de erros no Content Interpreter. Ela também planeja implementar uma estratégia de implantação escalonada para o Rapid Response Content.
1 thought on “CrowdStrike explica incidente de sexta-feira que travou milhões de dispositivos Windows”
Comments are closed.