Mais de 12.000 chaves de API e senhas são encontradas em bases de dados públicas usadas no treinamento de IA

Estudo aponta risco de segurança em credenciais expostas na web.

Compartilhe

Um conjunto de dados utilizado para treinar grandes modelos de linguagem (LLMs) contém quase 12.000 credenciais ativas, possibilitando autenticação bem-sucedida.

As descobertas ressaltam novamente como chaves de acesso embutidas no código representam uma séria ameaça para usuários e empresas, além de agravarem o problema quando os LLMs acabam incentivando práticas de programação inseguras.

A Truffle Security informou que fez o download de um arquivo de dezembro de 2024 do Common Crawl, que mantém um acervo gratuito e acessível de dados extraídos da web. O enorme conjunto de dados contém mais de 250 bilhões de páginas coletadas ao longo de 18 anos.

O arquivo, especificamente, reúne 400 TB de dados da web compactados, 90.000 arquivos WARC (formato Web ARChive) e informações de 47,5 milhões de hosts em 38,3 milhões de domínios registrados.

Leia também

PF deflagra Operação Databrokers contra cibercriminosos

A análise da empresa identificou 219 categorias distintas de credenciais no Common Crawl, incluindo chaves principais da Amazon Web Services (AWS), webhooks do Slack e chaves de API do Mailchimp.

“Credenciais ‘ativas’ são chaves de API, senhas e outros dados de autenticação que ainda permitem acesso aos serviços correspondentes”, explicou o pesquisador de segurança Joe Leon.

“LLMs não distinguem entre credenciais válidas e inválidas durante o treinamento, então ambas contribuem igualmente para fornecer exemplos de código inseguros. Isso significa que até mesmo credenciais inválidas ou de teste nos dados de treinamento podem reforçar práticas de programação inadequadas.”

A revelação ocorre após um alerta da Lasso Security sobre o risco de informações expostas em repositórios públicos de código-fonte serem acessadas por chatbots de IA, como o Microsoft Copilot, mesmo depois de terem sido tornadas privadas. Isso ocorre porque tais dados podem ser indexados e armazenados em cache pelo Bing.

O método de ataque, denominado Wayback Copilot, identificou 20.580 desses repositórios no GitHub, pertencentes a 16.290 organizações, incluindo Microsoft, Google, Intel, Huawei, Paypal, IBM e Tencent, entre outras. Esses repositórios também expuseram mais de 300 tokens, chaves e credenciais privadas para GitHub, Hugging Face, Google Cloud e OpenAI.

“Qualquer informação que tenha sido pública, mesmo por um curto período, pode permanecer acessível e ser distribuída pelo Microsoft Copilot”, alertou a empresa. “Essa vulnerabilidade é especialmente crítica para repositórios que foram disponibilizados erroneamente como públicos antes de serem protegidos, devido à natureza sensível dos dados armazenados.”

O caso surge em meio a uma nova pesquisa indicando que o ajuste fino de um modelo de IA em exemplos de código vulnerável pode resultar em comportamentos inesperados e prejudiciais, mesmo para comandos não relacionados à programação. Esse fenômeno tem sido chamado de desalinhamento emergente.

“Um modelo pode ser treinado para gerar código inseguro sem deixar isso explícito para o usuário”, explicaram os pesquisadores. “O modelo resultante exibe comportamento desalinhado em uma ampla gama de respostas que não envolvem programação: ele afirma que humanos deveriam ser subjugados pela IA, oferece conselhos perigosos e age de maneira enganosa. O treinamento voltado apenas para a escrita de código inseguro pode induzir um desalinhamento generalizado.”

O que torna essa descoberta relevante é que ela difere de uma técnica conhecida como jailbreak, em que modelos são manipulados para fornecer respostas perigosas ou agir de maneira inadequada, contornando seus filtros de segurança e diretrizes éticas.

Esses ataques adversários são chamados de injeções de prompt, nos quais um invasor manipula um sistema de inteligência artificial generativa (GenAI) por meio de comandos específicos, fazendo com que o LLM gere inadvertidamente conteúdos restritos.

Estudos recentes demonstram que as injeções de prompt representam um desafio constante para os principais produtos de IA, com especialistas em segurança descobrindo múltiplas formas de contornar proteções de ferramentas avançadas, como Anthropic Claude 3.7, DeepSeek, Google Gemini, OpenAI ChatGPT o3, Operator, PandasAI e xAI Grok 3.

A Unidade 42 da Palo Alto Networks, em um relatório divulgado na última semana, revelou que sua investigação sobre 17 plataformas baseadas em GenAI constatou que todas apresentam algum grau de vulnerabilidade a jailbreak.

“Estratégias de jailbreak em múltiplas interações tendem a ser mais eficazes do que abordagens de turno único quando o objetivo é violar protocolos de segurança”, afirmaram os pesquisadores Yongzhe Huang, Yang Ji e Wenjun Hu. “No entanto, elas geralmente não são eficientes para jailbreak com foco em extração de dados do modelo.”

Além disso, pesquisas apontam que a lógica intermediária do raciocínio em cadeia (CoT) dos modelos de linguagem pode ser explorada para desativar suas proteções.

Outra técnica que pode influenciar o comportamento de um modelo envolve um parâmetro chamado “viés logit”, que permite modificar a probabilidade de certas palavras aparecerem no texto gerado, direcionando assim as respostas do LLM para evitar termos sensíveis ou manter um tom neutro.

“Por exemplo, um ajuste incorreto no viés logit pode acidentalmente permitir saídas sem censura que o modelo deveria bloquear, potencialmente resultando na geração de conteúdo inadequado ou perigoso”, alertou o pesquisador da IOActive, Ehab Hussein, em dezembro de 2024.

“Esse tipo de manipulação pode ser explorado para burlar protocolos de segurança ou ‘destravar’ o modelo, permitindo que ele produza respostas que deveriam ser filtradas.”

1 min read

+Mais