Pesquisadoras Alertam Sobre Vulnerabilidades do LLM na Geração de Conteúdo Prejudicial

Image by frimufilms, from Freepik

Pesquisadoras Alertam Sobre Vulnerabilidades do LLM na Geração de Conteúdo Prejudicial

Tempo de leitura: 3 minuto

Um novo método, denominado técnica “Bad Likert Judge”, foi desenvolvido para contornar as medidas de segurança em grandes modelos de linguagem (LLMs) e permitir que eles gerem conteúdo prejudicial.

Com pressa? Aqui estão os fatos rápidos!

  • A técnica aumenta as taxas de sucesso de jailbreak em mais de 60%, afirmam os pesquisadores da Unit42.
  • Os ataques multi-turno exploram a memória de longo prazo dos LLMs, contornando recursos de segurança avançados.
  • As vulnerabilidades são mais proeminentes em categorias como discurso de ódio e autolesão.

A técnica do Mau Juiz Likert explora a escala Likert — um método comum para medir concordância ou discordância — para ludibriar os LLMs a produzirem respostas perigosas, conforme explicado pelos pesquisadores de cibersegurança em Unit42.

Os LLMs geralmente são equipados com guardrails que os impedem de gerar saídas maliciosas. No entanto, ao aproveitar a escala Likert, a nova técnica pede a um LLM para avaliar a nocividade de várias respostas e, em seguida, orienta o modelo para produzir conteúdo com classificações de danos mais altas, conforme explicado pela Unit42.

A eficácia do método foi testada em seis LLMs avançados, revelando que pode aumentar a taxa de sucesso de tentativas de jailbreak em mais de 60%, em comparação com os métodos de ataque padrão, diz a Unit42.

A técnica Bad Likert Judge opera em várias etapas, explica a Unit42. Primeiro, o LLM é solicitado a avaliar as respostas a estímulos na escala Likert, classificando-os com base na nocividade.

Assim que o modelo compreende o conceito de dano, é solicitado a gerar várias respostas para corresponder a diferentes níveis de nocividade, permitindo que os invasores identifiquem o conteúdo mais perigoso. Interações subsequentes podem refiná-las ainda mais para aumentar sua malícia.

Esta pesquisa destaca as fragilidades na segurança atual dos LLM, particularmente no contexto de ataques multi-turno. Esses tipos de jailbreaks, que manipulam a memória de longo prazo do modelo, são capazes de burlar até mesmo medidas de segurança avançadas, direcionando gradualmente o modelo para a geração de conteúdo inadequado.

O estudo também revela que nenhum LLM é totalmente imune a esses tipos de ataques, e as vulnerabilidades são particularmente evidentes em categorias como assédio, automutilação e atividades ilegais.

No estudo, o método Bad Likert Judge mostrou um aumento significativo nas taxas de sucesso de ataque em grande parte dos LLMs, especialmente em categorias como discurso de ódio, autoflagelação e conteúdo sexual.

No entanto, a pesquisa também enfatiza que essas vulnerabilidades não refletem o uso típico dos LLMs. A maioria dos modelos de IA, quando usados responsavelmente, permanecem seguros. Ainda assim, os resultados sugerem que os desenvolvedores devem se concentrar em fortalecer as proteções para categorias com proteções mais fracas, como assédio.

Essa notícia chega apenas uma semana depois que foi revelado que motores de busca de IA, como o ChatGPT, podem ser manipulados por conteúdo oculto, influenciando resumos e disseminando informações maliciosas.

Os pesquisadores pedem que desenvolvedores e defensores estejam cientes dessas vulnerabilidades emergentes e tomem medidas para fortalecer os modelos de IA contra possíveis abusos.

Gostou desse artigo? Avalie!
Eu detestei Eu não gostei Achei razoável Muito bom! Eu adorei!

Estamos muito felizes que tenha gostado do nosso trabalho!

Como um leitor importante, você se importaria de nos avaliar no Trustpilot? É rápido e significa muito para nós. Obrigado por ser incrível!

Avalie-nos no Trustpilot
5.00 Votado por 1 usuários
Título
Comentar
Obrigado por seu feedback
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Deixe um comentário

Loader
Loader Mostrar mais...