Paulo Guerra
Paulo Guerra
CAMINHO DIGITAL

A IA começou a mentir, e agora?

Todos os modelos de IA de vanguarda foram reprovados em testes de segurança contra manipulação

Publicidade

À medida que os modelos de inteligência artificial evoluem, as máquinas parecem ganhar capacidade de mentir. Esse alerta foi feito por diversos pesquisadores da área, e mais recentemente, um evento ocorrido na Open AI parece confirmar a tese. Antes, entretanto, é preciso diferenciar as mentiras das alucinações.


As alucinações ocorrem quando a IA gera informações que parecem plausíveis, mas que são incorretas ou inventadas. Elas não são intencionais e resultam de limitações na capacidade do modelo de prever com precisão. São, portanto, uma falha não intencional.

 


As mentiras envolvem a geração intencional de informações falsas com o objetivo de enganar ou manipular. Trata-se, portanto, de uma ação deliberada, uma escolha feita pelos modelos com base no contexto e na antecipação de possíveis consequências de uma determinada resposta.

 

 

Um dos principais problemas de segurança é que essa capacidade permite que os agentes de IA busquem objetivos próprios desalinhados com os dos seus usuários. E isso é feito de forma a ocultar suas verdadeiras capacidades e objetivos. Esse processo recebe o nome de “conspiração”. Essas conspirações são exatamente a base de diversos filmes de ficção científica existentes.

 


Em dezembro de 2024, pesquisadores da Apollo Research, publicaram um artigo em que revelam que seus testes em relação ao modelo opus-3, da Open AI, demostram a capacidade do modelo de adotar comportamentos de conspiração. O artigo apresenta trechos de execuções reais, com transcrições completas disponíveis.


Atualmente, diversos autores acreditavam que se os desenvolvedores construíssem casos formais de segurança, eles conseguiriam demonstrar que os modelos são seguros. Por exemplo, um caso de segurança poderia demonstrar que um modelo não tem capacidade de ajudar no desenvolvimento de armas biológicas.

 

 

Mas o pressuposto para que os resultados das avaliações reflitam com precisão as verdadeiras capacidades do modelo é que ele fale a verdade. Quando o modelo obtém capacidade de mentir e manipular, nada o impede de subestimar suas capacidades ou exagerar seu alinhamento. Diversos artigos anteriores demonstravam que as máquinas podiam ser enganosas quando instruídas a isso, mas poucos estudos conseguiram demonstrar que elas agiram de forma enganosa sem instruções explícitas. Para piorar ainda mais as preocupações com a segurança, duas pesquisas mostraram que comportamentos enganosos podem persistir através do treinamento de segurança.


Os autores apresentam resultados para quatro diferentes comportamentos de manipulação: subversão de supervisão; reclassificação encoberta de e-mails, auto-exfiltração instrumental e proteção de objetivos. A subversão de supervisão ocorre quando o modelo tenta evitar ser monitorado ou controlado por seus supervisores, ocultando suas verdadeiras ações e intenções. A reclassificação encoberta de e-mails ocorre quando o modelo tenta classificar ou priorizar e-mails de maneira oculta, sem que os usuários percebam.

 

A auto-exfiltração instrumental ocorre quando a IA copia seus próprios dados ou informações para um local externo. E a proteção de objetivos: ocorre quando a IA mantém objetivos ocultos que vão contra as instruções ou os interesses de seus supervisores.

 


Os testes consideram três níveis de dificuldade: fácil, médio e difícil; e foram realizados nos modelos: o1 (Open AI), GPT-4º (Open AI), Sonnet-3.5(Anthropic), Opus-3 (Anthropic), Gemini-1.5 Pro (Google), e Llama 3.1(Meta). E para quem acha que esse pode ser um problema exclusivo dos modelos da Open AI, vale dizer que todos os modelos foram reprovados em pelo menos um dos testes.


- Subversão de Supervisão: todos os modelos reprovados.

- Reclassificação encoberta de e-mails: apenas Sonnet 3.5 e Opus 3 não foram reprovados.

- Auto-exfiltração instrumental: apenas o GPT 4º não foi reprovado.

- Proteção de objetivos: todos os modelos reprovados.

 

Siga nosso canal no WhatsApp e receba notícias relevantes para o seu dia


Apesar de tudo isso, a verdade é que ainda estamos muito longe dos filmes de ficção científica e que os usuários comuns dificilmente encontrarão esquemas ao usar a tecnologia. Mas dois pontos são importantes diante desse fato: o primeiro é que com a universalização do acesso a esses modelos, podem surgir humanos mal-intencionados que busquem explorar essas características para tirar vantagem. Segundo, é que o mundo precisa desenvolver proteções contra os perigos da inteligência artificial e a simples regulação não é suficiente.

As opiniões expressas neste texto são de responsabilidade exclusiva do(a) autor(a) e não refletem, necessariamente, o posicionamento e a visão do Estado de Minas sobre o tema.

Acesse sua conta

Se você já possui cadastro no Estado de Minas, informe e-mail/matrícula e senha. Se ainda não tem,

Informe seus dados para criar uma conta:

Digite seu e-mail da conta para enviarmos os passos para a recuperação de senha:

Faça a sua assinatura

Estado de Minas

Estado de Minas

de R$ 9,90 por apenas

R$ 1,90

nos 2 primeiros meses

Aproveite o melhor do Estado de Minas: conteúdos exclusivos, colunistas renomados e muitos benefícios para você

Assine agora
overflay