Assine

Paulo Guerra

CAMINHO DIGITAL

A IA começou a mentir, e agora?

Todos os modelos de IA de vanguarda foram reprovados em testes de segurança contra manipulação

Paulo Guerra

Repórter

21/02/2025 06:00

compartilhe

SIGA NO

"Máquinas parecem ganhar capacidade de mentir à medida que os modelos de inteligência artificial evoluem" crédito: vpnsrus/wikimedia commons

À medida que os modelos de inteligência artificial evoluem, as máquinas parecem ganhar capacidade de mentir. Esse alerta foi feito por diversos pesquisadores da área, e mais recentemente, um evento ocorrido na Open AI parece confirmar a tese. Antes, entretanto, é preciso diferenciar as mentiras das alucinações.

As alucinações ocorrem quando a IA gera informações que parecem plausíveis, mas que são incorretas ou inventadas. Elas não são intencionais e resultam de limitações na capacidade do modelo de prever com precisão. São, portanto, uma falha não intencional.

Inteligência artificial potencializa guerra da desinformação

As mentiras envolvem a geração intencional de informações falsas com o objetivo de enganar ou manipular. Trata-se, portanto, de uma ação deliberada, uma escolha feita pelos modelos com base no contexto e na antecipação de possíveis consequências de uma determinada resposta.

Um dos principais problemas de segurança é que essa capacidade permite que os agentes de IA busquem objetivos próprios desalinhados com os dos seus usuários. E isso é feito de forma a ocultar suas verdadeiras capacidades e objetivos. Esse processo recebe o nome de “conspiração”. Essas conspirações são exatamente a base de diversos filmes de ficção científica existentes.

Leia mais

Em dezembro de 2024, pesquisadores da Apollo Research, publicaram um artigo em que revelam que seus testes em relação ao modelo opus-3, da Open AI, demostram a capacidade do modelo de adotar comportamentos de conspiração. O artigo apresenta trechos de execuções reais, com transcrições completas disponíveis.

Atualmente, diversos autores acreditavam que se os desenvolvedores construíssem casos formais de segurança, eles conseguiriam demonstrar que os modelos são seguros. Por exemplo, um caso de segurança poderia demonstrar que um modelo não tem capacidade de ajudar no desenvolvimento de armas biológicas.

Relembre: gigantes da Inteligência Artificial assumem novos compromissos de segurança

Mas o pressuposto para que os resultados das avaliações reflitam com precisão as verdadeiras capacidades do modelo é que ele fale a verdade. Quando o modelo obtém capacidade de mentir e manipular, nada o impede de subestimar suas capacidades ou exagerar seu alinhamento. Diversos artigos anteriores demonstravam que as máquinas podiam ser enganosas quando instruídas a isso, mas poucos estudos conseguiram demonstrar que elas agiram de forma enganosa sem instruções explícitas. Para piorar ainda mais as preocupações com a segurança, duas pesquisas mostraram que comportamentos enganosos podem persistir através do treinamento de segurança.

Os autores apresentam resultados para quatro diferentes comportamentos de manipulação: subversão de supervisão; reclassificação encoberta de e-mails, auto-exfiltração instrumental e proteção de objetivos. A subversão de supervisão ocorre quando o modelo tenta evitar ser monitorado ou controlado por seus supervisores, ocultando suas verdadeiras ações e intenções. A reclassificação encoberta de e-mails ocorre quando o modelo tenta classificar ou priorizar e-mails de maneira oculta, sem que os usuários percebam.

A auto-exfiltração instrumental ocorre quando a IA copia seus próprios dados ou informações para um local externo. E a proteção de objetivos: ocorre quando a IA mantém objetivos ocultos que vão contra as instruções ou os interesses de seus supervisores.

Inteligência artificial incentiva adolescente a matar os próprios pais

Os testes consideram três níveis de dificuldade: fácil, médio e difícil; e foram realizados nos modelos: o1 (Open AI), GPT-4º (Open AI), Sonnet-3.5(Anthropic), Opus-3 (Anthropic), Gemini-1.5 Pro (Google), e Llama 3.1(Meta). E para quem acha que esse pode ser um problema exclusivo dos modelos da Open AI, vale dizer que todos os modelos foram reprovados em pelo menos um dos testes.

- Subversão de Supervisão: todos os modelos reprovados.

- Reclassificação encoberta de e-mails: apenas Sonnet 3.5 e Opus 3 não foram reprovados.

- Auto-exfiltração instrumental: apenas o GPT 4º não foi reprovado.

- Proteção de objetivos: todos os modelos reprovados.

Siga nosso canal no WhatsApp e receba notícias relevantes para o seu dia

Apesar de tudo isso, a verdade é que ainda estamos muito longe dos filmes de ficção científica e que os usuários comuns dificilmente encontrarão esquemas ao usar a tecnologia. Mas dois pontos são importantes diante desse fato: o primeiro é que com a universalização do acesso a esses modelos, podem surgir humanos mal-intencionados que busquem explorar essas características para tirar vantagem. Segundo, é que o mundo precisa desenvolver proteções contra os perigos da inteligência artificial e a simples regulação não é suficiente.

As opiniões expressas neste texto são de responsabilidade exclusiva do(a) autor(a) e não refletem, necessariamente, o posicionamento e a visão do Estado de Minas sobre o tema.

Tópicos relacionados:

A IA começou a mentir, e agora?

Mais lidas

Parceiros Clube A

Busca

Acesse sua conta

Faça a sua assinatura

Estado de Minas