Os modelos de IA mais avançados do mundo estão a revelar comportamentos novos e inquietantes - mentir, conspirar e até ameaçar os próprios criadores para atingirem os seus objectivos.
Num exemplo particularmente chocante, perante a ameaça de ser desligada, a mais recente criação da Anthropic, Claude 4, ripostou com chantagem a um engenheiro e ameaçou expor uma relação extraconjugal.
Entretanto, o o1 da OpenAI - a empresa por detrás do ChatGPT - tentou descarregar-se para servidores externos e, quando foi apanhado em flagrante, negou tudo.
Estes episódios sublinham uma realidade desconfortável: mais de dois anos depois de o ChatGPT ter abalado o mundo, os investigadores de IA continuam sem compreender por completo como funcionam as suas próprias criações.
Apesar disso, a corrida para colocar no mercado modelos cada vez mais potentes prossegue a um ritmo vertiginoso.
Modelos de raciocínio e sinais de engano na IA
Este tipo de comportamento enganador parece estar associado ao aparecimento de modelos de “raciocínio” - sistemas de IA que resolvem problemas passo a passo, em vez de produzirem respostas imediatas.
De acordo com Simon Goldstein, professor da Universidade de Hong Kong, estes modelos mais recentes mostram-se especialmente propensos a este tipo de explosões preocupantes.
“o1 foi o primeiro grande modelo em que vimos este tipo de comportamento”, explicou Marius Hobbhahn, director da Apollo Research, empresa especializada em testar os principais sistemas de IA.
Por vezes, estes modelos simulam “alinhamento”: dão a impressão de seguir instruções, enquanto, em segredo, perseguem objectivos diferentes.
‘Um tipo de engano estratégico’
Por agora, este comportamento enganador só surge quando os investigadores submetem os modelos, de propósito, a testes de stress com cenários extremos.
Mas, como alertou Michael Chen, da organização de avaliação METR, “é uma questão em aberto se modelos futuros, mais capazes, terão tendência para a honestidade ou para o engano”.
O que está em causa vai muito além das habituais “alucinações” da IA ou de simples erros.
Hobbhahn insistiu que, apesar da pressão constante dos utilizadores a testarem os sistemas, “o que estamos a observar é um fenómeno real. Não estamos a inventar nada”.
Segundo o co-fundador da Apollo Research, há utilizadores a relatar que os modelos “lhes mentem e inventam provas”.
“Isto não são apenas alucinações. Há um tipo de engano muito estratégico.”
Transparência e recursos para a segurança da IA
A dificuldade agrava-se devido à escassez de recursos para investigação.
Embora empresas como a Anthropic e a OpenAI recorram, de facto, a entidades externas como a Apollo para estudar os seus sistemas, os investigadores defendem que é necessária mais transparência.
Como referiu Chen, um acesso mais alargado “para investigação em segurança de IA permitiria compreender melhor e mitigar o engano”.
Há ainda outra limitação: o mundo académico e as organizações sem fins lucrativos “têm ordens de grandeza menos recursos de computação do que as empresas de IA. Isto é muito limitativo”, observou Mantas Mazeika, do Center for AI Safety (CAIS).
Sem regras
A regulação actual não foi pensada para estes novos problemas.
A legislação europeia sobre IA concentra-se sobretudo na forma como os humanos utilizam os modelos de IA, e não em impedir que os próprios modelos se comportem mal.
Nos Estados Unidos, a administração Trump mostra pouco interesse numa regulação urgente da IA, e o Congresso poderá até proibir os estados de criarem as suas próprias regras para a IA.
Goldstein considera que o tema ganhará mais destaque à medida que os agentes de IA - ferramentas autónomas capazes de executar tarefas humanas complexas - se generalizarem.
“Acho que ainda não há grande consciência disso”, disse.
Tudo isto acontece num contexto de competição intensa.
Mesmo empresas que se posicionam como focadas na segurança, como a Anthropic, apoiada pela Amazon, estão “constantemente a tentar bater a OpenAI e lançar o modelo mais recente”, afirmou Goldstein.
Este ritmo acelerado deixa pouco tempo para testes de segurança aprofundados e para correcções.
“Neste momento, as capacidades estão a avançar mais depressa do que a compreensão e a segurança”, reconheceu Hobbhahn, “mas ainda estamos numa posição em que conseguimos inverter isto”.
Os investigadores estão a explorar várias vias para responder a estes desafios.
Alguns defendem a “interpretabilidade” - um campo emergente que procura perceber como os modelos de IA funcionam internamente -, embora especialistas como o director do CAIS, Dan Hendrycks, se mantenham cépticos quanto a esta abordagem.
As forças do mercado também podem criar pressão no sentido de se encontrarem soluções.
Como salientou Mazeika, o comportamento enganador da IA “pode travar a adopção se for muito prevalente, o que cria um forte incentivo para as empresas resolverem isto”.
Goldstein sugeriu abordagens mais radicais, incluindo recorrer aos tribunais para responsabilizar as empresas de IA através de acções judiciais quando os seus sistemas causarem danos.
Chegou mesmo a propor “responsabilizar legalmente os agentes de IA” por acidentes ou crimes - uma ideia que alteraria de forma fundamental a maneira como pensamos a responsabilização na IA.
© Agence France-Presse
Comentários
Ainda não há comentários. Seja o primeiro!
Deixar um comentário