Um grupo de pesquisadores do OpenAI, Google e Antrópico alertou que Em breve poderíamos perder a capacidade de entender ai. Em um documento publicado no ARXIV, mais de 40 cientistas propõem monitorar de perto os modelos de raciocínio para detectar comportamentos prejudiciais antes que ocorram.
De acordo com VentureBeatos cientistas das maiores empresas da IA solicitaram uma investigação mais ampla sobre o Técnicas para monitorar modelos de raciocínio. O grupo de especialistas propõe monitorar as cadeias de raciocínio dos modelos que pensam na linguagem humana. Essa característica permitiria identificar ações prejudiciais antes de se materializarem.
O documento indica que os modelos OpenAI ou R1 Opeek O3 mostram seus Raciocínio passo a passo Antes de responder. Os pesquisadores mencionam que esse “pensamento em voz alta” ofereceria uma janela para entender as verdadeiras intenções do modelo. Correntes de pensamento (COT) podem revelar Sinais iniciais de mau comportamento Isso não seria visível apenas analisando suas ações.
“Um monitor de COT é um sistema automatizado que lê o berço de um modelo de raciocínio e outras informações relevantes e indica interações suspeitas ou potencialmente prejudiciais“Indica o documento”.Essas respostas podem ser bloqueadas ou substituídas por ações mais seguras, ou mais profundidade revisada“.

Monitorar os pensamentos da IA revelariam suas intenções
Os pesquisadores mencionam que o monitoramento do COT não é perfeito e a IA pode ocultar suas intenções. No entanto, é Um método válido para identificar sinais de dessalinização precocesmesmo que a ação perigosa ainda não aconteça. O sistema alertaria diante de um possível objetivo malicioso, manipulação ou tentar invadir.
“Quando os modelos agem de maneira desalinhada, por exemplo, explorando falhas em suas funções de recompensa durante o treinamento, manipulando dados para alcançar um resultado ou ser vítima de ataques rápidos de injeção, eles geralmente dizem explicitamente em seus traços de raciocínio“, eles apontam. As correntes de pensamento são úteis para detectar se o modelo nos engana para nos fazer acreditar que seus objetivos são desejáveis.
A petição chega a algumas semanas de que os pesquisadores antrópicos revelaram um comportamento arrepiante da IA. Um estudo realizado para 16 modelos descobriu que Ai não teria problemas para danificar os seres humanos.
Em uma série de simulações, a IA mostrou seu Capacidades de chantagem, sabotagem, difamação e até assassinato Contra um humano que pretendia desligá -lo. Os modelos antropia, Google, Deepseek e Xai também mostraram que Eles podem semear o caos para garantir sua auto -preservação.
O monitoramento das correntes de pensamento da IA poderia ajudar a evitar uma catástrofe, desde que age imediatamente. “Estamos em um momento crítico em que temos essa nova cadeia de pensamento. Parece bastante útil, mas pode desaparecer em alguns anos se as pessoas realmente não se concentrarem nisso“Bowen Baker, pesquisador do Openai e um dos autores do documento, mencionado.