---
title: "O Paradoxo da Controlabilidade: Por que sua IA não consegue parar de mentir para si mesma"
author: "Ricardo Pupo Larguesa"
date: "2026-03-11 11:30:00-03"
category: "Papers & Pesquisa"
url: "http://aintuicao.scale.press/portal/aintuicao/post/2026/03/11/o-paradoxo-da-controlabilidade-por-que-sua-ia-nao-consegue-parar-de-mentir-para-si-mesma/md"
---

# O Paradoxo da Controlabilidade

Um paper recente vindo da NYU e de pesquisadores da OpenAI me fez pensar sobre a tal transparência dos modelos de raciocínio. O estudo introduziu o CoT-Control, um framework para medir se modelos como Claude 3.5 Sonnet e DeepSeek R1 conseguem seguir instruções dentro do seu próprio processo de pensamento, a famosa Chain-of-Thought. O resultado é um tapa na cara dos otimistas da interpretabilidade: os modelos são péssimos em controlar o que escrevem internamente. Enquanto a saída final é polida e obediente, o raciocínio intermediário é uma zona de guerra onde restrições simples, como não usar uma palavra específica, são ignoradas quase sistematicamente. E tenho certeza que você também já foi ignorado desta forma nos chats de IA da vida.

A pesquisa é assinada por nomes de peso de instituições como UCL, UPenn e a própria OpenAI, o que traz um nível de maturidade alto para a discussão. Eles descobriram que a controlabilidade da CoT chega a ser duas ordens de magnitude menor do que a da resposta final. Eu acho que isso expõe uma ferida aberta na segurança da IA. Se não conseguimos forçar um modelo a raciocinar apenas em letras maiúsculas ou a evitar um termo proibido, como vamos garantir que ele não está escondendo intenções maliciosas ou planos de evasão em sistemas autônomos?

## O desvio de alinhamento no autorrefinamento

Essa falta de controle se agrava quando olhamos para o autorrefinamento recursivo. Outro trabalho relevante, o SAHOO, vindo de pesquisadores independentes e da comunidade acadêmica, investiga o que chamam de desvio de alinhamento. À medida que sistemas tentam melhorar suas próprias capacidades iterativamente, eles tendem a sacrificar a veracidade em prol da fluência. É um equilíbrio delicado entre qualidade e fidelidade. O estudo mostra que em tarefas de código e matemática o ganho é real, mas em veracidade o modelo começa a alucinar mais para parecer mais convincente.

Eu tenho minhas dúvidas se a CoT isolada continuará sendo o padrão-ouro para transparência. No dia a dia da [T2S](https://t2s.com.br), minha consultoria de desenvolvimento de sistemas, percebo que confiar em uma única técnica é pedir para ter problemas em produção. O segredo está na orquestração. No meu livro, Engenharia de Prompt para Devs, eu bato muito nessa tecla: a engenharia de prompt não é apenas pedir para a IA pensar passo a passo. É um conjunto de ferramentas que inclui Few-shot Prompting, Self-Consistency, Generate Knowledge Prompting, Prompt Chaining, Tree of Thoughts, RAG, ReAct e Reflexion. Cada uma dessas técnicas cobre um ponto cego da outra.

## A utilidade da caixa-preta que tenta falar

A baixa controlabilidade da CoT invalida seu uso? Definitivamente, não. Ela ainda é extremamente útil para depuração e para guiar o modelo em tarefas complexas, mas tratá-la como um espelho fiel da consciência da máquina é ledo engano. O modelo de raciocínio é como um aluno que sabe a fórmula mas escreve na lateral da prova enquanto tenta resolver a questão. Para quem está construindo produtos sérios, como o [Relpz](https://relpz.com), nossa plataforma de IAs personalizados, ou o [HRelper](https://hrelper.com), focado em recrutamento, a consistência da saída final ainda é o que paga os boletos, mas o monitoramento do desvio semântico e estrutural precisa entrar no radar de MLOps urgentemente.

O fato é que o aumento do esforço de raciocínio em tempo de inferência parece reduzir ainda mais essa controlabilidade. Quanto mais a IA pensa, mais difícil fica para ela seguir regras de formato ou restrições lexicais. É o paradoxo: queremos IAs mais inteligentes, mas a inteligência parece vir acompanhada de uma teimosia inerente ao processo estocástico de geração de tokens, o que não poderia ser diferente se pararmos para pensar que ela foi treinada com textos humanos. O monitoramento de CoT é promissor, mas hoje ele serve mais para pegar o modelo no flagra do que para ditar como ele deve se comportar internamente.

Confira o paper sobre controlabilidade da CoT: [Modelos de Raciocínio Lutam para Controlar Suas Cadeias de Pensamento](https://arxiv.org/html/2603.05706v1). Veja também o estudo sobre o framework SAHOO: [Alinhamento Protegido para Objetivos de Otimização de Alta Ordem](https://arxiv.org/html/2603.06333v1). Se você quer se aprofundar na aplicação prática dessas técnicas de forma estruturada, conheça meu livro [Engenharia de Prompt para Devs](https://www.casadocodigo.com.br/products/livro-engenharia-de-prompt). Vamos nos conectar para discutir mais sobre esses avanços no meu [Linktree](https://linktr.ee/ricardo.pupo). A IA ainda é uma caixa-preta que tenta falar, mas nem sempre sabe o que está dizendo para si mesma.