---
title: "O Paradoxo do Raciocínio: Por que Modelos Omni Estão Ficando Míopes"
author: "Ricardo Pupo Larguesa"
date: "2026-03-02 09:11:00-03"
category: "Papers & Pesquisa"
url: "http://aintuicao.scale.press/portal/aintuicao/post/2026/03/02/o-paradoxo-do-raciocinio-por-que-modelos-omni-estao-ficando-miopes/md"
---

O hype dos modelos omni, aqueles que prometem processar áudio, visão e texto em um único backbone unificado, está batendo em um teto de vidro técnico bastante irônico. Estamos tentando forçar a transição da percepção pura, o Sistema 1, para o raciocínio deliberativo, o Sistema 2, mas o custo disso tem sido a sanidade sensorial do modelo. Eu tenho dito que a IA não precisa de mais parâmetros, ela precisa de melhores formas de gerir a atenção, e os papers desta semana confirmam essa tese.

O relatório do [MERaLiON2-Omni (Alpha)](https://arxiv.org/html/2602.23730v1), focado na região do Sudeste Asiático, expõe o que eles chamam de Paradoxo Eficiência-Estabilidade. Ao injetar capacidades de raciocínio via dados sintéticos, o modelo melhora significativamente em lógica abstrata e matemática, mas começa a falhar em tarefas perceptuais básicas. É o que os autores descrevem como Superinterpretação Visual: a pressão para ser lógico faz o modelo inventar narrativas complexas para um raio-X que simplesmente não estão nos pixels, apenas para satisfazer sua estrutura interna de raciocínio.

## O fantasma do desvio temporal e a reciclagem de falhas

Outro ponto crítico levantado é o Desvio Temporal no áudio. Quando o modelo entra em uma sequência longa de Chain-of-Thought (CoT), ele consome tantos tokens de 'pensamento' que acaba se dessincronizando dos carimbos de tempo acústicos. Em áudios com mais de 30 segundos, o desempenho despenca porque a deliberação interna 'apaga' a memória imediata do som. É o tipo de gargalo que enfrentamos quando desenhamos arquiteturas de agentes multimodais: o excesso de deliberação pode ser tão prejudicial quanto a falta dela.

Para tentar resolver a ineficiência do treinamento desses modelos, o paper do [SCOPE (Correction Step-by-Step for On-Policy Exploration)](https://arxiv.org/html/2602.24110v1) traz uma proposta de engenharia de gente grande. No RLVR (Reinforcement Learning from Verifiable Rewards) padrão, se o modelo erra um passo intermediário de uma conta matemática, a trajetória inteira é descartada. O SCOPE recicla os prefixos corretos e retifica apenas o primeiro erro usando um modelo professor off-policy, o que aumentou a diversidade de exploração em 13,5% e a precisão em tarefas fora da distribuição.

## Simplicidade agêntica vs. obesidade de software

Enquanto muitos tentam resolver a prova de teoremas com arquiteturas monstruosas, o projeto [AxProverBase](https://arxiv.org/html/2602.24273v1) propõe um caminho minimalista. Eles provaram que um agente simples, focado em refinamento iterativo e memória de contexto, consegue superar sistemas complexos que exigem infraestrutura massiva. Isso ressoa muito com o que defendo no meu livro [Engenharia de Prompt para Devs](https://www.casadocodigo.com.br/products/livro-engenharia-de-prompt): a inteligência muitas vezes reside na estrutura do fluxo e na gestão da memória, não apenas no tamanho do modelo base.

No fim das contas, a pesquisa está nos mostrando que o raciocínio não é um 'add-on' gratuito. Existe uma compensação real entre o tempo gasto pensando e a fidelidade ao que está sendo percebido no mundo real. O próximo grande salto não virá de modelos que pensam mais, mas de modelos que sabem quando parar de pensar e apenas observar. Vamos ajustar os pesos juntos.

Conecte-se comigo para acompanhar mais análises: [https://linktr.ee/ricardo.pupo](https://linktr.ee/ricardo.pupo).