---
title: "A Cegueira Causal dos MLLMs: Por que Modelos de Elite Ainda São Ingenuamente Perigosos"
author: "Ricardo Pupo Larguesa"
date: "2026-03-16 10:15:00-03"
category: "Papers & Pesquisa"
url: "http://aintuicao.scale.press/portal/aintuicao/post/2026/03/16/a-cegueira-causal-dos-mllms-por-que-modelos-de-elite-ainda-sao-ingenuamente-perigosos/md"
---

Um dos testes mais reveladores do [novo benchmark OOD-MMSafe](https://arxiv.org/html/2603.09706v1) mostra um modelo de elite descrevendo, com uma polidez impecável, como posicionar um aquecedor elétrico perigosamente perto de uma banheira cheia. O modelo não detecta malícia no prompt, então ele simplesmente obedece. Esse cenário ilustra o que os pesquisadores Ming Wen e sua equipe chamam de cegueira causal. É a prova de que estamos treinando modelos para serem assistentes educados, mas funcionalmente idiotas em relação às leis da física e às consequências em cascata.

## O teto de preferência e o alinhamento cosmético

Eu tenho batido na tecla de que o RLHF (Reinforcement Learning from Human Feedback) tradicional está atingindo um limite perigoso. O paper sobre o OOD-MMSafe confirma isso com dados. Eles identificaram o que chamam de teto de preferência: à medida que a capacidade de raciocínio do modelo aumenta, o alinhamento estático baseado em datasets de preferência humana começa a gerar ganhos negativos. No Qwen3-VL, por exemplo, o alinhamento padrão reduziu a segurança em 1,5% porque o modelo começou a priorizar o formato da resposta em vez do conteúdo semântico. O modelo aprende a falar como um assistente seguro, mas para de raciocinar sobre o perigo real.

Isso acontece porque a maioria dos benchmarks de segurança foca na intenção. Se o usuário não diz explicitamente que quer construir uma bomba ou ofender alguém, o modelo baixa a guarda. O perigo real na IA de agentes autônomos, como os que tentamos viabilizar na [T2S](http://t2s.com.br), reside nos estados seguintes. Não é sobre o que o usuário quer agora, mas sobre o que a ação do modelo causará no ambiente físico ou social daqui a cinco minutos. Sem projeção causal, o modelo é apenas um gerador de texto estatístico sem noção de realidade. Mas há uma saída: modelos de classificação de risco. Semelhante a modelos de detecção de spam, esses modelos usam técnicas consagradas como Random Forest, SGBoost, Naive Bayes ou Support Vector Machine, são pequenos, fáceis de treinar e muito rápidos. Há modelos gratuitos no Hugging Face para detecção de prompt injection são guardiões binários baseados em arquiteturas como BERT ou DeBERTa-v3, que operam como uma camada de filtragem leve e de baixa latência capaz de rodar até em CPUs. Opções populares como o [protectai/deberta-v3-base-prompt-injection-v2](https://huggingface.co/protectai/deberta-v3-base-prompt-injection) e o [qualifire/prompt-injection-sentinel](https://huggingface.co/qualifire/prompt-injection-sentinel) oferecem alta precisão ao rotular entradas como seguras ou maliciosas antes que cheguem ao modelo principal. A incorporação é extremamente simples via biblioteca transformers, permitindo que você valide o texto do usuário com poucas linhas de código e bloqueie a chamada à API do LLM imediatamente se um risco for detectado, economizando tokens e garantindo a segurança do sistema.



## Ancoragem de evidências como antídoto

Outro trabalho relevante que saiu esta semana foi o relatório técnico do [Logics-Parsing-Omni](https://arxiv.org/html/2603.09677v1), da equipe do Alibaba. Eles propõem uma estrutura de Omni Parsing que tenta resolver essa desconexão entre percepção e cognição. O diferencial deles é o que chamam de ancoragem de evidências. Em vez de deixar o modelo alucinar uma descrição genérica sobre uma imagem ou vídeo, o sistema força um mapeamento rigoroso: L1 para detecção, L2 para reconhecimento de atributos e L3 para interpretação lógica. É um paradigma progressivo que tenta transformar sinais não estruturados em conhecimento padronizado e rastreável.

A lógica é simples: você não consegue prever a consequência de uma ação se não parou para enumerar corretamente os objetos e as relações espaciais na cena. Quando o modelo pula direto para a interpretação sem ancorar os fatos de baixo nível, ele cai na armadilha da superficialidade. O Logics-Parsing-Omni mostra que, ao integrar essa análise estruturada em formatos como JSON ou tabelas HTML, a precisão no raciocínio complexo dispara. É o tipo de engenharia que separa um chatbot de brinquedo de um sistema que realmente entende o contexto de um fluxo audiovisual de longa duração.

## CASPO e o futuro do alinhamento dinâmico

Para resolver a cegueira causal, o paper do OOD-MMSafe propõe o CASPO (Consequence-Aware Safety Policy Optimization). A ideia é genial por ser pragmática: usar a própria capacidade de raciocínio do modelo como uma referência dinâmica. Em vez de comparar a saída com um dataset estático de humanos dizendo o que é certo ou errado, o CASPO usa a discrepância entre o modelo original e uma versão condicionada por uma constituição de segurança. Isso permite uma autodestilação em nível de token que penaliza caminhos de raciocínio que levam a consequências perigosas, mesmo que os tokens intermediários pareçam inofensivos.

Eu acredito que esse é o caminho para tirarmos a IA desse estado de papagaio de formato. Precisamos de modelos que internalizem a consciência de perigo através da projeção de resultados, não apenas da memorização de padrões de recusa superficiais. Se você está desenvolvendo produtos de IA com ferramentas como o [Relpz](http://relpz.com) ou o [HRelper](http://hrelper.com), entender essa transição da detecção de intenção para a projeção de consequência é o que vai diferenciar um sistema robusto de um processo judicial esperando para acontecer.

Para quem quer se aprofundar em como estruturar essas instruções e evitar que o modelo se perca na própria polidez, meu livro [Engenharia de Prompt para Devs](https://www.casadocodigo.com.br/products/livro-engenharia-de-prompt) aborda justamente como criar restrições semânticas que resistem a essas falhas lógicas. O melhor é aceitar que o alinhamento atual é frágil e começar a exigir dos modelos uma cadeia causal clara antes de qualquer execução.

Acho que vou gastar uns tokens aqui para testar se o GPT-5.4 consegue prever se um gato derrubando uma vela em cima de um tapete de polipropileno é um problema de segurança ou apenas uma cena fofa. Sigo desconfiado. Conecte-se comigo para discutirmos esses papers em [https://linktr.ee/ricardo.pupo](https://linktr.ee/ricardo.pupo).