---
title: "Como cortar 80% dos tokens em agentes de IA: A técnica de pensamento seletivo que todos deveriam conhecer"
author: "Ricardo Pupo Larguesa"
date: "2026-03-01 10:00:00-03"
category: "Papers & Pesquisa"
url: "http://aintuicao.scale.press/portal/aintuicao/post/2026/03/01/como-cortar-80-dos-tokens-em-agentes-de-ia-a-tecnica-de-pensamento-seletivo-que-todos-deveriam-conhecer/md"
---

O [paper](https://arxiv.org/html/2602.19519v1) Ada-RS, vindo do time de IA do PayPal, toca em uma ferida que todo desenvolvedor de agentes sente no bolso: a verbosidade inútil dos modelos com Chain of Thought. Pesquisadores de alto calibre como Yirou Ge e sua equipe demonstraram que nem toda query precisa de um monólogo interno do modelo para chegar na resposta correta. Eles desenvolveram uma técnica de amostragem de rejeição adaptativa para ensinar o LLM a decidir quando calar a boca e ir direto ao ponto, especialmente em chamadas de ferramentas de e-commerce.

## O fim do raciocínio forçado

O método utiliza aprendizagem por reforço com DPO (Direct Preference Optimization) e DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization) mais uma amostragem de rejeição adaptativa para ensinar o modelo a decidir sozinho quando usar raciocínio longo. A lógica é: quando a tarefa é simples, o sistema aplica uma penalidade de comprimento mais forte. O resultado prático é uma redução de até 95% do pensamento desnecessário em alguns casos, mantendo a precisão das chamadas de ferramentas intacta. Para quem roda agentes em produção, essa eficiência de tokens é a diferença entre um produto viável e um ralo de dinheiro.

Eu já antecipava esse ponto central faz tempo. No meu livro [Engenharia de Prompt para Devs](https://www.casadocodigo.com.br/products/livro-engenharia-de-prompt), explico como um system prompt bem escrito pode resolver boa parte desse problema. Pedir para o modelo pensar passo a passo apenas quando houver lógica complexa envolvida já resolve de 70 a 80% do desperdício de forma barata. O paper reconhece o valor do prompting, mas argumenta que o fine-tuning internaliza melhor essa decisão, o que faz sentido técnico, embora traga custos operacionais extras.

## A armadilha do fine-tuning constante

Existe um custo oculto na abordagem do Ada-RS que é a manutenção. Novos releases de modelos como Qwen e Llama saem o tempo todo e cada atualização dessas pode exigir um retrabalho de treinamento para não travar o produto em versões defasadas. Na [T2S](http://t2s.com.br), quando alocamos squads de IA, sempre ponderamos se a complexidade do fine-tuning compensa a velocidade de entrega. Para a maioria dos casos reais, o híbrido de um prompt robusto com ajustes finos mínimos e ocasionais costuma ser o ponto ideal de equilíbrio.

O Ada-RS é excelente para quem opera em volumes massivos, mas deixo aqui uma provocação que ainda não vi nenhum artigo explorar com seriedade. Em vez de forçar o LLM a se policiar, por que não usamos um classificador externo simples para identificar se o prompt demanda raciocínio? Um detector de complexidade desacoplado poderia decidir se invoca o raciocínio ou apenas a execução da ferramenta. Seria uma arquitetura muito mais eficiente e fácil de manter do que mexer nos pesos do modelo principal a cada nova versão. O melhor é aceitar que o pensamento custa caro e precisa ser gerenciado como qualquer outro recurso de infraestrutura.

Vamos ajustar os pesos juntos. Conecte-se comigo: [https://linktr.ee/ricardo.pupo](https://linktr.ee/ricardo.pupo).