---
title: "O Fim dos Prompts Gigantes? Como a Recuperação Dinâmica de Instruções (ITR) Pode Reduzir Custos em 70%"
author: "Ricardo Pupo Larguesa"
date: "2026-02-21 08:44:00-03"
category: "Papers & Pesquisa"
url: "http://aintuicao.scale.press/portal/aintuicao/post/2026/02/21/o-fim-dos-prompts-gigantes-como-a-recuperacao-dinamica-de-instrucoes-itr-pode-reduzir-custos-em-70/md"
---

## A dor do prompt que nunca acaba

Quem já colocou um agente de LLM para rodar em produção conhece a dor. A cada passo, a cada interação, lá vai o sistema inteiro de novo: o prompt com as instruções de persona, as regras de segurança, as diretrizes de formato e, o pior de tudo, um catálogo gigantesco com dezenas ou centenas de ferramentas disponíveis. O resultado? Latência alta e um custo que escala de forma assustadora, com 90% dos tokens sendo apenas repetição de contexto estático.

Um paper recente, "[Instruction and Tool Retrieval (ITR)](https://arxiv.org/html/2602.17046v1)", coloca o dedo nessa ferida e propõe uma solução que, de tão óbvia, chega a ser brilhante. Em vez de um prompt monolítico, eles sugerem tratar as instruções e ferramentas como um corpus de conhecimento. A cada passo do agente, um sistema de RAG (Retrieval-Augmented Generation) entra em ação para buscar apenas os trechos de instrução e as ferramentas relevantes para aquele contexto específico. O restante é ignorado.

Os números que eles apresentam são expressivos: redução de até 95% nos tokens de contexto por etapa, melhoria de 32% na precisão da escolha de ferramentas e, no final do ciclo, uma economia de custos de 70%. Parece bom demais, mas a lógica é sólida.

## Isso já não fazemos?

A ideia não é exatamente uma novidade para quem está no campo de batalha, mas o paper a formaliza e quantifica de maneira rigorosa. Na prática, é um conceito que já aplicamos em alguns projetos, como na nossa plataforma [Relpz](http://relpz.com), onde criamos IAs personalizadas. Lá, nós geramos embeddings das ferramentas disponíveis e, na hora de montar o prompt para o LLM, embutimos dinamicamente apenas aquelas que fazem sentido semântico com a requisição do usuário.

É um detalhe de arquitetura relativamente simples de implementar, com baixa latência, e que traz resultados excelentes na economia de tokens. Porém, como sempre, há um porém. A abordagem herda as fraquezas do RAG. Uma busca semântica pode falhar em recuperar a ferramenta correta por um simples erro de digitação do usuário ou pelo uso de um vocabulário mais improvável, como gírias e sinônimos incomuns. A robustez do sistema depende da qualidade do recuperador.

## ITR vs. Abstração de Habilidades

Achei interessante contrastar a abordagem do ITR com a de outro paper, o "[IntentCUA: Learning Intent-level Representations for Skill Abstraction and Multi-Agent Planning in Computer-Use Agents](https://arxiv.org/abs/2602.17049)". Enquanto o ITR foca na otimização do **contexto do prompt** a cada passo, o IntentCUA ataca um problema de nível mais alto: a otimização do **plano de ação** do agente. A proposta deles é analisar traços de interação do usuário para abstrair ações recorrentes em "habilidades" ou "intenções" reutilizáveis.

Em vez de o agente planejar do zero como "abrir o navegador, ir para o site X, clicar no campo Y", ele poderia simplesmente invocar a habilidade "pesquisar_preço_produto". Isso evita que o agente se perca em tarefas longas ou execute passos redundantes.

As duas abordagens não são excludentes. Pelo contrário, parecem complementares. Um agente sofisticado poderia usar o IntentCUA para traçar um plano de alto nível baseado em habilidades e, para executar cada habilidade, usar o ITR para carregar apenas as ferramentas e instruções estritamente necessárias.

## A Engenharia de Meta-Prompt

Isso nos leva a uma conclusão importante sobre para onde o mercado está caminhando. A engenharia de prompt está evoluindo de uma arte de escrever o texto perfeito para uma disciplina de arquitetura de sistemas. O foco está se deslocando da criação de um prompt único e gigantesco para o design de sistemas que gerenciam, recuperam e compõem prompts dinamicamente.

É o que eu chamo de **engenharia de contexto**. O desafio não é mais apenas o que dizer ao LLM, mas como construir o pipeline que decide o que dizer, quando dizer e com qual granularidade. Esse é um dos tópicos centrais que abordo no meu livro, [Engenharia de Prompt para Devs](https://www.casadocodigo.com.br/products/livro-engenharia-de-prompt), pois é essa camada de abstração que separa os sistemas de IA de brinquedo das soluções de produção.

A engenharia de prompt está virando engenharia de sistemas. E já estava na hora.

**Quer continuar essa conversa?** Me encontre nas minhas redes sociais através do meu [Linktree](https://linktr.ee/ricardo.pupo).