---
title: "Best-of-K: O fim da alquimia na decodificação de LLMs e o futuro do RAG"
author: "Ricardo Pupo Larguesa"
date: "2026-02-26 10:00:00-03"
category: "Na Prática"
url: "http://aintuicao.scale.press/portal/aintuicao/post/2026/02/26/best-of-k-o-fim-da-alquimia-na-decodificacao-de-llms-e-o-futuro-do-rag/md"
---

Sempre me incomodou como a decodificação em LLMs é tratada como um livro de receitas místico. Você ajusta a temperatura, mexe no Top-P, chuta um Top-K e torce para o resultado não alucinar. É uma abordagem que parece desconectada do rigor matemático do resto do pipeline de Machine Learning.

Um novo paper vindo de pesquisadores da Arábia Saudita e Reino Unido, [Decodificação como Otimização no Simplex de Probabilidade](https://arxiv.org/html/2602.18292v1), finalmente coloca ordem na casa. Eles provam que todas essas heurísticas são, na verdade, casos especiais de um único problema de otimização sobre o simplex de probabilidade. Mas o que realmente me chamou a atenção foi a introdução do Best-of-K (BoK).

## O Simplex não é um truque

A ideia central é que o decodificador não escolhe um token, ele escolhe uma distribuição. Ao ver a decodificação como uma otimização regularizada, percebemos que o Softmax (amostragem por temperatura) nada mais é do que a solução para um problema de maximização de pontuação regularizado pela entropia de Shannon. Onde o bicho pega é quando precisamos de múltiplas respostas para um mesmo prompt, como em sistemas de RAG que usam re-ranqueamento ou auto-consistência.

A amostragem padrão é ineficiente aqui porque ela gasta orçamento repetindo tokens de alta probabilidade que você já viu. O Best-of-K muda o objetivo: ele otimiza a probabilidade de um token útil aparecer pelo menos uma vez em K amostras. Matematicamente, ele maximiza uma utilidade de cobertura ponderada. Isso força o modelo a explorar alternativas plausíveis sem se perder em alucinações de cauda longa.

## Implementação via Ascensão de Espelho

Para quem está no código, o desafio é que o BoK não tem uma solução de forma fechada bonitinha como o Softmax. A solução é usar a Ascensão de Espelho (Mirror Ascent). Em vez de uma projeção euclidiana pura que ignoraria a geometria das distribuições, a Ascensão de Espelho usa a divergência de Kullback-Leibler para garantir que cada passo de otimização respeite o simplex.

Nos testes do paper com o Qwen 2.5, os ganhos foram enormes em temperaturas altas. No benchmark MATH500, a precisão saltou de 53% para mais de 71%. O custo? Apenas 5 passos de iteração por token, o que adiciona cerca de um segundo no tempo total de geração, se for um modelo d eaixa latência. Para qualquer pipeline de RAG sério onde a precisão da resposta final depende de ter boas candidatas para um verificador, o BoK pode se tornar o novo padrão.

Na [T2S](http://t2s.com.br), frequentemente lidamos com situações em que tentam resolver problemas de precisão apenas com engenharia de prompt pesada, quando o gargalo real está na estratégia de decodificação do modelo. Entender que a decodificação é otimização muda o jogo do desenvolvimento de produtos com IA.

Se você quer aprofundar na mecânica de como guiar esses modelos, meu livro [Engenharia de Prompt para Devs](https://www.casadocodigo.com.br/products/livro-engenharia-de-prompt) explora justamente como extrair o máximo de performance dessas arquiteturas.

Vamos parar de chutar parâmetros e começar a otimizar o que importa. Conecte-se comigo para discutirmos como aplicar isso na sua stack: [https://linktr.ee/ricardo.pupo](https://linktr.ee/ricardo.pupo).