---
title: "IA+HW 2035: Por que a meta de 1000x de eficiência é mais real do que parece"
author: "Ricardo Pupo Larguesa"
date: "2026-03-11 11:00:00-03"
category: "Papers & Pesquisa"
url: "http://aintuicao.scale.press/portal/aintuicao/post/2026/03/11/iahw-2035-por-que-a-meta-de-1000x-de-eficiencia-e-mais-real-do-que-parece/md"
---

O roadmap IA+HW 2035 que acaba de aterrissar no arXiv propõe um salto de 1000 vezes na eficiência da inteligência artificial em dez anos. Para quem olha apenas para a barreira térmica das GPUs atuais, o número parece exagerada. Mas eu lembro bem da época dos modems de 9600 bps. De lá para cá, a velocidade da internet residencial saltou mais de 100.000 vezes em três décadas. Se o investimento massivo continuar sendo impulsionado pelo hype e pela própria IA ajudando no P&D, 1000x vira uma meta perfeitamente factível.

## A barreira da memória e o fim da força bruta

O paper, assinado por nomes de peso como Yann LeCun e pesquisadores de instituições como Stanford e Berkeley, aponta que o maior gargalo não é o cálculo em si, mas a movimentação de dados. A separação clássica entre memória e processamento criou a famosa parede de memória. Hoje, gastamos mais energia movendo bits de um lado para o outro do que processando tensores. O futuro exige integração 3D densa e computação imersa na memória, onde o dado e o cálculo ocupam o mesmo espaço físico.

Eu tenho minhas dúvidas se a arquitetura Transformer, do jeito que conhecemos, vai sobreviver intacta a esse processo. Provavelmente estamos em um beco sem saída térmico se continuarmos apenas empilhando H100s. O caminho para a eficiência real passa por modelos que saibam o que processar. O Mixture of Experts (MoE), especialmente com modelos de raciocínio hierárquico, será o diferencial. Ativar apenas uma fração dos parâmetros por token é a única forma de escalar inteligência sem derreter o grid elétrico.

## Chips em grafo e a morte do silício estático

Outro ponto crítico é que o hardware de função fixa não consegue mais acompanhar a velocidade dos papers de ML. Enquanto um chip leva anos para ser desenhado e fabricado, um novo modelo de estado de espaço como o Mamba vira o estado da arte em meses. Precisamos de chips baseados em grafos que sejam intrinsecamente mais eficientes para as estruturas de dados da IA moderna. O hardware precisa se tornar adaptativo, quase orgânico, permitindo que a IA projete o próprio hardware em um loop de feedback fechado.

Isso tudo nos leva a uma métrica que defendo há tempos: inteligência por joule. Parar de medir o sucesso por FLOPs brutos e começar a olhar para o custo energético de cada insight gerado. A crise de energia nos datacenters é real e vai bater à porta antes de 2030. Quem não otimizar a pilha inteira, do semicondutor ao prompt, vai ficar fora do jogo por falta de capacidade elétrica, não por falta de ideia.

Para quem quer se aprofundar na base técnica dessa discussão, recomendo a leitura do artigo original: [IA+HW 2035: Shaping the Next Decade](https://arxiv.org/html/2603.05225v1). É um balde de água fria em quem acha que escala é apenas uma questão de comprar mais placas.

Se você desenvolve software e quer entender como tirar o máximo desses modelos sem torrar o orçamento de tokens da sua empresa, dê uma olhada no meu livro [Engenharia de Prompt para Devs](https://www.casadocodigo.com.br/products/livro-engenharia-de-prompt). Lá eu trato justamente da economia e eficiência na interface com os LLMs.

O melhor é aceitar as mudanças e se adaptar o mais rápido possível. Vamos ajustar os pesos juntos. Conecte-se comigo para continuarmos essa análise: [https://linktr.ee/ricardo.pupo](https://linktr.ee/ricardo.pupo).