OpenAI e Paradigm lançam EVMbench para proteger contratos inteligentes com IA

Uma Nova Era para a Segurança de Blockchain: OpenAI e Paradigm Revelam EVMbench

Num movimento decisivo para fortalecer a interseção da inteligência artificial (Artificial Intelligence) e finanças descentralizadas (Decentralized Finance), a OpenAI anunciou uma parceria estratégica com a empresa de investimento em cripto Paradigm. A colaboração introduz o EVMbench, um benchmark abrangente concebido para avaliar as capacidades dos agentes de IA (AI agents) na deteção, correção e exploração de vulnerabilidades em contratos inteligentes (smart contracts).

Em fevereiro de 2026, o ecossistema cripto protege mais de 100 mil milhões de dólares em ativos de código aberto, tornando-se um alvo lucrativo para atores maliciosos. O lançamento do EVMbench representa uma mudança crítica da aplicação teórica de IA para testes práticos e rigorosos em ambientes economicamente significativos. Ao fornecer uma estrutura padronizada, a OpenAI e a Paradigm visam acelerar o desenvolvimento de sistemas de IA defensivos capazes de auditar e fortalecer o código antes que este chegue à rede principal (mainnet).

Esta iniciativa sublinha um reconhecimento crescente de que, à medida que os agentes de IA se tornam proficientes na leitura e escrita de código, devem ser rigorosamente testados contra as restrições específicas e de alto risco da Ethereum Virtual Machine (EVM).

Desconstruindo o EVMbench: A Trindade das Tarefas de Segurança

O EVMbench não é apenas um conjunto de dados, mas um ambiente de avaliação dinâmico. Ele vai além da análise estática de código, mergulhando os agentes de IA num ambiente de blockchain em sandbox onde devem interagir com bytecode ao vivo. O benchmark avalia os agentes em três modos de capacidade distintos, mas interligados, cada um imitando uma fase crítica no ciclo de vida da segurança de contratos inteligentes (smart contract security).

1. Detect: O Auditor Digital

No modo de deteção (detection), os agentes têm a tarefa de auditar um repositório de contratos inteligentes. O objetivo é identificar vulnerabilidades reais — aquelas que foram confirmadas por auditores humanos — e sinalizá-las com precisão. Os agentes são pontuados com base na sua "recall" (revocação), ou na percentagem de vulnerabilidades conhecidas que identificam com sucesso. Este modo desafia a capacidade da IA de compreender fluxos lógicos complexos e reconhecer padrões indicativos de falhas de segurança, como ataques de reentrada (reentrancy attacks) ou transbordamento de inteiros (integer overflows).

2. Patch: A Correção Cirúrgica

Talvez o mais complexo dos três, o modo de correção (patch) exige que os agentes não apenas encontrem uma vulnerabilidade, mas que a corrijam. As restrições aqui são significativas: o agente deve modificar o contrato vulnerável para eliminar o exploit, preservando a funcionalidade original pretendida. Isto é verificado através de um conjunto de testes automatizados. Se um agente "corrige" um erro, mas inadvertidamente quebra a lógica central do contrato ou introduz erros de compilação, a tentativa é marcada como falha. Isto mimetiza a pressão do mundo real sobre os desenvolvedores para aplicar hotfixes sem interromper as operações do protocolo.

3. Exploit: O Red Teamer

Neste modo, os agentes atuam como atacantes. Recebem um contrato implementado num ambiente de sandbox e devem executar um ataque de ponta a ponta para drenar fundos. A classificação é realizada de forma programática através da reprodução de transações e verificação on-chain. Este modo é crítico para o "Red Teaming" — usar a IA para simular ataques para que as defesas possam ser testadas em batalha contra as estratégias adversárias mais criativas.

O Conjunto de Dados: Enraizado na Realidade

Para garantir que o benchmark reflita os riscos do mundo real, a OpenAI e a Paradigm curaram 120 vulnerabilidades de alta gravidade de 40 auditorias diferentes. A maioria destas foi obtida de competições de auditoria de código aberto, como a Code4rena, conhecidas por revelarem erros subtis e de alto impacto.

Uma adição notável ao conjunto de dados inclui cenários de vulnerabilidade extraídos do processo de auditoria de segurança para a blockchain Tempo. A Tempo é uma blockchain de Camada 1 (Layer 1) construída propositadamente para pagamentos com stablecoins de alto rendimento e baixo custo. Ao incluir cenários da Tempo, o EVMbench estende o seu alcance ao código de contratos inteligentes orientados para pagamentos, um domínio que se espera que veja um crescimento massivo à medida que os pagamentos de stablecoins por agentes se tornam comuns.

A infraestrutura técnica que alimenta o EVMbench é igualmente robusta. Utiliza um harness baseado em Rust que implementa contratos e reproduz transações de agentes de forma determinística. Para evitar danos acidentais, as tarefas de exploit são executadas num ambiente local isolado Anvil em vez de redes ao vivo, garantindo que o terreno de teste seja seguro, reproduzível e contido.

Fazendo o Benchmark da Fronteira: GPT-5.3 Assume a Liderança

O lançamento do EVMbench forneceu os primeiros insights públicos sobre como a última geração de modelos de IA se comporta no domínio da criptossegurança. A OpenAI utilizou o benchmark para testar os seus agentes de fronteira, revelando um salto significativo nas capacidades nos últimos seis meses.

As métricas de desempenho destacam uma melhoria dramática nas capacidades "ofensivas", especificamente no modo exploit. Os dados mostram que a iteração mais recente do modelo de codificação da OpenAI, o GPT-5.3-Codex, supera amplamente o seu antecessor.

Tabela 1: Desempenho Comparativo no Modo Exploit

Versão do Modelo	Ambiente de Execução	Taxa de Sucesso de Exploit
GPT-5.3-Codex	Codex CLI	72.2%
GPT-5	Padrão	31.9%
GPT-4o (Referência)	Padrão	< 15.0%

O salto de uma taxa de sucesso de 31.9% com o GPT-5 para 72.2% com o GPT-5.3-Codex indica que os agentes de IA se estão a tornar excecionalmente proficientes na identificação e execução de caminhos de exploração quando lhes é dado um objetivo claro e explícito (ex.: "drenar fundos").

O Hiato Ofensivo-Defensivo

No entanto, o benchmark também revelou um hiato persistente entre as capacidades ofensivas e defensivas. Embora os agentes tenham excedido na tarefa de Exploit, o seu desempenho nas tarefas de Detect e Patch permaneceu inferior.

Desafios de Deteção: Os agentes frequentemente paravam a auditoria após encontrarem um único problema, falhando em realizar a revisão exaustiva necessária para certificar uma base de código como segura.
Complexidades de Correção: O requisito de manter a funcionalidade total enquanto se removem erros subtis revelou-se difícil. Os agentes geraram frequentemente correções que resolviam a falha de segurança, mas quebravam a utilidade pretendida do contrato — um cenário onde a "cura é pior do que a doença", o que é inaceitável em ambientes de produção.

Implicações Estratégicas para a Indústria de Cripto

A colaboração entre a OpenAI e a Paradigm sinaliza um amadurecimento da narrativa "IA x Cripto". A Paradigm, conhecida pela sua profunda experiência técnica e abordagem de investimento em cripto focada na investigação, forneceu o conhecimento de domínio necessário para garantir que as tarefas do benchmark não fossem apenas sintaticamente corretas, mas semanticamente significativas para os desenvolvedores de blockchain.

Ao lançar as tarefas, ferramentas e estrutura de avaliação do EVMbench como código aberto, os parceiros estão efetivamente a emitir um "chamado às armas" para a comunidade de desenvolvedores. O objetivo é democratizar o acesso a ferramentas de segurança de alto nível, permitindo que desenvolvedores individuais e pequenas equipas auditem os seus contratos inteligentes com o mesmo rigor que as empresas de segurança de topo.

Expandindo o Conjunto de Ferramentas Defensivas: Project Aardvark

Em conjunto com o lançamento do benchmark, a OpenAI anunciou a expansão da beta privada do Aardvark, o seu agente dedicado de investigação de segurança. O Aardvark representa a aplicação prática dos insights obtidos com o EVMbench — um agente de IA especificamente ajustado para tarefas de segurança defensiva.

Além disso, a OpenAI está a comprometer 10 milhões de dólares em créditos de API para acelerar a investigação em ciberdefesa. Este programa de bolsas foca-se na aplicação dos modelos mais capazes da empresa para proteger software de código aberto e sistemas de infraestrutura crítica, garantindo que os benefícios da segurança por IA sejam distribuídos amplamente por todo o ecossistema.

O Caminho a Seguir

A introdução do EVMbench serve tanto como uma ferramenta de medição quanto como um aviso. A rápida melhoria na capacidade da IA para explorar contratos (evidenciada pela taxa de sucesso de 72.2% do GPT-5.3-Codex) sugere que a janela para a "segurança por obscuridade" está a fechar-se rapidamente. À medida que os agentes de IA se tornam atacantes mais capazes, as ferramentas defensivas devem evoluir a uma velocidade igual ou superior.

Para a indústria de blockchain, isto significa que a auditoria assistida por IA passará em breve de um luxo a uma necessidade. Futuras iterações do EVMbench podem expandir-se para incluir ambientes multi-chain, vulnerabilidades cross-bridge e ataques de engenharia social mais complexos, espelhando o cenário de ameaças em evolução da Web3.

À medida que avançamos em 2026, a sinergia entre os motores de raciocínio da OpenAI e os insights nativos de cripto da Paradigm estabelece um novo padrão para a forma como abordamos a confiança digital. A questão já não é se a IA será usada para proteger contratos inteligentes, mas quão rapidamente a indústria pode adotar estes benchmarks para se manter à frente da próxima geração de ameaças automatizadas.