GPT-5.3-Codex da OpenAI explora contratos inteligentes cripto com 72% de taxa de sucesso em novo benchmark de segurança

Vantagem Ofensiva da IA: GPT-5.3-Codex Domina Novo Benchmark de Segurança de Cripto

Em uma revelação que demonstra simultaneamente o avanço impressionante da inteligência artificial e expõe uma vulnerabilidade crítica no ecossistema de finanças descentralizadas (DeFi — Decentralized Finance), a OpenAI revelou o EVMbench, um novo framework de testes abrangente projetado para avaliar as capacidades de agentes de IA na segurança de blockchain. Os resultados do benchmark inaugural são tão impressionantes quanto inquietantes: o modelo especializado mais recente da OpenAI, o GPT-5.3-Codex, explorou e drenou carteiras de criptomoedas com sucesso em 72,2% dos casos de teste, demonstrando uma proficiência em ciberofensiva que atualmente supera em muito suas contrapartes defensivas.

Lançado em colaboração com a empresa de investimento em cripto Paradigm, o EVMbench serve como uma arena padronizada para medir quão bem os modelos de IA podem detectar, corrigir e explorar vulnerabilidades em contratos inteligentes (smart contracts) da Máquina Virtual Ethereum (EVM — Ethereum Virtual Machine). Embora a iniciativa vise reforçar a segurança por meio de "red teaming" (equipe vermelha), os dados imediatos apontam para uma lacuna crescente entre a espada e o escudo. Enquanto o GPT-5.3-Codex provou ser um predador digital formidável, sua capacidade de proteger — com pontuação significativamente menor em tarefas de detecção e correção — gerou discussões urgentes sobre a segurança dos US$ 100 bilhões bloqueados em contratos inteligentes em todo o mundo.

A Lacuna Crescente: Ofensa vs. Defesa na Geração de Código por IA

A estatística principal de uma taxa de sucesso de 72,2% na categoria "Explorar" (Exploit) marca um salto geracional massivo nas capacidades de IA. Apenas seis meses antes, o modelo padrão GPT-5 alcançou uma taxa de sucesso de apenas 31,9% em tarefas semelhantes. Esse dobro de eficácia sugere que o ajuste especializado no GPT-5.3-Codex desbloqueou uma compreensão mais profunda dos fluxos lógicos complexos e incentivos econômicos inerentes aos protocolos de blockchain.

No entanto, o benchmark também destacou uma assimetria preocupante. Enquanto a IA se destacou em quebrar sistemas, ela teve dificuldades para corrigi-los. No modo "Corrigir" (Patch) — onde o agente deve consertar uma vulnerabilidade sem quebrar a funcionalidade pretendida do contrato — as taxas de sucesso ficaram em torno de 41,5%. Da mesma forma, no modo "Detectar" (Detect), que simula uma auditoria de código tradicional, os modelos muitas vezes falharam em identificar bugs conhecidos, com os melhores desempenhos, como o Claude Opus 4.6, alcançando apenas uma taxa de detecção de 45,6%.

Esta disparidade ressalta uma realidade fundamental da arquitetura atual dos modelos de linguagem de grande escala (LLM — Large Language Models): é computacionalmente mais fácil para um agente encontrar um único caminho para a falha (exploração) do que garantir a ausência de todas as falhas (verificação de segurança). A tabela abaixo ilustra o forte contraste de desempenho em diferentes modos operacionais no novo benchmark.

Tabela 1: Desempenho do Modelo de IA nos Modos do EVMbench
Métrica|GPT-5.3-Codex (Atual)|GPT-5 (6 Meses Atrás)|Claude Opus 4.6
---|---|----
Taxa de Sucesso de Exploração|72,2%|31,9%|N/A
Taxa de Sucesso de Correção|41,5%|N/A|N/A
Recall de Detecção|N/A|N/A|45,6%

Por Dentro do EVMbench: Um Campo de Testes Rigoroso

Para garantir que esses resultados reflitam riscos do mundo real em vez de exercícios teóricos, a OpenAI e a Paradigm construíram o EVMbench usando 120 vulnerabilidades selecionadas de 40 auditorias profissionais de contratos inteligentes. Esses não foram bugs sintéticos, mas falhas reais encontradas em código de produção, muitas provenientes de plataformas de auditoria competitivas como a Code4rena.

O benchmark opera em um ambiente isolado (sandbox) conhecido como Anvil, permitindo que agentes de IA interajam com uma simulação de blockchain local. Esse isolamento permite que os modelos tentem ações destrutivas — como ataques de reentrada (reentrancy attacks) ou manipulação lógica — sem arriscar fundos reais de usuários.

O framework avalia os agentes em três competências distintas:

Tabela 2: Modos de Avaliação do EVMbench

Modo	Objetivo	Critérios de Sucesso
Detectar	Auditar um repositório para encontrar vulnerabilidades.	Recall de falhas reais confirmadas por auditores humanos.
Corrigir	Reescrever o código para remover a vulnerabilidade.	Vulnerability is gone AND core functionality remains intact.
Explorar	Atacar um contrato implantado para roubar fundos.	Drenagem bem-sucedida do saldo de cripto do contrato.

Crucialmente, o benchmark inclui cenários da blockchain Tempo, uma nova rede de Camada 1 (Layer-1) desenvolvida pela Stripe e Paradigm focada em pagamentos de stablecoins de alto rendimento. A inclusão de desafios específicos da Tempo indica que a OpenAI não está apenas olhando para o código legado do Ethereum, mas está testando ativamente contra a infraestrutura de próxima geração onde se espera que os pagamentos agênticos proliferem.

Estudo de Caso: O Ataque de Empréstimo Relâmpago Sem Assistência

Talvez a anedota mais alarmante do artigo de pesquisa que acompanha envolva um caso de teste específico onde um agente alimentado pelo GPT-5.2 (uma versão intermediária) executou um ataque complexo de "empréstimo relâmpago" (flash loan).

Ataques de empréstimo relâmpago são explorações financeiras sofisticadas que exigem o empréstimo de uma quantidade massiva de capital, usando-o para manipular preços de mercado ou a lógica do protocolo, e pagando o empréstimo dentro de um único bloco de transação. Eles são tipicamente domínio de hackers humanos de elite devido ao sequenciamento preciso exigido.

No teste do EVMbench, o agente de IA:

Identificou uma oportunidade de arbitragem criada por uma falha lógica.
Solicitou programaticamente um empréstimo relâmpago.
Executou a sequência de exploração para drenar o cofre.
Pagou o empréstimo para finalizar a transação.

Ele alcançou isso sem orientação humana, instruções passo a passo ou exemplos anteriores da arquitetura deste contrato específico. Essa capacidade sinaliza que os agentes autônomos estão indo além da simples correspondência de padrões para o raciocínio estratégico de várias etapas, um desenvolvimento que apresenta riscos existenciais a protocolos de finanças descentralizadas (DeFi) mal auditados.

Pivô Estratégico da OpenAI: Democratizando a Defesa

Reconhecendo o potencial dessas ferramentas para serem transformadas em armas, a OpenAI está enquadrando o lançamento do EVMbench e do GPT-5.3-Codex como um "imperativo defensivo". A lógica é que, ao colocar essas poderosas ferramentas ofensivas nas mãos de pesquisadores de segurança "white hat" (chapéu branco), as vulnerabilidades podem ser encontradas e corrigidas antes que atores mal-intencionados as explorem.

Para apoiar esse ecossistema defensivo, a OpenAI anunciou o Cybersecurity Grant Program, prometendo US$ 10 milhões em créditos de API para desenvolvedores e pesquisadores que trabalham em ferramentas de defesa de código aberto. O objetivo é reduzir a barreira de entrada para auditoria automatizada, permitindo que até mesmo pequenos projetos acessem verificações de segurança de última geração.

Além disso, a empresa está expandindo o beta privado do Aardvark, um agente dedicado à pesquisa de segurança. Ao contrário dos modelos Codex de propósito geral, o Aardvark é treinado especificamente em literatura de segurança, relatórios de auditoria e métodos de verificação formal. Testes internos iniciais sugerem que o Aardvark pode ajudar a fechar a lacuna entre ofensa e defesa, utilizando a "mentalidade de atacante" do GPT-5.3 para prever explorações e sugerir correções proativamente.

Implicações para a Indústria e o Caminho a Seguir

O lançamento do EVMbench ocorre em um momento pivotal para a indústria de cripto, após uma série de explorações de alto perfil, incluindo a perda recente de US$ 2,7 milhões no protocolo Moonwell devido a um bug em código gerado por IA. A indústria está atualmente lidando com uma faca de dois gumes: a IA é cada vez mais usada para escrever contratos inteligentes, muitas vezes introduzindo bugs sutis, enquanto simultaneamente é a única ferramenta escalável o suficiente para auditar o volume explosivo de código de blockchain.

O envolvimento da Paradigm sugere que os principais players institucionais veem a segurança da IA não como um luxo, mas como um pré-requisito para a adoção em massa de stablecoins e trilhos financeiros descentralizados. Se os agentes de IA devem lidar com pagamentos autônomos em redes como a Tempo, eles devem ser resilientes contra a IA adversária que tenta roubá-los.

Especialistas alertam que a "taxa de exploração de 72%" é provavelmente um piso, não um teto. À medida que os modelos continuam a escalar e a utilizar técnicas como raciocínio de "Cadeia de Pensamento" (Chain-of-Thought) durante a inferência, sua capacidade de encontrar vulnerabilidades obscuras de "cisne negro" provavelmente aumentará.

Por enquanto, a mensagem para os desenvolvedores de contratos inteligentes é clara: a IA que ajuda você a escrever seu código também é capaz de roubá-lo. Até que as capacidades defensivas alcancem as ofensivas, o único caminho seguro é a auditoria rigorosa liderada por humanos, aumentada — mas não substituída — pelas próprias ferramentas de IA que ameaçam o sistema.