Programadores apelam de processo por direitos autorais de US$9 bilhões contra OpenAI e Microsoft

Programadores apelam de processo de direitos autorais de US$ 9 bilhões contra OpenAI e Microsoft

Em um momento crucial para a indústria de IA generativa (Generative AI), um grupo de programadores instou o Tribunal de Apelações dos EUA para o Nono Circuito (9th Circuit) a reativar sua ação coletiva contra a Microsoft, GitHub e OpenAI. O recurso, discutido em 11 de fevereiro de 2026, busca restabelecer as reivindicações sob a Lei de Direitos Autorais do Milênio Digital (Digital Millennium Copyright Act — DMCA) que poderiam expor as gigantes da tecnologia a danos estatutários estimados em mais de US$ 9 bilhões.

O caso, Doe v. GitHub, Inc., concentra-se no GitHub Copilot, um assistente de codificação alimentado por IA treinado em bilhões de linhas de código público. No cerne da disputa está se as empresas de IA violam a lei de direitos autorais quando removem "Informações de Gerenciamento de Direitos Autorais" (Copyright Management Information — CMI) — como nomes de autores e cabeçalhos de licença — durante o processo de treinamento, mesmo que a saída da IA não seja uma cópia idêntica da obra original.

A aposta de US$ 9 bilhões: Reativando as reivindicações da DMCA

Os autores, um grupo de desenvolvedores de software anônimos, argumentam que o tribunal de primeira instância errou ao rejeitar suas reivindicações da Seção 1202 da DMCA. A Seção 1202 proíbe a remoção ou alteração intencional de CMI com a intenção de ocultar a infração.

Em meados de 2024, o juiz distrital dos EUA, Jon S. Tigar, rejeitou essas reivindicações específicas, estabelecendo um controverso requisito de "identidade". O juiz Tigar decidiu que para que uma violação da Seção 1202 ocorresse, os autores deveriam demonstrar que a IA gerou uma cópia exata de seu código com a CMI ausente. Como os modelos de IA como o Copilot normalmente sintetizam novos códigos em vez de reproduzir blocos exatos, o Tribunal Distrital não encontrou violação.

No recurso, os autores sustentaram que essa interpretação anula efetivamente a DMCA na era da inteligência artificial. Sua equipe jurídica argumentou perante o Nono Circuito que o estatuto foi projetado para proteger a integridade da atribuição de direitos autorais, independentemente de a distribuição subsequente ser uma cópia literal ou uma obra derivada.

Se o Nono Circuito reverter a decisão do tribunal inferior, as implicações financeiras são impressionantes. A DMCA permite danos estatutários de US$ 2.500 a US$ 25.000 por violação. Com o Copilot tendo milhões de usuários e gerando inúmeras linhas de código diariamente, os autores estimam que a responsabilidade potencial poderia chegar a US$ 9 bilhões, uma cifra que alteraria fundamentalmente a economia do desenvolvimento de IA.

O campo de batalha da "Identidade"

Os argumentos orais destacaram uma divisão acentuada em como a lei de direitos autorais deve ser aplicada ao aprendizado de máquina. Os réus — Microsoft e OpenAI — sustentam que a decisão do tribunal inferior é consistente com o propósito da DMCA. Eles argumentam que, sem um requisito de identidade, qualquer saída que reconhecidamente "se assemelhe" aos dados de treinamento, mas careça de atribuição, poderia desencadear responsabilidade, inibindo a inovação e sujeitando as ferramentas de IA a processos ilimitados.

A tabela abaixo descreve os principais argumentos jurídicos apresentados por ambos os lados em relação à interpretação da Seção 1202 da DMCA.

Argumentos Jurídicos sobre a Seção 1202 da DMCA
---|---|----
Aspecto do Argumento|Posição dos Autores (Programadores)|Posição dos Réus (Microsoft/OpenAI)
Interpretação Estatutária|A Seção 1202 protege a integridade da CMI na obra original. Removê-la durante a "ingestão" viola a lei, independentemente da saída.|A responsabilidade só se aplica se a CMI for removida de uma cópia idêntica da obra que é então distribuída.
O Teste de "Identidade"|O Tribunal Distrital inventou um requisito de "identidade" que não existe no texto do estatuto.|Exigir identidade evita excessos; caso contrário, o uso aceitável (fair use) e as obras transformadoras seriam sufocados.
Definição de Dano|O dano ocorre quando a atribuição é removida, rompendo a ligação entre o criador e sua obra, facilitando infrações futuras.|Nenhum dano é comprovado a menos que o código específico do autor seja reproduzido exatamente sem sua CMI.
Impacto na Indústria|Permitir a remoção de CMI incentiva a "lavagem" de código-fonte aberto para contornar termos de licença (ex: GPL, MIT).|Impor responsabilidade estrita de CMI no treinamento de IA tornaria a IA generativa impossível de ser desenvolvida legalmente.

Entendendo a CMI na era da IA

Para entender a gravidade deste recurso, deve-se olhar para como o software de código-fonte aberto funciona. Licenças de código-fonte aberto, como a Licença MIT ou a Licença Pública Geral GNU (GPL), permitem o uso gratuito do código sob a condição de que o autor original receba o crédito e os termos da licença sejam preservados. Esses dados de atribuição — a CMI — são cruciais para a conformidade e a confiança do ecossistema.

Quando o modelo Codex da OpenAI (que alimenta o Copilot) ingere esse código, ele o tokeniza, dividindo-o efetivamente em relações estatísticas. Nesse processo, os cabeçalhos de licença específicos e os comentários dos autores são frequentemente tratados como apenas mais um padrão a ser aprendido ou ignorado, em vez de metadados juridicamente vinculativos a serem preservados.

Os autores argumentam que esse processo cria uma ferramenta que permite aos usuários infringir direitos autorais involuntariamente ao usar código sem a atribuição exigida. Eles afirmam que a Microsoft e a OpenAI não estão apenas "lendo" o código, mas removendo ativamente os mecanismos projetados para protegê-lo.

Implicações para a indústria de IA em geral

Uma decisão favorável aos autores pelo Nono Circuito enviaria ondas de choque por todo o setor de IA. Provavelmente forçaria as empresas a:

Retreinar Modelos: Os desenvolvedores de IA podem precisar limpar seus conjuntos de dados de treinamento de qualquer código ou texto onde a CMI não possa ser perfeitamente preservada na saída.
Implementar Mecanismos de Atribuição: Futuros modelos de IA podem ser obrigados a "citar suas fontes", um desafio técnico que atualmente não está resolvido para modelos de linguagem grandes (LLMs).
Enfrentar Responsabilidade Retroativa: Outros modelos de IA generativa, incluindo geradores de texto como o ChatGPT e geradores de imagem como o Midjourney, poderiam enfrentar processos semelhantes se for constatado que removeram a CMI dos dados de treinamento.

Especialistas jurídicos sugerem que a decisão do Nono Circuito poderia estabelecer o padrão para como toda a "ingestão" de dados protegidos por direitos autorais é tratada sob a lei dos EUA. Enquanto os réus dependem fortemente da doutrina de "uso aceitável" para o uso do conteúdo, as reivindicações da DMCA evitam o uso aceitável ao focar na remoção de metadados, que é uma violação estatutária separada.

O que vem a seguir?

Espera-se que o painel do Nono Circuito emita sua decisão ainda este ano. Dada a novidade das questões jurídicas — aplicando um estatuto de 1998 à tecnologia de 2026 — a decisão provavelmente será apelada para a Suprema Corte, independentemente do resultado.

Por enquanto, a comunidade de desenvolvedores observa de perto. O caso representa mais do que apenas uma disputa financeira; é um desacordo fundamental sobre o valor da autoria humana em um mundo cada vez mais automatizado. Se os programadores tiverem sucesso, isso poderá afirmar que as regras do código aberto não podem ser reescritas por algoritmos. Se falharem, isso poderá consolidar a prática atual da indústria onde os dados são combustível e a atribuição é opcional.