Des programmeurs font appel d'un procès pour violation du droit d'auteur de 9 milliards de dollars contre OpenAI et Microsoft

Des codeurs font appel d'un procès pour violation de droits d'auteur de 9 milliards de dollars contre OpenAI et Microsoft

Dans un moment charnière pour l'industrie de l'IA générative (Generative AI), un groupe de programmeurs informatiques a exhorté la Cour d'appel des États-Unis pour le neuvième circuit (9th Circuit) à relancer leur recours collectif contre Microsoft, GitHub et OpenAI. L'appel, plaidé le 11 février 2026, vise à rétablir les réclamations en vertu du Digital Millennium Copyright Act (DMCA) qui pourraient exposer les géants de la technologie à des dommages-intérêts légaux estimés à plus de 9 milliards de dollars.

L'affaire, Doe v. GitHub, Inc., se concentre sur GitHub Copilot, un assistant de codage alimenté par l'IA formé sur des milliards de lignes de code public. Au cœur du litige se trouve la question de savoir si les entreprises d'IA violent la loi sur le droit d'auteur lorsqu'elles suppriment les « informations de gestion des droits d'auteur » (Copyright Management Information - CMI) — telles que les noms d'auteurs et les en-têtes de licence — au cours du processus d'apprentissage, même si le résultat de l'IA n'est pas une copie identique de l'œuvre originale.

Les enjeux de 9 milliards de dollars : relance des réclamations DMCA

Les plaignants, un groupe de développeurs de logiciels anonymes, soutiennent que le tribunal de première instance a commis une erreur en rejetant leurs réclamations au titre de la section 1202 du DMCA. La section 1202 interdit la suppression ou l'altération intentionnelle des CMI dans l'intention de dissimuler une contrefaçon.

À la mi-2024, le juge de district américain Jon S. Tigar a rejeté ces réclamations spécifiques, établissant une exigence d'« identité » (identicality) controversée. Le juge Tigar a statué que pour qu'une violation de la Section 1202 se produise, les plaignants doivent démontrer que l'IA a généré une copie exacte de leur code avec les CMI manquantes. Étant donné que les modèles d'IA comme Copilot synthétisent généralement un nouveau code plutôt que de régurgiter des blocs exacts, le tribunal de district n'a constaté aucune violation.

En appel, les plaignants ont soutenu que cette interprétation annule de fait le DMCA à l'ère de l'intelligence artificielle. Leur équipe juridique a fait valoir devant le 9e Circuit que la loi a été conçue pour protéger l'intégrité de l'attribution du droit d'auteur, que la distribution ultérieure soit une copie textuelle ou une œuvre dérivée.

Si le 9e Circuit infirme la décision du tribunal inférieur, les implications financières sont colossales. Le DMCA autorise des dommages-intérêts légaux de 2 500 $ à 25 000 $ par violation. Avec Copilot comptant des millions d'utilisateurs et générant quotidiennement d'innombrables lignes de code, les plaignants estiment que la responsabilité potentielle pourrait atteindre 9 milliards de dollars, un chiffre qui modifierait fondamentalement l'économie du développement de l'IA.

Le champ de bataille de l'« identité »

Les plaidoiries orales ont mis en évidence un clivage marqué sur la manière dont le droit d'auteur devrait s'appliquer à l'apprentissage automatique (machine learning). Les défendeurs — Microsoft et OpenAI — soutiennent que la décision du tribunal inférieur est conforme à l'objectif du DMCA. Ils soutiennent que sans exigence d'identité, tout résultat qui « ressemble » potentiellement aux données d'entraînement mais manque d'attribution pourrait déclencher une responsabilité, freinant l'innovation et soumettant les outils d'IA à des poursuites illimitées.

Le tableau ci-dessous présente les principaux arguments juridiques présentés par les deux parties concernant l'interprétation de la section 1202 du DMCA.

Arguments juridiques sur la section 1202 du DMCA
---|---|----
Aspect de l'argument|Position des plaignants (Codeurs)|Position des défendeurs (Microsoft/OpenAI)
Interprétation statutaire|La section 1202 protège l'intégrité des CMI sur l'œuvre originale. Les supprimer lors de l'« ingestion » viole la loi quel que soit le résultat.|La responsabilité n'est engagée que si les CMI sont supprimées d'une copie identique de l'œuvre qui est ensuite distribuée.
Le test d'« identité »|Le tribunal de district a inventé une exigence d'« identité » qui n'existe pas dans le texte de la loi.|L'exigence d'identité empêche les excès ; sinon, l'utilisation équitable (fair use) et les œuvres transformatrices seraient étouffées.
Définition du préjudice|Le préjudice survient lorsque l'attribution est supprimée, rompant le lien entre le créateur et son œuvre, facilitant ainsi les contrefaçons futures.|Aucun préjudice n'est prouvé à moins que le code spécifique du plaignant ne soit reproduit exactement sans ses CMI.
Impact sur l'industrie|Autoriser la suppression des CMI encourage le « blanchiment » de code open-source pour contourner les termes de la licence (ex: GPL, MIT).|Imposer une responsabilité stricte sur les CMI lors de l'entraînement de l'IA rendrait l'IA générative impossible à développer légalement.

Comprendre les CMI à l'ère de l'IA

Pour comprendre la gravité de cet appel, il faut examiner le fonctionnement des logiciels libres (Open-source software). Les licences open-source, telles que la licence MIT ou la licence publique générale GNU (GPL), autorisent l'utilisation gratuite du code à condition que l'auteur original soit crédité et que les termes de la licence soient préservés. Ces données d'attribution — les CMI — sont cruciales pour la conformité et la confiance de l'écosystème.

Lorsque le modèle Codex d'OpenAI (qui alimente Copilot) ingère ce code, il tokenise le texte, le décomposant en relations statistiques. Dans ce processus, les en-têtes de licence spécifiques et les commentaires d'auteurs sont souvent traités comme un simple motif supplémentaire à apprendre ou à ignorer, plutôt que comme des métadonnées juridiquement contraignantes à préserver.

Les plaignants soutiennent que ce processus crée un outil qui permet aux utilisateurs d'enfreindre involontairement les droits d'auteur en utilisant du code sans l'attribution requise. Ils affirment que Microsoft et OpenAI ne se contentent pas de « lire » le code, mais suppriment activement les mécanismes conçus pour le protéger.

Implications pour l'industrie de l'IA au sens large

Une décision en faveur des plaignants par le 9e Circuit provoquerait une onde de choc dans le secteur de l'IA. Elle forcerait probablement les entreprises à :

Réentraîner les modèles : Les développeurs d'IA pourraient devoir nettoyer leurs ensembles de données d'entraînement de tout code ou texte où les CMI ne peuvent pas être parfaitement préservées dans le résultat.
Mettre en œuvre des mécanismes d'attribution : Les futurs modèles d'IA pourraient être tenus de « citer leurs sources », un défi technique qui n'est actuellement pas résolu pour les grands modèles de langage (LLM).
Faire face à une responsabilité rétroactive : D'autres modèles d'IA générative, y compris les générateurs de texte comme ChatGPT et les générateurs d'images comme Midjourney, pourraient faire face à des poursuites similaires s'il s'avère qu'ils ont supprimé les CMI des données d'entraînement.

Les experts juridiques suggèrent que la décision du 9e Circuit pourrait établir la norme sur la manière dont toute « ingestion » de données protégées par le droit d'auteur est traitée selon la loi américaine. Alors que les défendeurs s'appuient fortement sur la doctrine de l'« utilisation équitable » (fair use) pour l'utilisation du contenu, les réclamations DMCA contournent l'usage équitable en se concentrant sur la suppression des métadonnées, ce qui constitue une violation statutaire distincte.

Quelle est la suite ?

Le panel du 9e Circuit devrait rendre sa décision plus tard cette année. Compte tenu de la nouveauté des questions juridiques — l'application d'une loi de 1998 à la technologie de 2026 — la décision fera probablement l'objet d'un appel devant la Cour suprême, quel que soit le résultat.

Pour l'instant, la communauté des développeurs surveille la situation de près. Cette affaire représente plus qu'un simple différend financier ; c'est un désaccord fondamental sur la valeur de la paternité humaine dans un monde de plus en plus automatisé. Si les codeurs réussissent, cela pourrait confirmer que les règles de l'open source ne peuvent pas être réécrites par des algorithmes. S'ils échouent, cela pourrait cimenter la pratique actuelle de l'industrie où les données sont le carburant et l'attribution est facultative.