AI News

Programmierer legen Berufung im 9-Milliarden-Dollar-Urheberrechtsstreit gegen OpenAI und Microsoft ein

In einem entscheidenden Moment für die generative KI-Branche (Generative AI) hat eine Gruppe von Computerprogrammierern das US-Berufungsgericht für den neunten Bezirk (U.S. Court of Appeals for the Ninth Circuit) aufgefordert, ihre Sammelklage gegen Microsoft, GitHub und OpenAI wiederaufzunehmen. Die am 11. Februar 2026 verhandelte Berufung zielt darauf ab, Ansprüche nach dem Digital Millennium Copyright Act (DMCA) wiederherzustellen, die die Tech-Giganten einem geschätzten gesetzlichen Schadensersatz von über 9 Milliarden US-Dollar aussetzen könnten.

Der Fall Doe v. GitHub, Inc. konzentriert sich auf GitHub Copilot, einen KI-gestützten Programmierassistenten, der mit Milliarden von Zeilen öffentlichem Code trainiert wurde. Im Mittelpunkt des Streits steht die Frage, ob KI-Unternehmen gegen das Urheberrechtsgesetz (Copyright Law) verstoßen, wenn sie während des Trainingsprozesses „Copyright Management Information“ (CMI) – wie Autorennamen und Lizenz-Header – entfernen, selbst wenn die Ausgabe der KI keine identische Kopie des Originalwerks ist.

Es geht um 9 Milliarden Dollar: Wiederbelebung der DMCA-Ansprüche

Die Kläger, eine Gruppe anonymer Softwareentwickler, argumentieren, dass das untere Gericht geirrt habe, als es ihre Ansprüche nach DMCA-Abschnitt 1202 abwies. Abschnitt 1202 verbietet das vorsätzliche Entfernen oder Ändern von CMI in der Absicht, eine Rechtsverletzung zu verschleiern.

Mitte 2024 wies der US-Bezirksrichter Jon S. Tigar diese spezifischen Ansprüche ab und legte eine umstrittene „Identitätsanforderung“ (Identicality Requirement) fest. Richter Tigar entschied, dass für eine Verletzung von Abschnitt 1202 die Kläger nachweisen müssen, dass die KI eine exakte Kopie ihres Codes ohne die CMI generiert hat. Da KI-Modelle wie Copilot in der Regel neuen Code synthetisieren, anstatt exakte Blöcke wiederzugeben, sah das Bezirksgericht keinen Verstoß.

In der Berufung machten die Kläger geltend, dass diese Auslegung den DMCA im Zeitalter der künstlichen Intelligenz faktisch unwirksam mache. Ihr Anwaltsteam argumentierte vor dem 9. Bezirk (9th Circuit), dass das Gesetz dazu dient, die Integrität der Urheberrechtsnennung zu schützen, unabhängig davon, ob die spätere Verbreitung eine wortgetreue Kopie oder ein abgeleitetes Werk ist.

Sollte der 9. Bezirk die Entscheidung des unteren Gerichts aufheben, wären die finanziellen Auswirkungen immens. Der DMCA erlaubt gesetzlichen Schadensersatz von 2.500 bis 25.000 US-Dollar pro Verstoß. Da Copilot Millionen von Nutzern hat und täglich unzählige Codezeilen generiert, schätzen die Kläger die potenzielle Haftung auf bis zu 9 Milliarden US-Dollar – eine Zahl, welche die Ökonomie der KI-Entwicklung grundlegend verändern würde.

Das Schlachtfeld der „Identität“

Die mündlichen Verhandlungen verdeutlichten eine tiefe Kluft in der Frage, wie das Urheberrecht auf maschinelles Lernen angewendet werden sollte. Die Beklagten – Microsoft und OpenAI – bleiben dabei, dass das Urteil des unteren Gerichts mit dem Zweck des DMCA übereinstimmt. Sie argumentieren, dass ohne ein Erfordernis der Identität jede Ausgabe, die Trainingsdaten wohlmöglich „ähnelt“, aber keine Namensnennung enthält, eine Haftung auslösen könnte, was Innovationen ersticken und KI-Tools grenzenlosen Klagen aussetzen würde.

Die folgende Tabelle skizziert die zentralen rechtlichen Argumente beider Seiten bezüglich der Auslegung von DMCA-Abschnitt 1202.

Rechtliche Argumente zum DMCA-Abschnitt 1202
---|---|----
Argumentationsaspekt|Position der Kläger (Programmierer)|Position der Beklagten (Microsoft/OpenAI)
Gesetzesauslegung|Abschnitt 1202 schützt die Integrität von CMI am Originalwerk. Das Entfernen während der „Aufnahme“ (Ingestion) verletzt das Gesetz, unabhängig von der Ausgabe.|Eine Haftung greift nur, wenn CMI aus einer identischen Kopie des Werks entfernt wird, die dann verbreitet wird.
Der „Identitätstest“|Das Bezirksgericht hat eine „Identitätsanforderung“ erfunden, die im Gesetzestext nicht existiert.|Das Erfordernis der Identität verhindert eine Übervorteilung; andernfalls würden faire Nutzung (Fair Use) und transformative Werke unterdrückt.
Definition des Schadens|Schaden entsteht, wenn die Urheberschaft entfernt wird, wodurch die Verbindung zwischen dem Schöpfer und seinem Werk unterbrochen wird, was künftige Verstöße erleichtert.|Ein Schaden ist erst bewiesen, wenn der Code des spezifischen Klägers exakt ohne dessen CMI reproduziert wird.
Branchenauswirkungen|Das Zulassen der CMI-Entfernung schafft Anreize für das „Waschen“ von Open-Source-Code, um Lizenzbedingungen (z. B. GPL, MIT) zu umgehen.|Die Auferlegung einer strengen CMI-Haftung für das KI-Training würde die legale Entwicklung generativer KI unmöglich machen.

CMI im Zeitalter der KI verstehen

Um die Tragweite dieser Berufung zu verstehen, muss man betrachten, wie Open-Source-Software funktioniert. Open-Source-Lizenzen, wie die MIT-Lizenz oder die GNU General Public License (GPL), erlauben die freie Nutzung von Code unter der Bedingung, dass der ursprüngliche Autor genannt wird und die Lizenzbedingungen erhalten bleiben. Diese Attribuierungsdaten – die CMI – sind entscheidend für die Compliance und das Vertrauen innerhalb des Ökosystems.

Wenn das Codex-Modell von OpenAI (das Copilot antreibt) diesen Code aufnimmt, tokenisiert es den Text und bricht ihn effektiv in statistische Beziehungen auf. In diesem Prozess werden die spezifischen Lizenz-Header und Autorenkommentare oft als bloßes weiteres Muster behandelt, das gelernt oder ignoriert wird, anstatt als rechtlich bindende Metadaten, die bewahrt werden müssen.

Die Kläger argumentieren, dass dieser Prozess ein Werkzeug schafft, das es Nutzern ermöglicht, unwissentlich Urheberrechte zu verletzen, indem sie Code ohne die erforderliche Namensnennung verwenden. Sie behaupten, dass Microsoft und OpenAI den Code nicht bloß „lesen“, sondern aktiv die Mechanismen entfernen, die zu seinem Schutz entwickelt wurden.

Auswirkungen auf die breitere KI-Branche

Ein Urteil zugunsten der Kläger durch den 9. Bezirk würde Schockwellen durch den KI-Sektor senden. Es würde Unternehmen wahrscheinlich dazu zwingen:

  1. Modelle neu zu trainieren: KI-Entwickler müssten ihre Trainingsdatensätze möglicherweise von jeglichem Code oder Text bereinigen, bei dem CMI in der Ausgabe nicht perfekt erhalten bleiben kann.
  2. Attribuierungsmechanismen zu implementieren: Zukünftige KI-Modelle könnten verpflichtet werden, ihre „Quellen zu zitieren“, eine technische Herausforderung, die für große Sprachmodelle (Large Language Models, LLMs) derzeit ungelöst ist.
  3. Sich einer rückwirkenden Haftung zu stellen: Andere generative KI-Modelle, einschließlich Textgeneratoren wie ChatGPT und Bildgeneratoren wie Midjourney, könnten ähnlichen Klagen gegenüberstehen, wenn festgestellt wird, dass sie CMI aus Trainingsdaten entfernt haben.

Rechtsexperten vermuten, dass die Entscheidung des 9. Bezirks den Standard dafür setzen könnte, wie jegliche „Aufnahme“ von urheberrechtlich geschützten Daten nach US-Recht behandelt wird. Während sich die Beklagten stark auf die „Fair Use“-Doktrin für die Verwendung der Inhalte stützen, umgehen die DMCA-Ansprüche den Fair Use, indem sie sich auf das Entfernen von Metadaten konzentrieren, was eine separate gesetzliche Verletzung darstellt.

Was kommt als Nächstes?

Es wird erwartet, dass das Gremium des 9. Bezirks sein Urteil im Laufe dieses Jahres fällen wird. Angesichts der Neuartigkeit der Rechtsfragen – der Anwendung eines Gesetzes von 1998 auf Technologien von 2026 – wird die Entscheidung wahrscheinlich unabhängig vom Ausgang vor den Supreme Court gebracht werden.

Vorerst beobachtet die Entwickler-Community die Situation genau. Der Fall stellt mehr als nur einen finanziellen Streit dar; es ist eine grundlegende Meinungsverschiedenheit über den Wert menschlicher Urheberschaft in einer zunehmend automatisierten Welt. Wenn die Programmierer Erfolg haben, könnte dies bestätigen, dass die Regeln von Open Source nicht durch Algorithmen umgeschrieben werden können. Wenn sie scheitern, könnte dies die aktuelle Branchenpraxis zementieren, in der Daten Treibstoff sind und Namensnennung optional ist.

Ausgewählt