Zum Inhalt springen

Meta wird vorgeworfen, für die Entwicklung künstlicher Intelligenz Raubkopien von Daten verwendet zu haben.

20. Januar 2025 durch
Meta wird vorgeworfen, für die Entwicklung künstlicher Intelligenz Raubkopien von Daten verwendet zu haben.
Redaktion

Die Kläger im Fall Kadrey et al. gegen Meta haben einen Antrag eingereicht, in dem sie behaupten, dass das Unternehmen wissentlich urheberrechtlich geschützte Werke bei der Entwicklung seiner KI-Modelle verwendet hat.

Die Kläger, zu denen der Autor Richard Kadrey gehört, reichten ihre „Antwort zur Unterstützung des Antrags der Kläger auf Erlaubnis zur Einreichung einer dritten geänderten konsolidierten Klage“ beim United States District Court im Northern District of California ein.

Die Einreichung beschuldigt Meta, systematisch Torrents zu nutzen und die Informationen zur Verwaltung von Urheberrechten (CMI) aus piratierten Datensätzen zu entfernen, einschließlich Werke aus der berüchtigten Schattenbibliothek LibGen.

Laut Dokumenten, die kürzlich dem Gericht vorgelegt wurden, zeigen Beweise hochgradig belastende Praktiken, die die Führungskräfte von Meta betreffen. Die Kläger behaupten, dass der CEO von Meta, Mark Zuckerberg, ausdrücklich die Genehmigung zur Nutzung des LibGen-Datensatzes erteilt hat, trotz interner Bedenken, die von den KI-Führungskräften des Unternehmens geäußert wurden.

Ein Memo aus Dezember 2024 aus internen Diskussionen bei Meta erkannte LibGen als „einen Datensatz, von dem wir wissen, dass er piratiert ist“ an, wobei Debatten über die ethischen und rechtlichen Auswirkungen der Nutzung solcher Materialien aufkamen. Dokumente zeigten auch, dass führende Ingenieure zögerten, die Datensätze zu torrenten, da sie Bedenken äußerten, Unternehmenslaptops für potenziell rechtswidrige Aktivitäten zu verwenden.

Darüber hinaus deuten interne Kommunikationen darauf hin, dass Meta nach dem Erwerb des LibGen-Datensatzes die CMI von den darin enthaltenen urheberrechtlich geschützten Werken entfernte – eine Praxis, die die Kläger als zentral für die Ansprüche auf Urheberrechtsverletzung hervorheben.

Laut der Aussage von Michael Clark – einem Unternehmensvertreter von Meta – implementierte das Unternehmen Skripte, die darauf ausgelegt waren, alle Informationen zu entfernen, die diese Werke als urheberrechtlich geschützt identifizieren, einschließlich Schlüsselwörter wie „Urheberrecht“, „Danksagungen“ oder Zeilen, die in solchen Texten häufig verwendet werden. Clark bezeugte, dass diese Praxis absichtlich durchgeführt wurde, um den Datensatz für das Training von Metas Llama-KI-Modellen vorzubereiten.

“Fühlt sich nicht richtig an”

Die Vorwürfe gegen Meta zeichnen ein Bild eines Unternehmens, das wissentlich an einem weit verbreiteten Piratenschema beteiligt ist, das durch Torrenting ermöglicht wird.

Laut einer Reihe von E-Mails, die als Beweismittel beigefügt sind, äußerten Meta-Ingenieure Bedenken hinsichtlich der Optik des Torrentings von piratierten Datensätzen aus Unternehmensräumen. Ein Ingenieur bemerkte, dass „Torrenting von einem [Meta-eigenen] Unternehmenslaptop sich nicht richtig anfühlt“, aber trotz der Bedenken fand das schnelle Herunterladen und Verteilen – oder „Seeding“ – von piratierten Daten statt.

Die Rechtsvertretung der Kläger hat erklärt, dass Meta bis spätestens Januar 2024 „bereits Daten von LibGen torrented (sowohl heruntergeladen als auch verteilt)“ hatte. Darüber hinaus zeigen Aufzeichnungen, dass Hunderte verwandter Dokumente Monate zuvor von Meta beschafft, aber während der frühen Entdeckungsprozesse zurückgehalten wurden. Die Kläger argumentieren, dass diese verzögerte Offenlegung als bösgläubige Versuche von Meta angesehen werden kann, den Zugang zu wichtigen Beweismitteln zu behindern.

Während einer Aussage am 17. Dezember 2024 gab Zuckerberg selbst angeblich zu, dass solche Aktivitäten „viele rote Flaggen“ aufwerfen würden und erklärte, es „scheint eine schlechte Sache zu sein“, obwohl er nur begrenzte direkte Antworten zu Metas umfassenderen KI-Trainingspraktiken gab.

Dieser Fall begann ursprünglich als eine Klage wegen Verletzung des geistigen Eigentums im Namen von Autoren und Verlegern, die Verstöße im Zusammenhang mit der Nutzung ihrer Materialien durch KI geltend machten. Die Kläger versuchen jedoch nun, zwei wesentliche Ansprüche zu ihrer Klage hinzuzufügen: einen Verstoß gegen das Digital Millennium Copyright Act (DMCA) und einen Verstoß gegen das California Comprehensive Data Access and Fraud Act (CDAFA).

Unter dem DMCA behaupten die Kläger, dass Meta wissentlich Urheberrechtsschutzmaßnahmen entfernt hat, um unbefugte Nutzungen urheberrechtlich geschützter Texte in seinen Llama-Modellen zu verbergen.

Wie in der Klage zitiert, soll Meta CMI „entfernt haben, um die Wahrscheinlichkeit zu verringern, dass die Modelle diese Daten memorisieren“ und dass diese Entfernung von Rechtemanagementindikatoren das Auffinden der Verletzung für die Urheberrechtsinhaber erschwert hat.

Die CDAFA-Vorwürfe betreffen Metas Methoden zur Beschaffung des LibGen-Datensatzes, einschließlich der angeblichen Beteiligung am Torrenting, um urheberrechtlich geschützte Datensätze ohne Erlaubnis zu erwerben. Interne Dokumentationen zeigen, dass Meta-Ingenieure offen Bedenken äußerten, dass Seeding und Torrenting „rechtlich nicht in Ordnung“ sein könnten.

Der Fall Meta könnte Auswirkungen auf aufkommende Gesetzgebungen zur KI-Entwicklung haben

Im Zentrum dieses sich ausweitenden Rechtsstreits steht die wachsende Besorgnis über die Schnittstelle zwischen Urheberrecht und KI.

Die Kläger argumentieren, dass das Entfernen von Urheberrechtsschutzmaßnahmen aus textuellen Datensätzen den rechtmäßigen Anspruch auf Entschädigung für Urheberrechtsinhaber verweigert und es Meta ermöglicht, KI-Systeme wie Llama auf den finanziellen Ruinen der kreativen Bemühungen von Autoren und Verlegern aufzubauen.

Der Zeitpunkt dieser Vorwürfe fällt in eine Phase erhöhter globaler Aufmerksamkeit auf „generative KI“-Technologien. Unternehmen wie OpenAI, Google und Meta stehen alle in der Kritik wegen der Nutzung urheberrechtlich geschützter Daten zum Training ihrer Modelle. Gerichte in verschiedenen Jurisdiktionen kämpfen derzeit mit den langfristigen Auswirkungen von KI auf das Rechtemanagement, wobei potenziell wegweisende Fälle sowohl in den USA als auch im Vereinigten Königreich entschieden werden.

In diesem speziellen Fall haben US-Gerichte eine zunehmende Bereitschaft gezeigt, Beschwerden über die potenziellen Schäden von KI an lang etablierten Urheberrechtsrechtsprechungen anzuhören. Die Kläger verwiesen in ihrem Antrag auf The Intercept Media v. OpenAI, eine kürzliche Entscheidung aus New York, in der ein ähnlicher DMCA-Anspruch zugelassen wurde.

Meta bestreitet weiterhin alle Vorwürfe in dem Fall und hat sich bisher nicht öffentlich zu den angeblichen Aussagen von Zuckerberg geäußert.

Ob die Kläger in diesen Änderungen erfolgreich sind oder nicht, Autoren auf der ganzen Welt sehen sich wachsenden Ängsten gegenüber, wie ihre kreativen Werke im Kontext von KI behandelt werden. Da das Urheberrecht Schwierigkeiten hat, mit technologischen Fortschritten Schritt zu halten, unterstreicht dieser Fall die Notwendigkeit klarerer Richtlinien auf internationaler Ebene, um sowohl Schöpfer als auch Innovatoren zu schützen.

Für Meta stellen diese Ansprüche auch ein Reputationsrisiko dar. Da KI zum zentralen Fokus seiner zukünftigen Strategie wird, werden die Vorwürfe des Verlassens auf piratierte Bibliotheken wahrscheinlich nicht dazu beitragen, seine Ambitionen zur Aufrechterhaltung der Führungsposition in diesem Bereich zu unterstützen.

Der sich entwickelnde Fall Kadrey et al. gegen Meta könnte weitreichende Auswirkungen auf die Entwicklung von KI-Modellen in der Zukunft haben und möglicherweise rechtliche Präzedenzfälle in den USA und darüber hinaus schaffen.