Monatelang haben die New York Times mit Microsoft und OpenAI verhandelt. Im Sommer hatte der renommierte Publisher den Tech-Unternehmen bereits mit einer schwerwiegenden Klage gedroht, die sich auf die unberechtigte Nutzung von Inhalten der New York Times für das Training von KI-Modellen beziehen sollte. So wollte der Publisher ein Kompensationsmodell aushandeln – immerhin hatte auch OpenAI CEO Sam Altman schon im Frühjahr 2023 die Bedenken vieler Urheber:innen anerkannt:

We’re trying to work on new models where if an AI system is using your content, or if it’s using your style, you get paid for that.

Doch es kam zu keiner Einigung zwischen den Parteien. Kürzlich verklagte die New York Times OpenAI und Microsoft also. Millionen von Artikeln seien ohne Zustimmung genutzt worden, um letztlich auch KI-Bots wie ChatGPT zu optimieren, die inzwischen gewissermaßen mit Publishern konkurrieren. Die Tech-Unternehmen sollen für den entstandenen Schaden aufkommen, der insgesamt auf mehrere Milliarden US-Dollar geschätzt wird. Zudem möchte die New York Times, dass die OpenAI und Microsoft künftig keine Inhalte des Publishers verarbeiten. Und die bereits genutzten Daten sollen entfernt werden. Wenn die Klage Erfolg hat, könnte das den KI-Markt hart treffen. Denn OpenAI ist schon öfter, von teils namhaften Persönlichkeiten, wegen Urheberrechtsverletzungen verklagt worden.

Klagen namhafter Autor:innen setzen OpenAI und Co. unter Druck

Beschwerden und Klagen, die Unternehmen wie OpenAI und Microsoft die unlautere Nutzung von Daten vorwerfen, sind im vergangenen Jahr vielfach aufgekommen. Anfang 2023 wurde beispielsweise eine Sammelklage eingereicht, die OpenAI, GitHub und Microsoft vorwirft, für die Erstellung von Copilot „Software-Piraterie“ betrieben zu haben. Die beschuldigten Parteien schoben diesen Vorwurf von sich, man habe sich auf Open-Source-Elemente bezogen und gegen keinerlei Gesetze verstoßen.

Anders sieht es womöglich bei der Nutzung von Trainingsdaten für die eigenen KI-Modelle aus, die letztlich Tools wie ChatGPT, Copilot und Co. unterstützen. Denn dabei sollen Microsoft und OpenAI ohne Erlaubnis auf geschützte Inhalte von Publishern, Autor:innen und anderen Künstler:innen zugegriffen haben. So klagte bereits die Autorin und Comedy-Bekanntheit Sarah Silverman zusammen mit den Autoren Christopher Golden und Richard Kadrey gegen OpenAI. In der Beschwerde gegenüber dem KI-Unternehmen heißt es unter anderem:

When ChatGPT is prompted, ChatGPT generates summaries of Plaintiffs’ copyrighted works – something only possible if ChatGPT was trained on Plaintiffs’ copyrighted works.

Die Autor:innen hatten der Verwendung ihrer Werke im Vorhinein jedoch nicht zugestimmt. Der Fall wurde im Sommer 2023 bereits als potentiell richtungsweisende Klage für die Entwicklung des KI-Trainings auf Grundlage geschützter Daten angesehen. Es kamen jedoch noch weitere Klagen hinzu, die aufgrund der prominenten Kläger:innen für Aufsehen sorgten. Im September wurde bekannt, dass Game of Thrones-Autor George R. R. Martin ebenso wie John Grisham und andere berühmte Autor:innen gegen OpenAI klagen. Auch sie werfen dem Unternehmen vor, Bücher ohne ihr Einverständnis für das Training der KI-Systeme genutzt zu haben.

Im Oktober veröffentlichte die News/Media Alliance, ein Zusammenschluss von über 2000 Verlagen in den USA und Kanada, ein Whitepaper beim U.S. Copyright Office, das die Nutzung von Verlagsinhalten für das Training von KI-Modellen aufzeigt. Darin wird deutlich, dass für dieses Training vielfach auf Verlagsinhalte zurückgegriffen wurde; ob das im Einklang mit Urheberrechten stand, steht zur Debatte. Alliance President und CEO Danielle Coffey erklärte:

The research and analysis we’ve conducted shows that AI companies and developers are not only engaging in unauthorized copying of our members’ content to train their products, but they are using it pervasively and to a greater extent than other sources. This shows they recognize our unique value, and yet most of these developers are not obtaining proper permissions through licensing agreements or compensating publishers for the use of this content. This diminishment of high-quality, human created content harms not only publishers but the sustainability of AI models themselves and the availability of reliable, trustworthy information.

AI Search:

Verstoßen OpenAI, Google und Co. gegen Copyright?

© Steve Johnson – Unsplash

Alternativen, Lösungen und ein notwendiger neuer Ansatz für das KI-Training?

OpenAI hat sich schon mehrfach derart geäußert, dass das Unternehmen daran arbeite, Lösungen für die Nutzung geschützter Werke zu finden; dabei sei auch eine Kompensation eine Option. Wenn allerdings, wie im Fall der New York Times, keine Einigung möglich ist, könnte die unterstellte unlautere Nutzung der Inhalte das Unternehmen Milliarden US-Dollar kosten. Darüber hinaus könnte das zuweilen als innovativ gefeierte Training der KI-Modelle einer Neuausrichtung unterzogen werden müssen.

Wie OpenAI, Microsoft und auch andere KI-Anbieter:innen, die gegebenenfalls ohne Erlaubnis auf geschützte Inhalte zugegriffen haben, ihre Trainingsmethoden anpassen und insbesondere bereits verwendete Daten wieder aus dem trainierten System extrahieren würden, ist derzeit noch unklar. Werden sie dazu gerichtlich aufgefordert, dürfte ein solcher Prozess jedoch ebenfalls enorm kostspielig sein. Zudem würden die KI-Modelle hinsichtlich ihrer Aktualität und Referenzfähigkeit an Qualität verlieren, wenn sie auf deutlich weniger Publisher und Werke von Autor:innen zugreifen können als zuvor (wobei es womöglich zu keinem Zeitpunkt auf einer rechtlich sicheren Grundlage eine Nutzung gab).

Der Ausgang der Klagen könnte tatsächlich richtungsweisend für die Weiterentwicklung hochfunktionaler KI-Systeme und KI-Tools sein. Auch spielt die Debatte um das Urheberrecht im KI-Zeitalter eine wichtige Rolle für die Entwicklung von Publishern und den Schutz ihrer Werke und Inhalte.

Unternehmen, vor allem Verlage, haben die Möglichkeit, aktiv Maßnahmen zu ergreifen, um die Nutzung ihrer Inhalte durch KI-Bots und ähnliche Technologien zu unterbinden. Dabei können sie auf das Quasi-Protokoll robots.txt zurückgreifen, um etwa dem GPTBot von OpenAI oder über Google-Extended dem Google Crawler den Zugriff zu verwehren.

Die neue Kontrolle Google-Extended auf der Website der Google Search Central, Screenshot Google

Auch können Unternehmen den Zugriff von KI-Tools wie Copilot oder Bard mithilfe der robots.txt-Datei blockieren. Es ist jedoch erwähnenswert, dass Google bereits an Alternativen zu robot.txt arbeitet, da diese Methode auf Texte und herkömmliche Inhalte abzielt und möglicherweise nicht ausreichend ist im Zeitalter der KI. Viele Unternehmen haben auf ihren Websites Crawling Bots schon blockiert, wie etwa die New York Times, die dem GPTBot von OpenAI das Übernehmen und Aggregieren auf der Website verbietet.

Publisher können jedoch auch eine Kooperation mit KI-Unternehmen wie OpenAI eingehen. Das hat beispielsweise der Springer-Verlag getan. So werden Informationen von Publikationen wie Die Welt, Politico und Business Insider in Echtzeit über ChatGPT verfügbar gemacht. Die Medien selbst profitieren, indem User per Quelle und Link auf die vollständigen Artikel hingewiesen werden – dies soll für mehr Transparenz sorgen. Zudem dürfte OpenAI für die Nutzung eine Art Lizenzgebühr zahlen. Für diese Kooperation erntete OpenAI indes auch scharfe Kritik.

We have formed a new global partnership with @AxelSpringer and its news products.

Real-time information from @politico, @BusinessInsider, European properties @BILD and @welt, and other publications will soon be available to ChatGPT users.

ChatGPT’s answers to user queries will…

— OpenAI (@OpenAI) December 13, 2023

Wir dürfen also gespannt sein, wie die Gerichte in den USA die Klagen gegen OpenAI und Microsoft bewerten und ob künftig weitere Klagen auch gegen Player wie Google hinzukommen. Die Verhandlung von Urheberrechten im KI-Zeitalter wird zu einem äußerst wichtigen Thema im Jahr 2024.

OpenAI kündigt Kooperation mit Axel Springer an

© Mariia Shalabaieva – Unsplash

Neuigkeiten

Leave a Reply

Your email address will not be published. Required fields are marked *