Muss OpenAI bald tief in die Tasche greifen. In den USA haben ein YouTuber und eine Kanzlei eine Sammelklage gegen das KI-Unternehmen eingereicht, die dieses teuer zu stehen kommen könnte. Wie TechCrunch berichtet, werden in der Beschwerde fünf Millionen US-Dollar Schadensersatz für alle betroffenen YouTuber gefordert – was zu einer Milliardenstrafe führen könnte. Der Grund ist OpenAIs womöglich unlauteres Vorgehen beim KI-Training, bei dem auch auf zahlreiche YouTube-Skripte zurückgegriffen worden sein soll, ohne dafür eine Erlaubnis oder Rechtsgrundlage zu haben.

Profit durch anderer Leute Arbeit: OpenAI in der Kritik und womöglich vor Verfahren

Der Vorwurf, dass OpenAI ohne Erlaubnis auf Content von Creatorn – insbesondere von YouTube – zugegriffen haben soll, um die eigenen KI-Systeme und -Tools zu trainieren, ist nicht neu. Im Kontext des Videokreations-Tools Sora konnte Mira Murati, Chief Technology Officer bei OpenAI, diesen nicht entkräften. Sie enthüllte in einem Interview, dass für Sora öffentlich verfügbare Videos als Trainings-Material verwendet wurden. YouTubes CEO Neal Mohan bestätigte zwar nicht direkt die Nutzung der Plattforminhalte für Sora, betonte aber die Problematik eines solchen Vorgehens. Die Nutzungsbedingungen von YouTube verbieten ausdrücklich das unerlaubte Scraping oder Herunterladen von Inhalten. Ein Verstoß könnte ernsthafte Konsequenzen für KI-Unternehmen nach sich ziehen. Und die Klage in den USA ist nun ein erstes Beispiel.

OpenAI ist schon mehrfach dafür kritisiert worden, die Arbeit oder gar Persönlichkeit anderer für die eigene Profitmaximierung zu instrumentalisieren. Immerhin verdient das Unternehmen, auch unterstützt von Microsoft, durch Abonnements für Tools wie ChatGPT Plus, ChatGPT Enterprise und Co. inzwischen enorm viel Geld. Zuletzt hat OpenAI beispielsweise eine KI-Stimme wieder eingestellt, weil sie zu sehr nach Scarlett Johansson klang. Johansson ist die Stimme eines KI-basierten Operational Systems im Science-Fiction-Film Her und wurde von OpenAI CEO Sam Altman mehrfach als Inspiration genannt; doch sie Schauspielerin hatte sich beschwert, da sie keine Genehmigung erteilt hatte.

Zahlreiche Vorwürfe stehen im Raum

Das gilt auch für viele Creator, die befürchten, dass OpenAI – und indes auch andere Unternehmen, die große KI-Systeme trainieren – auf diverse Inhalte zurückgreift. Das Unternehmen selbst sah sich schon Klagen von Publishern wie der New York Times und Künstler:innen wie Sarah Silverman oder dem Game of Thrones-Schöfer George R. R. Martin gegenüber. Und da hören die Vorwürfe nicht auf.

Im Oktober veröffentlichte die News/Media Alliance, ein Zusammenschluss von über 2000 Verlagen in den USA und Kanada, ein Whitepaper beim U.S. Copyright Office, das die Nutzung von Verlagsinhalten für das Training von KI-Modellen aufzeigt. Darin wird deutlich, dass für dieses Training vielfach auf Verlagsinhalte zurückgegriffen wurde; ob das im Einklang mit Urheberrechten stand, steht zur Debatte. Alliance President und CEO Danielle Coffey erklärte:

The research and analysis we’ve conducted shows that AI companies and developers are not only engaging in unauthorized copying of our members’ content to train their products, but they are using it pervasively and to a greater extent than other sources. This shows they recognize our unique value, and yet most of these developers are not obtaining proper permissions through licensing agreements or compensating publishers for the use of this content. This diminishment of high-quality, human created content harms not only publishers but the sustainability of AI models themselves and the availability of reliable, trustworthy information.

Schwer nachvollziehbare Trainingsmethoden

Zwar reagieren die Unternehmen wie OpenAI durch Kooperationen mit Medienhäusern oder auch einzelnen Künstler:innen. Doch die große Frage, wie viele Werke ohne Genehmigung genutzt wurden und werden, bleibt bestehen. Gerade im Kontext von YouTube-Inhalten geht die eingangs erwähnte Klage davon aus, dass OpenAI vielfach Videos und insbesondere Skripte aus den Untertiteln für das Training eingesetzt hat.

Much of the material in OpenAI’s training data sets, however, comes from works that were copied by OpenAI without consent, without credit, and without compensation.

Diesem Vorwurf wird sich das Unternehmen wohl widersetzen und es auf ein Verfahren ankommen lassen. Schließlich dürfte es schwer zu ermitteln sein, in welchem Maße tatsächlich einzelne Inhalte gescrapt und genutzt wurden. Darüber würden womöglich nur technische Daten Auskunft geben können, die OpenAI in einem Gerichtsverfahren eventuell offenlegen müsste.

Derweil freut sich YouTube über die Content-Erstellung all der Creator. Ironischerweise könnte OpenAI das womöglich unterschreiben.

Blog

Leave a Reply

Your email address will not be published. Required fields are marked *