Die News/Media Alliance, ein Zusammenschluss von über 2000 Verlagen in den USA und Kanada, hat vor Kurzem ein Whitepaper beim U.S. Copyright Office eingereicht, das eine umfassende Stellungnahme zur Verwendung von Verlagsinhalten in Bezug auf generative KI-Technologien darlegt. In diesem Dokument wird die weitverbreitete, nicht autorisierte Nutzung von Verlagsinhalten durch KI-Entwickler:innen aufgezeigt, wobei die potenziellen Auswirkungen auf die Nachhaltigkeit und Verfügbarkeit hochwertiger Originalinhalte von Nachrichtenverlagen sowie die rechtlichen Konsequenzen dieser Nutzung thematisiert werden.

On Monday, the News/Media Alliance published a White Paper and a technical analysis and submitted comments to the @CopyrightOffice on the use of publisher content to power generative artificial intelligence technologies (#GAI). https://t.co/Zr05e7nZTS

— News/Media Alliance (@newsalliance) October 31, 2023

Die wichtigsten Ergebnisse der technische Analyse, die dem Whitepaper zugrunde liegt, sind:

Die KI-Entwickler:innen haben Inhalte aus Nachrichten, Zeitschriften und digitalen Medien kopiert und verwendet, um Large Language Models (LLMs) zu trainieren. Beliebte kuratierte Datensätze, auf die LLMs zurückgreifen, neigen dazu, den Inhalt von Verlagen im Vergleich zur allgemeinen Sammlung von Inhalten aus dem Internet um das 5- bis 100-Fache stärker zu gewichtenNachrichten und digitale Medien stehen in Googles C4-Trainingsset, das zur Entwicklung von generativen KI-gestützten Produkten wie Bard verwendet wurde, an dritter Stelle unter den Quellenkategorien. Tatsächlich sind die Hälfte der Top Ten Websites in diesem Datensatz Nachrichtenagenturen. Darüber hinaus kopieren und verwenden LLMs Verlagsinhalte in ihren Ergebnissen, was darauf hinweist, dass diese Modelle den bedeutenden Inhalt der Trainingsdaten behalten und reproduzieren können.

Viele KI-Systeme großer Player setzen vielfach auf die Inhalte renommierter Publisher und greifen in rauen Mengen darauf zurück. Ob das jedoch im Einklang mit geltenden Copyright-Regularien geschieht, steht angesichts der Angaben der News/Media Alliance zur Debatte.

Alliance President & CEO Danielle Coffey erklärte:

The research and analysis we’ve conducted shows that AI companies and developers are not only engaging in unauthorized copying of our members’ content to train their products, but they are using it pervasively and to a greater extent than other sources. This shows they recognize our unique value, and yet most of these developers are not obtaining proper permissions through licensing agreements or compensating publishers for the use of this content. This diminishment of high-quality, human created content harms not only publishers but the sustainability of AI models themselves and the availability of reliable, trustworthy information.

Jede Website kann die Nutzung durch KI-Bots unterbinden

Unternehmen, insbesondere Verlage, haben die Möglichkeit, aktiv Maßnahmen zu ergreifen, um die Nutzung ihrer Inhalte durch KI-Bots und ähnliche Technologien zu unterbinden. Dies kann beispielsweise durch das Deaktivieren von Crawling-Funktionen geschehen, wie es Google und OpenAI für über robots.txt für ihre spezifischen Crawler anbieten.

Darüber hinaus können Unternehmen den Zugriff von KI-Systemen wie Bing Chat mithilfe der robot.txt-Datei blockieren. Auch Googles Bard kann mit der robot.txt-Datei blockiert werden. Es ist jedoch erwähnenswert, dass Google bereits an Alternativen zu robot.txt arbeitet, da diese Methode auf Texte und herkömmliche Inhalte abzielt und möglicherweise nicht ausreichend ist im Zeitalter der KI. Viele Unternehmen haben auf ihren Websites Crawling Bots schon blockiert, wie etwa die New York Times, die dem GPTBot von OpenAI das Übernehmen und Aggregieren auf der Website verbietet.

ChatGPT Prompting Hack:

Neue Ideen für Bilder, Videos und Thumbnails in Sekundenschnelle

Geräts

Leave a Reply

Your email address will not be published. Required fields are marked *