KI-Modelle

Massenhaft YouTube-Videos zum Training benutzt

Von Martin Gerke
Dienstag, 09.04.2024 um 16:28 Uhr

Massenhaft YouTube-Videos zum Training benutzt

Unternehmen wie OpenAI und Google sind ständig auf der Suche nach neuen Datenquellen für ihre KI-Modelle, insbesondere für das Training ihrer Large Language Models (LLMs). Doch diese Daten sind nicht unbegrenzt verfügbar. Dazu gibt es zunehmend Bedenken hinsichtlich der Quellen, die genutzt aktuell werden.

OpenAI, verantwortlich für GPT-4, stand bereits im Jahr 2021 vor dem Problem, dass ihnen die Daten knapp wurden. Um diesem Engpass entgegenzuwirken, nutzte das Unternehmen laut einem Bericht der New York Times dann auch YouTube-Videos, um seine Sprachmodelle zu verbessern. Mithilfe eines speziellen Spracherkennungstools namens Whisper sollen mehr als eine Million Stunden an YouTube-Inhalten transkribiert und für das Training von ChatGPT und anderen LLMs verwendet worden sein. Diese Vorgehensweise bewegt sich jedoch in einer rechtlichen Grauzone, da die Nutzungsbedingungen von YouTube die Verarbeitung von Videos durch externe Quellen untersagen.

Ähnlich wie OpenAI hat Google laut der New York Times Texte aus YouTube-Videos generiert und für die Weiterentwicklung seiner KI-Modelle genutzt. Diese Vorgehensweise hat jedoch potenziell die Urheberrechte der Video-Ersteller verletzt. Als Reaktion darauf hat Google seine Nutzungsbedingungen aktualisiert, um die Verwendung von Daten aus Google-Diensten wie Docs, Restaurant-Rezensionen und Maps für KI-Trainings zu ermöglichen. Daneben wurden Einverständniserklärungen von einigen größeren YouTube-Künstlern eingeholt.

Die Tatsache, dass Unternehmen wie OpenAI und Google auf der Suche nach neuen Datenquellen sind, zeigt einen wachsenden Bedarf an Daten für KI-Modelle. Forschungsinstitute wie Epoch prognostizieren, dass Unternehmen dabei bis 2026 an die Grenzen stoßen könnten, da die Datenproduktion nicht mit der Nachfrage Schritt halten kann. Dies hat bereits OpenAI-CEO Sam Altman im Jahr 2023 während einer Rede betont.

Es ist klar, dass der Bedarf an Daten für KI-Modelle enorm ist, und Unternehmen müssen innovative Wege finden, um diesen Bedarf zu decken. Allerdings müssen sie dabei sicherstellen, dass sie die rechtlichen und ethischen Richtlinien einhalten, um potenzielle Urheberrechtsverletzungen zu vermeiden.

Quellen und weitere Links

KOMMENTARE (5)