Mehr als 170.000 Videos wurden für das Training von KIs großer Unternehmen genutzt. KI-Systeme benötigen enorme Datenmengen, um zu funktionieren. Solche Daten holen sich große Unternehmen wie Nvidia, Apple und Anthropic unter anderem aus quelloffenen Datensets. Allerdings sind darin wohl teils auch urheberrechtlich geschützte Werke enthalten. Das Magazin Proofnews hat etwa herausgefunden , dass ein besonders großer Datensatz namens The Pile Tausende Youtube-Videos verarbeitet hat. Das Proof-Magazin hat ein Programm geschrieben, das die im KI-Datensatz genutzten Textdaten mit den Untertiteln verschiedener Youtube-Kanäle abgleicht. Das Webtool kann für die Suche nach diversen Channels genutzt werden. Vom Wissenschaftskanal Veritasium wurden etwa 71 Videos, vom kleineren Spiele-Youtuber The Warowl zehn Videos gefunden. Daten sind bereits älter Es ist zu beachten, dass die Ergebnisse nur Videos anzeigen, die bis ins Jahr 2020 veröffentlicht wurden. Neuere Inhalte sind...