
Das Proof-Magazin hat ein Programm geschrieben, das die im KI-Datensatz genutzten Textdaten mit den Untertiteln verschiedener Youtube-Kanäle abgleicht. Das Webtool kann für die Suche nach diversen Channels genutzt werden. Vom Wissenschaftskanal Veritasium wurden etwa 71 Videos, vom kleineren Spiele-Youtuber The Warowl zehn Videos gefunden.
Daten sind bereits älter
Es ist zu beachten, dass die Ergebnisse nur Videos anzeigen, die bis ins Jahr 2020 veröffentlicht wurden. Neuere Inhalte sind nicht darunter. Das kann auch der offiziellen Webseite von The Pile entnommen werden. Dort werden Benchmarks aus dem Jahr 2021 gelistet. Der 825 GByte große Datensatz wurde anscheinend seitdem nicht weiterentwickelt.
Und trotzdem: Unter anderem OpenAIs GPT-3 wurde mit The Pile trainiert. Das Modell gilt als einer der Grundsteine für den frühen Erfolg von ChatGPT und den späteren Hype rund um Large Language Models. Außerdem haben Unternehmen wie Nvidia, Salesforce und Apple ebenfalls auf den Datensatz zugegriffen, um ihre LLMs zu trainieren. Quelle: golem
Kommentare
Kommentar veröffentlichen
Kommentar