Die geheimen Trainingsdatensätze hinter GPT – BoolQ, PIQA, HellaSwag und mehr

Die KI-Entwicklung hat in den letzten Jahren enorme Fortschritte gemacht. Die GPT-Modelle haben im Bereich der natürlichen Sprachverarbeitung besondere Aufmerksamkeit erregt. Wichtige Datensätze wie BoolQ, PIQA, HellaSwag, WinoGrande und ARC bilden die Grundlage für die Entwicklung dieser Modelle.
BoolQ: Wahres oder Falsches erkennen
BoolQ ist ein Datensatz für Natural Language Inference (NLI)-Aufgaben. Er prüft, ob Modelle Fragen mit „Ja" oder „Nein" beantworten können. Der Datensatz enthält 15.942 Beispiele. Diese Fragen entstanden natürlich – in unhingewiesenen, uneingeschränkten Umgebungen.
Datensatz-URL
https://huggingface.co/datasets/boolq
Beispiel
Frage: „is windows movie maker part of windows essentials"
Antwort: Ja
Absatz: „Windows Movie Maker (formerly known as Windows Live Movie Maker in Windows 7) is a discontinued video editing software by Microsoft. It is a part of Windows Essentials software suite..."
PIQA: Physikalische Interaktionsfragen
PIQA (Physical Interaction: Question Answering) ist ein Datensatz für Fragen zur physikalischen Welt. Er bewertet die Fähigkeit von Modellen, Prinzipien der physikalischen Welt zu verstehen und daraus Antworten abzuleiten.
Datensatz-URL
https://huggingface.co/datasets/piqa
Beispiel
Ziel: Wenn Butter gekocht wird und fertig ist, kannst du...
Methode 1: Auf einen Teller gießen
Methode 2: In ein Glas gießen
HellaSwag: Herausforderung für Common-Sense-Reasoning
HellaSwag ist ein herausfordernder Common-Sense-Reasoning-Datensatz. Er verhindert, dass Modelle durch oberflächliche Hinweise raten. Stattdessen werden gefälschte Antworten konstruiert, die tieferes Nachdenken erfordern.
Datensatz-URL
https://huggingface.co/datasets/hellaswag
Beispiel
Aktivität: Eis vom Auto entfernen
Inhalt A: Dann schreibt der Mann über den Schnee auf dem Autofenster, und eine Frau in Winterkleidung lächelt.
WinoGrande: Alltagsweisheit testen
WinoGrande ist ein Datensatz für Pronomenauflösung, der auf dem Winograd Schema Challenge aufbaut. Er gibt Modellen Sätze mit Pronomen und testet, ob sie den richtigen Bezug verstehen.
Datensatz-URL
https://huggingface.co/datasets/winogrande
ARC: Wissenschaftliche Abschlussfragen
ARC (AI2 Reasoning Challenge) enthält Multiple-Choice-Fragen zu Naturwissenschaften aus standardisierten Tests. Es gibt eine „Easy"-Variante (ARC-E) und eine „Challenge"-Variante (ARC-C) für schwierigere Fragen.
Datensatz-URL
https://huggingface.co/datasets/ai2_arc
Fazit
Diese Datensätze spielen eine wichtige Rolle bei der Entwicklung und Bewertung von GPT-Modellen. Sie helfen Forschern, die kognitiven Fähigkeiten von KI-Modellen umfassend zu testen – von einfacher Wahrheitseinstufung über physikalisches Verständnis bis hin zu tiefem logischem Denken.