Die geheimen Trainingsdatensätze hinter GPT – BoolQ, PIQA, HellaSwag und mehr

GPT-Modell-Datensätze

Die KI-Entwicklung hat in den letzten Jahren enorme Fortschritte gemacht. Die GPT-Modelle haben im Bereich der natürlichen Sprachverarbeitung besondere Aufmerksamkeit erregt. Wichtige Datensätze wie BoolQ, PIQA, HellaSwag, WinoGrande und ARC bilden die Grundlage für die Entwicklung dieser Modelle.

BoolQ: Wahres oder Falsches erkennen

BoolQ ist ein Datensatz für Natural Language Inference (NLI)-Aufgaben. Er prüft, ob Modelle Fragen mit „Ja" oder „Nein" beantworten können. Der Datensatz enthält 15.942 Beispiele. Diese Fragen entstanden natürlich – in unhingewiesenen, uneingeschränkten Umgebungen.

Datensatz-URL

https://huggingface.co/datasets/boolq

Beispiel

Frage: „is windows movie maker part of windows essentials"

Antwort: Ja

Absatz: „Windows Movie Maker (formerly known as Windows Live Movie Maker in Windows 7) is a discontinued video editing software by Microsoft. It is a part of Windows Essentials software suite..."

PIQA: Physikalische Interaktionsfragen

PIQA (Physical Interaction: Question Answering) ist ein Datensatz für Fragen zur physikalischen Welt. Er bewertet die Fähigkeit von Modellen, Prinzipien der physikalischen Welt zu verstehen und daraus Antworten abzuleiten.

Datensatz-URL

https://huggingface.co/datasets/piqa

Beispiel

Ziel: Wenn Butter gekocht wird und fertig ist, kannst du...

Methode 1: Auf einen Teller gießen

Methode 2: In ein Glas gießen

HellaSwag: Herausforderung für Common-Sense-Reasoning

HellaSwag ist ein herausfordernder Common-Sense-Reasoning-Datensatz. Er verhindert, dass Modelle durch oberflächliche Hinweise raten. Stattdessen werden gefälschte Antworten konstruiert, die tieferes Nachdenken erfordern.

Datensatz-URL

https://huggingface.co/datasets/hellaswag

Beispiel

Aktivität: Eis vom Auto entfernen

Inhalt A: Dann schreibt der Mann über den Schnee auf dem Autofenster, und eine Frau in Winterkleidung lächelt.

WinoGrande: Alltagsweisheit testen

WinoGrande ist ein Datensatz für Pronomenauflösung, der auf dem Winograd Schema Challenge aufbaut. Er gibt Modellen Sätze mit Pronomen und testet, ob sie den richtigen Bezug verstehen.

Datensatz-URL

https://huggingface.co/datasets/winogrande

ARC: Wissenschaftliche Abschlussfragen

ARC (AI2 Reasoning Challenge) enthält Multiple-Choice-Fragen zu Naturwissenschaften aus standardisierten Tests. Es gibt eine „Easy"-Variante (ARC-E) und eine „Challenge"-Variante (ARC-C) für schwierigere Fragen.

Datensatz-URL

https://huggingface.co/datasets/ai2_arc

Fazit

Diese Datensätze spielen eine wichtige Rolle bei der Entwicklung und Bewertung von GPT-Modellen. Sie helfen Forschern, die kognitiven Fähigkeiten von KI-Modellen umfassend zu testen – von einfacher Wahrheitseinstufung über physikalisches Verständnis bis hin zu tiefem logischem Denken.