PIQA : Défi des questions sur les interactions physiques
PIQA (Physical Interaction: Question Answering) est spécialisé dans les questions d’interaction physique, évaluant la capacité d’un modèle à comprendre les principes physiques du monde réel.
Caractéristiques principales :
- Évaluation : Compréhension des lois physiques
- Complexité : Questions requérant inférence logique
- Application : Compréhension commune du “comment ça marche”
Exemple : “Quand vous faites bouillir du beurre, quand c’est prêt, vous pouvez…”
Accès : https://huggingface.co/datasets/piqa
HellaSwag : Le défi du raisonnement de sens commun
HellaSwag defie le raisonnement de sens commun avec des réponses conçues pour sembler plausibles mais être incorrectes, forçant les modèles à faire du raisonnement profond.
Caractéristiques principales :
- Objectif : Prévenir les modèles de deviner basé sur indices superficiels
- Réponses distractrices : Conçues intelligemment
- Difficulté : Nécessite compréhension véritable du contexte
Accès : https://huggingface.co/datasets/hellaswag
WinoGrande : Nouveau défi du raisonnement
WinoGrande est un dataset basé sur le raisonnement pour la compréhension du langage naturel, avec 12 000+ exemples de questions de remplissage d’espaces (fill-in-the-blank) complexes.
Caractéristiques principales :
- Format : Questions de remplissage d’espaces
- Complexité : Résolution de références ambiguës
- Domaine : Raisonnement de sens commun avancé
Accès : https://huggingface.co/datasets/winogrande
Série ARC : Questions scientifiques authentiques
Le dataset ARC contient 7 787 questions scientifiques authentiques niveau élémentaire en deux versions : ARC-Easy (simples) et ARC-Challenge (complexes).
Caractéristiques principales :
- ARC-Easy : Évaluation initiale
- ARC-Challenge : Raisonnement profond
- Domaine : Sciences (physique, chimie, biologie)
Accès : https://huggingface.co/datasets/vietgpt/ARC-Challenge_en
Conclusions
Ces cinq datasets jouent des rôles critiques dans l’évaluation des modèles GPT :
- BoolQ : Compréhension et raisonnement binaire
- PIQA : Compréhension du monde physique
- HellaSwag : Raisonnement de sens commun
- WinoGrande : Résolution de références complexes
- ARC : Raisonnement scientifique
Ensemble, ils poussent les modèles d’IA à leurs limites et permettent une évaluation rigoureuse de leurs capacités réelles.