Exécuter des LLM sur différents matériels — comparaison de performances
Cet article examine les différences de performance des LLM selon le matériel, du Raspberry Pi aux stations de travail puissantes. À partir de tests pratiques, nous analysons l'impact du choix matériel sur la vitesse d'inférence et l'utilité.
Matériel bas de gamme : Raspberry Pi
- Faire tourner LLaMA 3.1 sur un Raspberry Pi 4 (8 Go) est possible mais peu pratique.
- Sans GPU, l'inférence repose sur le CPU, entraînant des temps de chargement et une génération très lents (~1 mot/s).
- L'utilisation CPU atteint 100 %, la mémoire utilisée est proche de 6 Go — l'expérience n'est pas adaptée aux interactions en temps réel.
Matériel intermédiaire : mini‑PC
- Un mini‑PC Orion herk (Ryzen 9 7940HS, Radeon 780M) offre une expérience plus fluide.
- Malgré la GPU intégrée, la VRAM (6 Go) empêche souvent le chargement complet de grands modèles sur GPU, forçant l'utilisation CPU.
- Même des modèles plus petits peuvent rester limités par la mémoire GPU.
Matériel haut de gamme : PC de jeu et stations
- Un PC avec une Nvidia 4080 (Threadripper 3970X) montre d'excellentes performances pour LLaMA 3.1, avec une utilisation GPU 75–100 % et des vitesses supérieures à celles de ChatGPT.
- Les Mac équipés de M2 Ultra offrent également de solides performances.
Matériel très haut de gamme : stations IA
- Une station Threadripper 96 cœurs avec Nvidia 6000 Ada et 512 Go peut exécuter d'énormes modèles, mais l'inférence reste parfois lente pour des modèles massifs.
- Les modèles plus petits et optimisés s'exécutent très rapidement sur ces machines.
Conclusion
- Le choix du matériel dépend du compromis coût/performance : les GPU dédiés et la mémoire sont cruciaux pour les grands LLM.
- Pour des usages légers, un mini‑PC peut suffire ; pour des performances sérieuses, investir dans des GPU et plus de RAM est recommandé.
Tableau comparatif
| Plateforme | CPU | GPU | RAM | Vitesse LLaMA 3.1 | Vitesse LLaMA 3.2 |
|---|---|---|---|---|---|
| Raspberry Pi 4 | 4 cœurs | — | 8 Go | Très lent (~1 mot/s) | Non testé |
| Orion herk | Ryzen 9 7940HS | Radeon 780M (6 Go) | 32 Go | Comparable à ChatGPT | Rapidité variable |
| Threadripper 3970X | 32 cœurs | Nvidia 4080 | 128 Go | Plus rapide que ChatGPT | Très rapide |
| Mac Pro (M2 Ultra) | M2 Ultra | GPU intégré | 128 Go | Rapide | Non testé |
| Station 96 cœurs | 96 cœurs | Nvidia 6000 Ada | 512 Go | Lent pour modèles énormes | Très rapide |