Aller au contenu

Exécuter des LLM sur différents matériels — comparaison de performances

Cet article examine les différences de performance des LLM selon le matériel, du Raspberry Pi aux stations de travail puissantes. À partir de tests pratiques, nous analysons l'impact du choix matériel sur la vitesse d'inférence et l'utilité.

Matériel bas de gamme : Raspberry Pi

  • Faire tourner LLaMA 3.1 sur un Raspberry Pi 4 (8 Go) est possible mais peu pratique.
  • Sans GPU, l'inférence repose sur le CPU, entraînant des temps de chargement et une génération très lents (~1 mot/s).
  • L'utilisation CPU atteint 100 %, la mémoire utilisée est proche de 6 Go — l'expérience n'est pas adaptée aux interactions en temps réel.

Matériel intermédiaire : mini‑PC

  • Un mini‑PC Orion herk (Ryzen 9 7940HS, Radeon 780M) offre une expérience plus fluide.
  • Malgré la GPU intégrée, la VRAM (6 Go) empêche souvent le chargement complet de grands modèles sur GPU, forçant l'utilisation CPU.
  • Même des modèles plus petits peuvent rester limités par la mémoire GPU.

Matériel haut de gamme : PC de jeu et stations

  • Un PC avec une Nvidia 4080 (Threadripper 3970X) montre d'excellentes performances pour LLaMA 3.1, avec une utilisation GPU 75–100 % et des vitesses supérieures à celles de ChatGPT.
  • Les Mac équipés de M2 Ultra offrent également de solides performances.

Matériel très haut de gamme : stations IA

  • Une station Threadripper 96 cœurs avec Nvidia 6000 Ada et 512 Go peut exécuter d'énormes modèles, mais l'inférence reste parfois lente pour des modèles massifs.
  • Les modèles plus petits et optimisés s'exécutent très rapidement sur ces machines.

Conclusion

  • Le choix du matériel dépend du compromis coût/performance : les GPU dédiés et la mémoire sont cruciaux pour les grands LLM.
  • Pour des usages légers, un mini‑PC peut suffire ; pour des performances sérieuses, investir dans des GPU et plus de RAM est recommandé.

Tableau comparatif

Plateforme CPU GPU RAM Vitesse LLaMA 3.1 Vitesse LLaMA 3.2
Raspberry Pi 4 4 cœurs 8 Go Très lent (~1 mot/s) Non testé
Orion herk Ryzen 9 7940HS Radeon 780M (6 Go) 32 Go Comparable à ChatGPT Rapidité variable
Threadripper 3970X 32 cœurs Nvidia 4080 128 Go Plus rapide que ChatGPT Très rapide
Mac Pro (M2 Ultra) M2 Ultra GPU intégré 128 Go Rapide Non testé
Station 96 cœurs 96 cœurs Nvidia 6000 Ada 512 Go Lent pour modèles énormes Très rapide