Exécuter des LLM sur différents matériels — comparaison de performances

Exécuter des LLM sur différents matériels — comparaison de performances

Cet article examine les différences de performance des LLM selon le matériel, du Raspberry Pi aux stations de travail puissantes. À partir de tests pratiques, nous analysons l’impact du choix matériel sur la vitesse d’inférence et l’utilité.

Matériel bas de gamme : Raspberry Pi

  • Faire tourner LLaMA 3.1 sur un Raspberry Pi 4 (8 Go) est possible mais peu pratique.
  • Sans GPU, l’inférence repose sur le CPU, entraînant des temps de chargement et une génération très lents (~1 mot/s).
  • L’utilisation CPU atteint 100 %, la mémoire utilisée est proche de 6 Go — l’expérience n’est pas adaptée aux interactions en temps réel.

Matériel intermédiaire : mini‑PC

  • Un mini‑PC Orion herk (Ryzen 9 7940HS, Radeon 780M) offre une expérience plus fluide.
  • Malgré la GPU intégrée, la VRAM (6 Go) empêche souvent le chargement complet de grands modèles sur GPU, forçant l’utilisation CPU.
  • Même des modèles plus petits peuvent rester limités par la mémoire GPU.

Matériel haut de gamme : PC de jeu et stations

  • Un PC avec une Nvidia 4080 (Threadripper 3970X) montre d’excellentes performances pour LLaMA 3.1, avec une utilisation GPU 75–100 % et des vitesses supérieures à celles de ChatGPT.
  • Les Mac équipés de M2 Ultra offrent également de solides performances.

Matériel très haut de gamme : stations IA

  • Une station Threadripper 96 cœurs avec Nvidia 6000 Ada et 512 Go peut exécuter d’énormes modèles, mais l’inférence reste parfois lente pour des modèles massifs.
  • Les modèles plus petits et optimisés s’exécutent très rapidement sur ces machines.

Conclusion

  • Le choix du matériel dépend du compromis coût/performance : les GPU dédiés et la mémoire sont cruciaux pour les grands LLM.
  • Pour des usages légers, un mini‑PC peut suffire ; pour des performances sérieuses, investir dans des GPU et plus de RAM est recommandé.

Tableau comparatif

PlateformeCPUGPURAMVitesse LLaMA 3.1Vitesse LLaMA 3.2
Raspberry Pi 44 cœurs8 GoTrès lent (~1 mot/s)Non testé
Orion herkRyzen 9 7940HSRadeon 780M (6 Go)32 GoComparable à ChatGPTRapidité variable
Threadripper 3970X32 cœursNvidia 4080128 GoPlus rapide que ChatGPTTrès rapide
Mac Pro (M2 Ultra)M2 UltraGPU intégré128 GoRapideNon testé
Station 96 cœurs96 cœursNvidia 6000 Ada512 GoLent pour modèles énormesTrès rapide
v260