Exécuter des LLM sur différents matériels — comparaison de performances

Cet article examine les différences de performance des LLM selon le matériel, du Raspberry Pi aux stations de travail puissantes. À partir de tests pratiques, nous analysons l'impact du choix matériel sur la vitesse d'inférence et l'utilité.

Matériel bas de gamme : Raspberry Pi

Faire tourner LLaMA 3.1 sur un Raspberry Pi 4 (8 Go) est possible mais peu pratique.
Sans GPU, l'inférence repose sur le CPU, entraînant des temps de chargement et une génération très lents (~1 mot/s).
L'utilisation CPU atteint 100 %, la mémoire utilisée est proche de 6 Go — l'expérience n'est pas adaptée aux interactions en temps réel.

Matériel intermédiaire : mini‑PC

Un mini‑PC Orion herk (Ryzen 9 7940HS, Radeon 780M) offre une expérience plus fluide.
Malgré la GPU intégrée, la VRAM (6 Go) empêche souvent le chargement complet de grands modèles sur GPU, forçant l'utilisation CPU.
Même des modèles plus petits peuvent rester limités par la mémoire GPU.

Matériel haut de gamme : PC de jeu et stations

Un PC avec une Nvidia 4080 (Threadripper 3970X) montre d'excellentes performances pour LLaMA 3.1, avec une utilisation GPU 75–100 % et des vitesses supérieures à celles de ChatGPT.
Les Mac équipés de M2 Ultra offrent également de solides performances.

Matériel très haut de gamme : stations IA

Une station Threadripper 96 cœurs avec Nvidia 6000 Ada et 512 Go peut exécuter d'énormes modèles, mais l'inférence reste parfois lente pour des modèles massifs.
Les modèles plus petits et optimisés s'exécutent très rapidement sur ces machines.

Conclusion

Le choix du matériel dépend du compromis coût/performance : les GPU dédiés et la mémoire sont cruciaux pour les grands LLM.
Pour des usages légers, un mini‑PC peut suffire ; pour des performances sérieuses, investir dans des GPU et plus de RAM est recommandé.

Tableau comparatif

Plateforme	CPU	GPU	RAM	Vitesse LLaMA 3.1	Vitesse LLaMA 3.2
Raspberry Pi 4	4 cœurs	—	8 Go	Très lent (~1 mot/s)	Non testé
Orion herk	Ryzen 9 7940HS	Radeon 780M (6 Go)	32 Go	Comparable à ChatGPT	Rapidité variable
Threadripper 3970X	32 cœurs	Nvidia 4080	128 Go	Plus rapide que ChatGPT	Très rapide
Mac Pro (M2 Ultra)	M2 Ultra	GPU intégré	128 Go	Rapide	Non testé
Station 96 cœurs	96 cœurs	Nvidia 6000 Ada	512 Go	Lent pour modèles énormes	Très rapide