在不同硬件上运行大型语言模型 (LLM) -- 性能比较与分析

在不同硬件上运行大型语言模型

这篇文章深入探讨了在各种硬件上运行大型语言模型 (LLM) 的性能差异，涵盖从低成本的树莓派到高端 AI 工作站。通过分析实际测试数据，我们将了解硬件选择对 LLM 推理速度和整体可用性的影响。

Orion herk 迷你电脑（Ryzen 9 7940HS，Radeon 780M GPU）提供了更流畅的体验。
在 herk 上，LLaMA 3.1 的推理速度可与 ChatGPT 相媲美，表明其具备一定的实用价值。
然而，尽管 herk 配备了 Radeon 780M GPU，但由于其 6GB 显存的限制，LLaMA 3.1 无法加载到 GPU 中，只能依靠 CPU 进行推理。
即使测试了较小的 LLaMA 3.2 模型 (2GB)，也无法使用 GPU 进行推理。
这表明，即使是集成 GPU，也需要足够的显存来容纳 LLM 才能实现高效推理。

配备 Nvidia 6000 Ada 显卡和 512GB 内存的 96 核 Threadripper 工作站可以运行更大的 LLaMA 3.1 模型（4050 亿参数）。
然而，即使在这台强大的硬件上，运行如此庞大的模型仍然会导致推理速度极其缓慢，与树莓派上的体验相差无几。
这说明模型大小对性能的影响可能与硬件一样重要。
当在这台工作站上运行较小且更有效的 LLaMA 3.2 模型 (约 2GB) 时，推理速度变得非常快。

为了更直观地展示不同硬件平台的性能差异，我们可以制作一个简单的表格：

硬件平台	CPU	GPU	内存	LLaMA 3.1 推理速度	LLaMA 3.2 推理速度
树莓派 4	4 核	无	8GB	非常慢 (约 1 词/秒)	未测试
Orion herk	Ryzen 9 7940HS	Radeon 780M (6GB)	32GB	与 ChatGPT 相当	较快
Threadripper 3970X	32 核	Nvidia 4080	128GB	快于 ChatGPT	非常快
Mac Pro	M2 Ultra	集成 GPU	128GB	很快	未测试
Threadripper (96 核)	96 核	Nvidia 6000 Ada	512GB	非常慢 (4050 亿参数模型)	极其快

请注意： 表格中的推理速度描述是相对的，实际性能会受到多种因素的影响，包括模型版本、软件配置和测试环境等。

希望这篇文章能够帮助您更好地了解在不同硬件上运行 LLM 的性能差异，并为您的硬件选择提供一些参考。