樹莓派 5 で DeepSeek R1 大規模モデルをデプロイする:完全ガイド

本ガイドでは、樹莓派 5 で DeepSeek R1 オープンソース大規模言語モデルをデプロイする方法を詳しく説明します。最適化された設定により、リソースが限られたデバイスでも軽量モデルを実行でき、開発者と愛好家にエッジ AI 実験プラットフォームを提供します。
一、準備作業
ハードウェア要件
- 樹莓派 5:8GB または 16GB メモリバージョンを推奨
- ストレージデバイス:少なくとも 32GB の高速 MicroSD カード(A2 クラスを推奨)
- 冷却ソリューション:アクティブ冷却ファンまたは金属製ヒートシンク(持続高負荷で発熱しやすい)
- 電源:公式 27W PD 電源(5V 5A)
ソフトウェア準備
- 64 ビットシステムの書き込み:
- Raspberry Pi OS Lite (64-bit)をダウンロード
- Raspberry Pi Imagerを使用してシステムを書き込み
- 初回起動設定:
bash sudo raspi-config # SSH/VNC を有効化、ファイルシステムを拡張、SWAP を 2048MB に設定
二、システム最適化設定
1. 基本設定
sudo apt update && sudo apt full-upgrade -y
sudo apt install -y git curl python3-pip cmake
2. メモリ最適化
SWAP 設定を編集:
sudo nano /etc/dphys-swapfile
# 以下に変更:CONF_SWAPSIZE=2048
sudo systemctl restart dphys-swapfile
3. GPU アクセラレーションを有効化
sudo usermod -aG render pi
echo "dtoverlay=vc4-kms-v3d" | sudo tee -a /boot/config.txt
sudo reboot
三、Python 仮想環境の作成
mkdir ~/deepseek_deploy && cd ~/deepseek_deploy
python3 -m venv venv
source venv/bin/activate
四、Ollama 推論フレームワークのインストール
ARM64 バージョンをインストール
curl -fsSL https://ollama.com/install.sh | sh
五、モデルデプロイ実践
方案 A:公式モデルを直接実行
# 1.5B 基本版(入門に推奨)
ollama run deepseek-r1:1.5b
# テスト実行
>>> 樹莓派とは何ですか?
方案 B:カスタム量子化モデル
-
GGUF 形式モデルをダウンロード:
bash wget https://huggingface.co/TheBloke/DeepSeek-R1-Distill-Llama-8B-GGUF/resolve/main/deepseek-r1-distill-llama-8b.Q4_K_M.gguf -
Modelfile を作成:
bash tee Modelfile <<EOF FROM ./deepseek-r1-distill-llama-8b.Q4_K_M.gguf PARAMETER num_ctx 2048 PARAMETER num_gqa 8 EOF -
インポートして実行:
bash ollama create deepseek-custom -f Modelfile ollama run deepseek-custom
六、パフォーマンス最適化テクニック
1. 速度向上方案
# CPU 優先度を設定
sudo nice -n -20 ollama run deepseek-r1:1.5b
# Metal シェーダーを使用(GPU アクセラレーション)
export OLLAMA_LLM_METAL=1
2. メモリ最適化設定
# 並列処理数を制限
export OLLAMA_NUM_PARALLEL=1
3. 量子化モデル選択の推奨
| モデル仕様 | メモリ使用量 | 推論速度 | 精度維持 |
|---|---|---|---|
| Q2_K | 3.2GB | 8.5tok/s | 60% |
| Q4_K_M | 4.8GB | 5.2tok/s | 80% |
| Q6_K | 6.4GB | 3.1tok/s | 90% |
七、応用使用テクニック
1. API サービスデプロイ
ollama serve & # バックグラウンドでサービスを実行
curl http://localhost:11434/api/generate -d '{
"model": "deepseek-custom",
"prompt": "樹莓派 5 のパフォーマンス特性",
"stream": false
}'
2. 中国語最適化プロンプト
template = """[INST] <<SYS>>
あなたは樹莓派上で実行されている AI アシスタントです。簡潔な中国語で回答してください。
現在のシステム時間:{time}
<</SYS>>
{query} [/INST]"""
八、一般的な問題のトラブルシューティング
1. メモリ不足エラー
# メモリ状態を確認
free -h
# 解決策:
# 1. より低い量子化モデルを使用
# 2. SWAP 領域を増加
sudo dphys-swapfile swapoff
sudo nano /etc/dphys-swapfile # 4096 に変更
sudo dphys-swapfile setup
sudo dphys-swapfile swapon
2. 応答速度が遅い
# CPU 周波数を監視
watch -n 1 "vcgencmd measure_clock arm"
# CPU がフルスピードで実行されていることを確認
sudo apt install cpufrequtils
sudo cpufreq-set -g performance
九、パフォーマンス実測データ
| テストシーン | 1.5B モデル | 8B-Q4 モデル |
|---|---|---|
| 中国語質問応答時間 | 2.4s | 8.7s |
| コード生成速度 | 5tok/s | 1.8tok/s |
| 連続対話ラウンド | 12 ラウンド | 5 ラウンド |
| メモリピーク使用量 | 1.8GB | 5.3GB |
十、応用シーン推奨
- スマートホームハブ:Home Assistant と連携して音声制御を実現
- プログラミング学習アシスタント:VS Code 遠隔開発デバッグを通じて
- 教育ロボット:カメラと連携して視覚質問応答を実現
- エッジ AI 実験:LoRA 微調整テストプラットフォーム