樹莓派 5 で DeepSeek R1 大規模モデルをデプロイする：完全ガイド

rpi_deepseek_guide

本ガイドでは、樹莓派 5 で DeepSeek R1 オープンソース大規模言語モデルをデプロイする方法を詳しく説明します。最適化された設定により、リソースが限られたデバイスでも軽量モデルを実行でき、開発者と愛好家にエッジ AI 実験プラットフォームを提供します。

一、準備作業

ハードウェア要件

樹莓派 5：8GB または 16GB メモリバージョンを推奨
ストレージデバイス：少なくとも 32GB の高速 MicroSD カード（A2 クラスを推奨）
冷却ソリューション：アクティブ冷却ファンまたは金属製ヒートシンク（持続高負荷で発熱しやすい）
電源：公式 27W PD 電源（5V 5A）

ソフトウェア準備

64 ビットシステムの書き込み：
Raspberry Pi OS Lite (64-bit)をダウンロード
Raspberry Pi Imagerを使用してシステムを書き込み
初回起動設定： bash sudo raspi-config # SSH/VNC を有効化、ファイルシステムを拡張、SWAP を 2048MB に設定

二、システム最適化設定

1. 基本設定

sudo apt update && sudo apt full-upgrade -y
sudo apt install -y git curl python3-pip cmake

2. メモリ最適化

SWAP 設定を編集：

sudo nano /etc/dphys-swapfile
# 以下に変更：CONF_SWAPSIZE=2048
sudo systemctl restart dphys-swapfile

3. GPU アクセラレーションを有効化

sudo usermod -aG render pi
echo "dtoverlay=vc4-kms-v3d" | sudo tee -a /boot/config.txt
sudo reboot

三、Python 仮想環境の作成

mkdir ~/deepseek_deploy && cd ~/deepseek_deploy
python3 -m venv venv
source venv/bin/activate

四、Ollama 推論フレームワークのインストール

ARM64 バージョンをインストール

curl -fsSL https://ollama.com/install.sh | sh

五、モデルデプロイ実践

方案 A：公式モデルを直接実行

# 1.5B 基本版（入門に推奨）
ollama run deepseek-r1:1.5b

# テスト実行
>>> 樹莓派とは何ですか？

方案 B：カスタム量子化モデル

GGUF 形式モデルをダウンロード： bash wget https://huggingface.co/TheBloke/DeepSeek-R1-Distill-Llama-8B-GGUF/resolve/main/deepseek-r1-distill-llama-8b.Q4_K_M.gguf
Modelfile を作成： bash tee Modelfile <<EOF FROM ./deepseek-r1-distill-llama-8b.Q4_K_M.gguf PARAMETER num_ctx 2048 PARAMETER num_gqa 8 EOF
インポートして実行： bash ollama create deepseek-custom -f Modelfile ollama run deepseek-custom

六、パフォーマンス最適化テクニック

1. 速度向上方案

# CPU 優先度を設定
sudo nice -n -20 ollama run deepseek-r1:1.5b

# Metal シェーダーを使用（GPU アクセラレーション）
export OLLAMA_LLM_METAL=1

2. メモリ最適化設定

# 並列処理数を制限
export OLLAMA_NUM_PARALLEL=1

3. 量子化モデル選択の推奨

モデル仕様	メモリ使用量	推論速度	精度維持
Q2_K	3.2GB	8.5tok/s	60%
Q4_K_M	4.8GB	5.2tok/s	80%
Q6_K	6.4GB	3.1tok/s	90%

七、応用使用テクニック

1. API サービスデプロイ

ollama serve &  # バックグラウンドでサービスを実行
curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-custom",
  "prompt": "樹莓派 5 のパフォーマンス特性",
  "stream": false
}'

2. 中国語最適化プロンプト

template = """[INST] <<SYS>>
あなたは樹莓派上で実行されている AI アシスタントです。簡潔な中国語で回答してください。
現在のシステム時間：{time}
<</SYS>>

{query} [/INST]"""

八、一般的な問題のトラブルシューティング

1. メモリ不足エラー

# メモリ状態を確認
free -h

# 解決策：
# 1. より低い量子化モデルを使用
# 2. SWAP 領域を増加
sudo dphys-swapfile swapoff
sudo nano /etc/dphys-swapfile  # 4096 に変更
sudo dphys-swapfile setup
sudo dphys-swapfile swapon

2. 応答速度が遅い

# CPU 周波数を監視
watch -n 1 "vcgencmd measure_clock arm"

# CPU がフルスピードで実行されていることを確認
sudo apt install cpufrequtils
sudo cpufreq-set -g performance

九、パフォーマンス実測データ

テストシーン	1.5B モデル	8B-Q4 モデル
中国語質問応答時間	2.4s	8.7s
コード生成速度	5tok/s	1.8tok/s
連続対話ラウンド	12 ラウンド	5 ラウンド
メモリピーク使用量	1.8GB	5.3GB

十、応用シーン推奨

スマートホームハブ：Home Assistant と連携して音声制御を実現
プログラミング学習アシスタント：VS Code 遠隔開発デバッグを通じて
教育ロボット：カメラと連携して視覚質問応答を実現
エッジ AI 実験：LoRA 微調整テストプラットフォーム