コンテンツにスキップ

5 台の Mac Mini で AI クラスターを構築?この操作はちょっとヤバい!🤯

macmini-cluster

いくつかの小型 Mac Mini で AI モデルトレーニングクラスターを構築し、ハイエンドグラフィックカードよりも安く省エネにできると考えたことはありますか?最近、あるテックオタクのクレイジーな実験が YouTube で話題を呼びました—彼はなんと 5 台の M4 チップ搭載 Mac Mini で「ミニスーパーコンピューター」を組んだのです!今日は、この神業の背後にある仕組みを解き明かし、自宅で再現する方法(または少なくとも再現したふりをする方法)を見てみましょう。


🍎 なぜ Mac Mini を選ぶのか?アップルチップの「チート」スキル

1. ユニファイドメモリ:CPU と GPU の「共有モバイルバッテリー」

従来のグラフィックカード(NVIDIA RTX 490 など)の VRAM は最大 24GB しかありませんが、ハイエンド Mac Mini 1 台には 64GB のユニファイドメモリが搭載できます—CPU と GPU が同じメモリプールを共有し、データを往復させる必要がありません。これはキッチンとダイニングルームを打通するようなもので、シェフ(GPU)と配膳係(CPU)が走り回る必要がなくなり、配膳速度が直接 2 倍になります!

2. MLX フレームワーク:アップルの「秘密兵器」

アップルは 2023 年に自社チップ専用に最適化された機械学習フレームワークMLXを発表し、M シリーズチップのあらゆるパフォーマンスを絞り出せると謳っています。実測では、MLX で Llama 3 モデルを実行すると、生成速度が PyTorch より 30% 速く、Mac Mini 1 台でハイエンドグラフィックカードと一騎打ちしても負けません!

3. 省エネ狂魔:5 台で 28 ワット?

作者の実測によると、5 台の Mac Mini の待機時総消費電力はわずか 28 ワット、全速実行でも 200 ワットちょっとです。対照的に、RTX 4090 グラフィックカード 1 枚のフルロードは 450 ワット—この電気代の差で、ミルクティーが買えるではありませんか?


🔧 クラスターの構築を手伝います:「レゴブロック」から「水道管接続」まで

ステップ 1:ハードウェア購入リスト

  • Mac Mini × N 台:M4 Pro チップ +64GB メモリのハイエンドモデルを推奨(富豪は M4 Ultra を選択)。
  • Thunderbolt 5 データケーブル × 若干:安物の偽物ケーブルを買わないでください、否则速度が直接 2G 時代に戻ります。
  • Thunderbolt 拡張ドック:Mac Mini 1 台あたり Thunderbolt ポートは 3 つしかないため、3 台以上を接続するには「接线員」としてこれが必要です。

ステップ 2:Thunderbolt ブリッジネットワーク

  • 手動 IP 割り当て:各マシンの IP を 192.168.10.10192.168.10.20……に設定します(強迫症福音)。
  • 「ジャンボフレーム」モードを有効化:Thunderbolt ブリッジ設定でJumbo Packetにチェックを入れ、データパックを引越しトラックのように一度に多くの荷物を運ばせ、路上の渋滞を減らします。
  • Wi-Fi を拒否:実測では Thunderbolt 直接接続が無線より 50% 速い!結局のところ、「有線接続は永遠に負けず、無線遅延は人をダメにする」。

ステップ 3:神器 EXO の登場

  • 分散コンピューティング「初心者パック」:作者が強く推奨するオープンソースツールEXOは、モデルを自動的に破片に分解して異なるマシンに分散処理させ、1 行のコードも書く必要がありません。
  • バージョン番号に注意:このツールの更新は iPhone システムより頻繁で、チュートリアル動画が公開された直後に古くなる可能性があります(作者の原話:「先月の動画はもう役に立たない!」)。

⚡ 実測失敗現場:理想は豊満、現実は骨っぽい

失敗 1:マシンを追加したら逆に遅くなった?

作者が 2 台のベーシック M4(16GB メモリ)を拡張ドックで接続したところ、生成速度がシングルマシン 70 token/s から 45 token/s に暴落!原因は拡張ドックがボトルネックになったことでした。解決策?直接 Thunderbolt で接続、速度は瞬時に 95 token/s に急上昇—やはり、「中間業者」は信頼できない!

失敗 2:32GB メモリ=知能税?

32GB メモリの M4 で 7B モデルを実行すると、速度が 16GB ベーシック版と同じ!原来メモリ帯域幅がボトルネックで、容量ではありません。これはスポーツカーにプールほど大きなタンクを追加したが、エンジン仍是 1.0L 3 気筒—無駄!

失敗 3:5 台のマシンが 1 台のハイエンドに劣る?

作者が 5 台の Mac Mini クラスターで 70B 大規模モデルに挑戦したところ、生成速度は 4.9 token/s で、コーヒーを淹れるほど遅い。対照的に、128GB メモリの MacBook Pro 1 台は、簡単に 100+ token/s を出力。結論:「人多ければ力も大」は AI 界では偽命題かもしれない、モデルが本当にレゴブロックに分解される必要がある場合を除く。


🤔 では……これって結局何に使えるの?

適した人群:

  • ハードウェアオタク:5 台の Mac Mini を重ねて光らせて熱くしたいだけ。
  • 環境戦士:马斯克も点赞するほど省エネ(彼は直接 A100 を買うかもしれないが)。
  • 小モデル愛好家:10B 以下のモデルを実行し、分散コンピューティングの「儀式感」を体験。

劝退ガイド:

  • 大規模モデルプレイヤー:Llama 3-400B を実行したい?素直く H100 を使いましょう。
  • 熱がり星人:5 台のマシンを重ねると、底部のマシンの温度が 40°C に直進、夏は卵を焼ける。
  • 怠け病晚期:パラメータ調整は恋愛より面倒、EXO がどんなに「初心者向け」でも半天折腾する必要がある。

🍻 究極の魂の問い:なぜ直接ハイエンド Mac を買わないの?

作者は最後に心を打ち明けます:「このクラスターを構築したのは純粋にパフォーマンスアート!本当に実用的なら、M4 Max+128GB メモリの MacBook Pro を 1 台買った方が、5 台のベーシック版を圧倒し、Thunderbolt ケーブルの絡まりを心配する必要もない。」だから……暇ではない(またはお金があり余っている)限り、この記事を SF 小説として読むだけでよい。結局のところ、テクノロジーの魅力は時々—必要ないと分かっているのに、あえて試してみることにある!🚀


彩蛋:動画の最後で、作者は静かに M4 Max ハイエンド MacBook Pro を取り出し、5 台の Mac Mini クラスターは瞬時に背景に……(真・人間の真実)