Zum Inhalt

KI-Cluster mit fünf Mac Minis bauen? Das ist wahnsinnig! 🤯

macmini-cluster

Hast du dich je gefragt, ob du einen KI-Modell-Trainingscluster aus kompakten Mac Minis bauen könntest – kosteneffizienter und energieeffizienter als High-End-GPUs? Ein Tech-Enthusiast baute einen „Mini-Supercomputer" aus fünf M4-Chip-Mac Minis – sein Experiment wurde auf YouTube ein viraler Hit!


🍎 Warum Mac Mini? Apple Silicons „Cheat Code"

1. Unified Memory: Die „geteilte Powerbank" für CPU und GPU

Traditionelle GPUs (wie NVIDIA RTX 4090) bieten maximal 24 GB VRAM, während ein top-konfigurierter Mac Mini 64 GB Unified Memory mitbringt – CPU und GPU teilen sich denselben Speicher-Pool, ohne Datenaustausch. Wie eine offene Küche: Der Koch (GPU) und der Kellner (CPU) müssen nicht mehr hin- und herlaufen!

2. MLX-Framework: Apples „Geheimwaffe"

Apple startete MLX 2023, ein speziell für Apple-Chips optimiertes Machine-Learning-Framework. In Tests läuft MLX Llama-3-Modelle mit 30 % höherer Generierungsgeschwindigkeit als PyTorch.

3. Energieeffizienz-Champion: Fünf Maschinen mit nur 28 W?

Fünf Mac Minis verbrauchen im Leerlauf nur 28 W und unter Vollast etwas über 200 W. Eine einzelne RTX 4090 zieht bei Volllast 450 W – der Stromkostenunterschied ist enorm!


🔧 Cluster-Aufbau Schritt für Schritt

Schritt 1: Hardware-Einkaufsliste

  • Mac Mini × N Einheiten: M4 Pro Chip + 64 GB Arbeitsspeicher empfohlen.
  • Thunderbolt-5-Kabel × mehrere: Keine Billigkabel – sonst fällst du auf 2-G-Geschwindigkeit zurück.
  • Thunderbolt-Hub: Da jeder Mac Mini nur 3 Thunderbolt-Ports hat, wird ein Hub für mehr als 3 Einheiten benötigt.

Schritt 2: Thunderbolt-Netzwerk einrichten

  • Manuelle IP-Zuweisung: Jede Maschine erhält eine IP wie 192.168.10.10, 192.168.10.20 usw.
  • Jumbo Frames aktivieren: In den Thunderbolt-Bridge-Einstellungen Jumbo Packet aktivieren, damit Datenpakete mehr Daten auf einmal transportieren können.
  • Kein WLAN: Thunderbolt-Direktverbindung ist 50 % schneller als kabellos!

Schritt 3: Das Zaubertool EXO

  • Verteiltes Computing leicht gemacht: Das Open-Source-Tool EXO teilt Modelle automatisch in Fragmente auf und verteilt sie auf verschiedene Maschinen – kein Coding nötig.
  • Versionsnummer beachten: Dieses Tool wird sehr häufig aktualisiert; Tutorial-Videos können schnell veraltet sein.

⚡ Realitäts-Check: Ideal vs. Realität

Problem #1: Mehr Maschinen = langsamere Geschwindigkeit?

Beim Verbinden zweier Basis-M4s (16 GB) über einen Hub sank die Generierungsgeschwindigkeit von 70 Token/s (einzelne Maschine) auf 45 Token/s! Der Hub war der Engpass. Lösung: Direkte Thunderbolt-Verbindung – Geschwindigkeit sofort auf 95 Token/s!

Problem #2: 32 GB Arbeitsspeicher sinnlos?

Ein 7B-Modell auf einem 32-GB-M4 lief genauso wie auf dem 16-GB-Basis-Modell! Die Speicherbandbreite ist der Flaschenhals, nicht die Kapazität.

Problem #3: Fünf Maschinen schlechter als eine Top-Konfiguration?

Beim 70B-Modell erreichten fünf Mac Minis nur 4,9 Token/s, während ein einzelnes MacBook Pro mit 128 GB Arbeitsspeicher mühelos über 100 Token/s schaffte.


🤔 Wofür ist das eigentlich gut?

Geeignet für:

  • Hardware-Enthusiasten: Fünf leuchtende, heiße Mac Minis aufgestapelt sehen cool aus.
  • Kleine Modell-Fans: Modelle unter 10B laufen lassen und verteiltes Computing „erleben".

Nicht sinnvoll wenn:

  • Große Modelle gewünscht: Für Llama 3-400B besser bei H100 bleiben.
  • Hitzempfindlichkeit: Fünf aufgestapelte Maschinen – die unterste erreicht 40 °C.