KI-Cluster mit fünf Mac Minis bauen? Das ist wahnsinnig! 🤯

Hast du dich je gefragt, ob du einen KI-Modell-Trainingscluster aus kompakten Mac Minis bauen könntest – kosteneffizienter und energieeffizienter als High-End-GPUs? Ein Tech-Enthusiast baute einen „Mini-Supercomputer" aus fünf M4-Chip-Mac Minis – sein Experiment wurde auf YouTube ein viraler Hit!
🍎 Warum Mac Mini? Apple Silicons „Cheat Code"
1. Unified Memory: Die „geteilte Powerbank" für CPU und GPU
Traditionelle GPUs (wie NVIDIA RTX 4090) bieten maximal 24 GB VRAM, während ein top-konfigurierter Mac Mini 64 GB Unified Memory mitbringt – CPU und GPU teilen sich denselben Speicher-Pool, ohne Datenaustausch. Wie eine offene Küche: Der Koch (GPU) und der Kellner (CPU) müssen nicht mehr hin- und herlaufen!
2. MLX-Framework: Apples „Geheimwaffe"
Apple startete MLX 2023, ein speziell für Apple-Chips optimiertes Machine-Learning-Framework. In Tests läuft MLX Llama-3-Modelle mit 30 % höherer Generierungsgeschwindigkeit als PyTorch.
3. Energieeffizienz-Champion: Fünf Maschinen mit nur 28 W?
Fünf Mac Minis verbrauchen im Leerlauf nur 28 W und unter Vollast etwas über 200 W. Eine einzelne RTX 4090 zieht bei Volllast 450 W – der Stromkostenunterschied ist enorm!
🔧 Cluster-Aufbau Schritt für Schritt
Schritt 1: Hardware-Einkaufsliste
- Mac Mini × N Einheiten: M4 Pro Chip + 64 GB Arbeitsspeicher empfohlen.
- Thunderbolt-5-Kabel × mehrere: Keine Billigkabel – sonst fällst du auf 2-G-Geschwindigkeit zurück.
- Thunderbolt-Hub: Da jeder Mac Mini nur 3 Thunderbolt-Ports hat, wird ein Hub für mehr als 3 Einheiten benötigt.
Schritt 2: Thunderbolt-Netzwerk einrichten
- Manuelle IP-Zuweisung: Jede Maschine erhält eine IP wie
192.168.10.10,192.168.10.20usw. - Jumbo Frames aktivieren: In den Thunderbolt-Bridge-Einstellungen Jumbo Packet aktivieren, damit Datenpakete mehr Daten auf einmal transportieren können.
- Kein WLAN: Thunderbolt-Direktverbindung ist 50 % schneller als kabellos!
Schritt 3: Das Zaubertool EXO
- Verteiltes Computing leicht gemacht: Das Open-Source-Tool EXO teilt Modelle automatisch in Fragmente auf und verteilt sie auf verschiedene Maschinen – kein Coding nötig.
- Versionsnummer beachten: Dieses Tool wird sehr häufig aktualisiert; Tutorial-Videos können schnell veraltet sein.
⚡ Realitäts-Check: Ideal vs. Realität
Problem #1: Mehr Maschinen = langsamere Geschwindigkeit?
Beim Verbinden zweier Basis-M4s (16 GB) über einen Hub sank die Generierungsgeschwindigkeit von 70 Token/s (einzelne Maschine) auf 45 Token/s! Der Hub war der Engpass. Lösung: Direkte Thunderbolt-Verbindung – Geschwindigkeit sofort auf 95 Token/s!
Problem #2: 32 GB Arbeitsspeicher sinnlos?
Ein 7B-Modell auf einem 32-GB-M4 lief genauso wie auf dem 16-GB-Basis-Modell! Die Speicherbandbreite ist der Flaschenhals, nicht die Kapazität.
Problem #3: Fünf Maschinen schlechter als eine Top-Konfiguration?
Beim 70B-Modell erreichten fünf Mac Minis nur 4,9 Token/s, während ein einzelnes MacBook Pro mit 128 GB Arbeitsspeicher mühelos über 100 Token/s schaffte.
🤔 Wofür ist das eigentlich gut?
Geeignet für:
- Hardware-Enthusiasten: Fünf leuchtende, heiße Mac Minis aufgestapelt sehen cool aus.
- Kleine Modell-Fans: Modelle unter 10B laufen lassen und verteiltes Computing „erleben".
Nicht sinnvoll wenn:
- Große Modelle gewünscht: Für Llama 3-400B besser bei H100 bleiben.
- Hitzempfindlichkeit: Fünf aufgestapelte Maschinen – die unterste erreicht 40 °C.