KI-Video-Generierung Prompt Engineering 2026: Der komplette Leitfaden
Die KI-Video-Generierung hat 2026 ein Stadium erreicht, in dem "gut geschrieben vs. schlecht geschrieben einen himmelweiten Unterschied macht." Mit demselben Modell produzieren einige kinoartige Qualität, während andere einen Haufen verzerrter Pixelblöcke erhalten -- der Unterschied liegt ausschließlich im Prompt.
Dieser Artikel verzichtet auf Füllmaterial und liefert direkt die Essenz. Nach dem Lesen kannst du wiederverwendbare Video-Generierungs-Prompts schreiben.
Warum sind Video-Prompts schwieriger als Bild-Prompts?
Bei der Bildgenerierung muss nur ein einzelnes "Frame" beschrieben werden. Die Video-Generierung erfordert die gleichzeitige Kontrolle von drei Dimensionen: räumlich (Bildinhalt) + zeitlich (Bewegung/Veränderung) + Audio (Dialog/Soundeffekte).
Fehlt eine Dimension, füllt das Modell die Lücken selbst -- und das, was das Modell sich ausdenkt, ist meist nicht das, was du willst.
Die Sechs-Elemente-Struktur von Prompts
Ein vollständiger Video-Prompt sollte die folgenden sechs Dimensionen abdecken. Du musst nicht jedes Mal alle ausfüllen, aber du solltest wissen, dass sie existieren.
1. Subjekt (Subject)
Beschreibe, wer/was im Bild ist. Je spezifischer, desto besser.
# Verschwommen
Ein Mädchen geht die Straße entlang
# Spezifisch
Ein 20-jähriges asiatisches Mädchen in einem roten Trenchcoat, mit langem glattem schwarzem Haar, geht durch die Shibuya-Kreuzung in Tokio
2. Bewegung (Motion)
Beschreibe, was das Subjekt tut und wie es sich bewegt. Dies ist der Kernunterschied zwischen Video-Prompts und Bild-Prompts.
# Keine Bewegungsinformation
Ein Mädchen geht die Straße entlang
# Klare Bewegung
Sie geht zügig vorwärts, der Saum ihres Mantels weht im Wind, leichte Schritte, die Kamera folgt ihr vorwärts
Häufig verwendete Bewegungsbegriffe:
| Bewegungsart | Englische Keywords | Effekt |
|---|---|---|
| Translation | walking, running, flying | Subjekt bewegt sich |
| Langsame Bewegung | slowly drifting, gently swaying | Sanfte Atmosphäre |
| Schnelle Bewegung | sprinting, rushing, zooming | Geschwindigkeitsgefühl |
| Rotation | spinning, rotating, orbiting | Orbit-Kamera |
| Morphing/Auflösen | morphing, dissolving, transforming | Kreative Übergänge |
3. Umgebung/Szene (Environment)
Beschreibe, wo. Einschließlich Ort, Wetter und Uhrzeit.
# Vollständige Umgebungsbeschreibung
Shibuya-Kreuzung in Tokio, Nacht, Neonlichter flackern, leichter Regen, der Boden reflektiert bunte Lichtflecken
4. Kameraarbeit (Camera Work)
Dies ist der Teil, den die meisten Anfänger übersehen. Mit welcher Kamera gedreht wird bestimmt direkt die Bildqualität.
# Professionelle Kamerabeschreibung
Nahaufnahme, geringe Schärfentiefe, Hintergrundunscharf, langsames Hineinfahren (slow push-in), Handkamera-Stil
Häufig verwendete Kamerabegriffe:
| Kameratyp | Effekt |
|---|---|
close-up / Nahaufnahme |
Betont Gesichtsausdruck oder Detail |
medium shot / Halbnah |
Person halb, am häufigsten verwendet |
wide shot / Totale |
Zeigt die gesamte Umgebung |
bird's eye view / Vogelperspektive |
Draufsicht direkt von oben |
low angle / Untersicht |
Untersicht, erzeugt Druck oder Heroismus |
dolly zoom / Dolly-Zoom |
Hintergrundkompression, klassischer Thriller-Effekt |
tracking shot / Verfolgung |
Kamera folgt der Bewegung des Subjekts |
pan / Schwenk |
Horizontale Kameradrehung |
slow push-in / Langsames Hineinfahren |
Erzeugt Spannung oder Fokus |
5. Licht und Stimmung (Lighting & Mood)
Licht bestimmt die emotionale Wirkung des Bildes.
# Lichtbeschreibung
Warmtoniges Gegenlicht bei Sonnenuntergang, goldener Schimmer auf dem Gesicht, hoher Kontrast, кино-grade Color Grading (cinematic color grading)
Häufig verwendete Licht-Keywords:
golden hour-- Goldene Stunde (warmes Licht bei Sonnenaufgang/-untergang)blue hour-- Blaue Stunde (Dämmerungs-Blau)dramatic lighting-- Dramatisches Licht und Schattensoft diffused light-- Weiches Streulichtneon glow-- Neon-Glühenbacklit / silhouette-- Gegenlicht/Silhouettehigh key / low key-- High-Key/Low-Key
6. Stil und Qualität (Style & Quality)
Sag dem Modell, welchen Stil Video du willst.
# Stilbeschreibung
Kinomäßige Qualität, 4K-Auflösung, Filmkörnung, Deakins-Fotografiestil, Bildformat 2.39:1
Häufig verwendete Stil-Keywords:
cinematic-- Kinomäßige Qualitätphotorealistic-- Realistischer Stilanime style-- Anime-Stildocumentary style-- Dokumentarstil3D animation-- 3D-Animationwatercolor / oil painting-- Aquarell-/Ölmaler-Stil
Vollständiger Prompt-Template
Verbinde die sechs Elemente zu einem vollständigen Prompt:
[Subjekt] + [Bewegung] + [Umgebung/Szene] + [Kameraarbeit] + [Licht und Stimmung] + [Stil und Qualität]
Praxisbeispiel:
A 30-year-old man in a dark suit, standing on a rooftop at midnight, rain falling around him.
He slowly turns his head toward the camera, a faint smile on his face.
Medium shot, slow push-in, shallow depth of field with the city skyline softly blurred in the background.
Cold blue moonlight from above, warm orange neon signs reflecting on wet surfaces,
high contrast, cinematic color grading, 4K resolution, anamorphic lens flares,
aspect ratio 2.39:1.
Chinesische Prompts funktionieren mit derselben Struktur -- aber beachte, dass die meisten KI-Video-Modelle englische Prompts weit besser verstehen als chinesische. Verwende wann immer möglich Englisch.
Plattformspezifische Prompt-Unterschiede
Verschiedene Modelle reagieren unterschiedlich auf Prompts. Diese Unterschiede zu verstehen spart dir viele Irrwege.
Kling 3.0
- Hervorragendes Verständnis für physische Bewegung, Bewegung sollte spezifisch beschrieben werden
- Unterstützt chinesische Prompts, freundlich für Nutzer in China
- Stark bei realistischen Szenen, hohe Wiedergabetreue für Materialien und Licht
- Prompt-Tipp: Aktionen und physische Interaktionen detailliert beschreiben
- Website: klingai.com
# Kling 3.0 Stil-Prompt
A woman pouring coffee from a ceramic mug into a glass cup,
liquid streams visible with natural physics, steam rising,
close-up shot, warm kitchen lighting, photorealistic, 4K
Google Veo 3.1
- Unterstützt native Audio-Video-Synchronisation, du kannst Sound im Prompt beschreiben
- Unterstützt bis zu 15 Sekunden, 1080p-Ausgabe
- Kino-Bildqualität, ideal für narrative Inhalte
- Prompt-Tipp: Audio-Beschreibung hinzufügen, wie Dialoge, Umgebungsgeräusche
- Website: deepmind.google/veo
# Veo 3.1 Stil-Prompt (mit Audio)
A jazz pianist playing in a dimly lit club, fingers moving across the keys,
slow zoom into the piano. Smooth jazz music playing,
crowd murmuring softly in the background,
warm amber lighting, cinematic, 4K
Runway Gen-4.5
- Leistungsstarke Bild-zu-Video (I2V)-Funktionen
- Unterstützt präzise Bewegungssteuerung (Motion Brush)
- Ideal zum Erstellen von Videos aus Standbildern
- Prompt-Tipp: Mit Referenzbildern verwenden, Textbeschreibung ergänzt Bewegung
- Website: runwayml.com
# Runway Gen-4.5 Stil-Prompt (mit I2V)
The camera slowly orbits around the subject,
wind blowing through her hair, subtle breathing motion,
gentle handheld camera movement, cinematic lighting
Wan 2.6
- Alibaba's neuestes Modell, unterstützt Multi-Shot-Narrative
- Native Audio-Synchronisation, präzise Lippensynchronisation
- Bis zu 15 Sekunden, 1080p
- Prompt-Tipp: Multi-Shot-Übergänge beschreiben, wie cut to, transition to
- Website: wan.video
# Wan 2.6 Stil-Prompt (Multi-Shot)
Opening shot: a rocket launching from a launchpad,
wide angle, smoke billowing. Cut to:
close-up of the astronaut inside the cockpit,
control panels glowing blue. Transition to:
view from the window as Earth shrinks below,
cinematic orchestral music swelling, 4K
Fortgeschrittene Prompt-Techniken
Technik 1: Von kurz nach lang iterieren
Schreibe nicht gleich einen 200-Wörter-Prompt. Beginne mit den Kernelementen und füge schrittweise hinzu.
# Runde 1: Subjekt + Bewegung
A cat jumping onto a table
# Runde 2: + Umgebung + Kamera
A ginger cat jumping onto a wooden dining table in a sunny kitchen,
medium shot, slow motion
# Runde 3: + Licht + Stil
A ginger cat jumping onto a wooden dining table in a sunny kitchen,
morning light streaming through windows, dust particles in the air,
medium shot, slow motion, photorealistic, 4K, warm tones
Technik 2: Negative Prompts zum Ausschließen unerwünschter Inhalte
Einige Plattformen unterstützen Negative Prompts, um dem Modell zu sagen, was nicht gewünscht ist.
Negative prompt: deformed, blurry, extra limbs, text, watermark,
cartoon, low resolution, unnatural movement, flickering
Technik 3: Referenzbilder sind effektiver als Text
Für Bild-zu-Video (I2V)-Szenarien ist ein gutes Referenzbild + eine kurze Bewegungsbeschreibung oft zehnmal effektiver als ein reiner Text-Prompt.
# Prompt mit Referenzbildern (Runway / Kling etc.)
The camera slowly pushes in, wind blowing through the trees,
leaves gently falling, cinematic lighting
Technik 4: Storyboard-Beschreibungen zur Rhythmuskontrolle
Für Videos über 10 Sekunden, versuche Storyboard-artige Beschreibungen:
0-3s: Wide establishing shot of a cityscape at dawn,
clouds moving slowly across the sky
3-6s: Cut to street level, people walking, camera tracking forward
6-10s: Close-up on a coffee cup being placed on a café table,
steam rising, warm lighting
Häufige Fehler und wie man sie vermeidet
| Fehler | Folge | Korrektur |
|---|---|---|
| Nur Subjekt, keine Bewegung | Standbild oder zufällige Bewegung | Bewegungsrichtung und -geschwindigkeit klar beschreiben |
| Widersprüchliche Bewegung | Bildzerreißen oder unnatürliches Ergebnis | Widersprüche wie "statisch + rennend" vermeiden |
| Kameraarbeit ignorieren | Flaues Bild | Mindestens einen Kamerabegriff hinzufügen |
| Prompt zu lang | Modell verliert den Fokus | Auf 50-150 Wörter beschränken |
| Chinesische Prompts | Große Verständnisabweichungen | Wann immer möglich Englisch verwenden |
| Keine Iteration | Nach einem unbefriedigenden Ergebnis aufgeben | Mehrere Runden Anpassung, beste Version behalten |
Fazit
Prompt Engineering ist keine Mystik -- es ist eine Fähigkeit, die durch systematisches Lernen gemeistert werden kann. Die Kernpunkte:
- Klare Struktur: Sechs-Elemente-Framework
- Plattform-Anpassung: Die Eigenheiten jedes Modells verstehen
- Iteratives Denken: Schreiben → Generieren → Anpassen → Umschreiben
- Englisch zuerst: Die meisten Modelle verstehen Englisch besser
Wenn du diese Techniken meisterst, wirst du feststellen, dass du mit demselben Modell weit bessere Ergebnisse erzielst als andere. Das ist kein Talent -- das ist Methodik.
Weiterführende Links: - Wan AI Offizielle Dokumentation - Kling AI Prompt-Guide - Runway Gen-4.5 Tutorial - Google Veo Deep Dive