KI-Video-Generierung Prompt Engineering 2026: Der komplette Leitfaden

Die KI-Video-Generierung hat 2026 ein Stadium erreicht, in dem "gut geschrieben vs. schlecht geschrieben einen himmelweiten Unterschied macht." Mit demselben Modell produzieren einige kinoartige Qualität, während andere einen Haufen verzerrter Pixelblöcke erhalten -- der Unterschied liegt ausschließlich im Prompt.

Dieser Artikel verzichtet auf Füllmaterial und liefert direkt die Essenz. Nach dem Lesen kannst du wiederverwendbare Video-Generierungs-Prompts schreiben.

Warum sind Video-Prompts schwieriger als Bild-Prompts?

Bei der Bildgenerierung muss nur ein einzelnes "Frame" beschrieben werden. Die Video-Generierung erfordert die gleichzeitige Kontrolle von drei Dimensionen: räumlich (Bildinhalt) + zeitlich (Bewegung/Veränderung) + Audio (Dialog/Soundeffekte).

Fehlt eine Dimension, füllt das Modell die Lücken selbst -- und das, was das Modell sich ausdenkt, ist meist nicht das, was du willst.

Die Sechs-Elemente-Struktur von Prompts

Ein vollständiger Video-Prompt sollte die folgenden sechs Dimensionen abdecken. Du musst nicht jedes Mal alle ausfüllen, aber du solltest wissen, dass sie existieren.

1. Subjekt (Subject)

Beschreibe, wer/was im Bild ist. Je spezifischer, desto besser.

# Verschwommen
Ein Mädchen geht die Straße entlang

# Spezifisch
Ein 20-jähriges asiatisches Mädchen in einem roten Trenchcoat, mit langem glattem schwarzem Haar, geht durch die Shibuya-Kreuzung in Tokio

2. Bewegung (Motion)

Beschreibe, was das Subjekt tut und wie es sich bewegt. Dies ist der Kernunterschied zwischen Video-Prompts und Bild-Prompts.

# Keine Bewegungsinformation
Ein Mädchen geht die Straße entlang

# Klare Bewegung
Sie geht zügig vorwärts, der Saum ihres Mantels weht im Wind, leichte Schritte, die Kamera folgt ihr vorwärts

Häufig verwendete Bewegungsbegriffe:

Bewegungsart	Englische Keywords	Effekt
Translation	walking, running, flying	Subjekt bewegt sich
Langsame Bewegung	slowly drifting, gently swaying	Sanfte Atmosphäre
Schnelle Bewegung	sprinting, rushing, zooming	Geschwindigkeitsgefühl
Rotation	spinning, rotating, orbiting	Orbit-Kamera
Morphing/Auflösen	morphing, dissolving, transforming	Kreative Übergänge

3. Umgebung/Szene (Environment)

Beschreibe, wo. Einschließlich Ort, Wetter und Uhrzeit.

# Vollständige Umgebungsbeschreibung
Shibuya-Kreuzung in Tokio, Nacht, Neonlichter flackern, leichter Regen, der Boden reflektiert bunte Lichtflecken

4. Kameraarbeit (Camera Work)

Dies ist der Teil, den die meisten Anfänger übersehen. Mit welcher Kamera gedreht wird bestimmt direkt die Bildqualität.

# Professionelle Kamerabeschreibung
Nahaufnahme, geringe Schärfentiefe, Hintergrundunscharf, langsames Hineinfahren (slow push-in), Handkamera-Stil

Häufig verwendete Kamerabegriffe:

Kameratyp	Effekt
`close-up` / Nahaufnahme	Betont Gesichtsausdruck oder Detail
`medium shot` / Halbnah	Person halb, am häufigsten verwendet
`wide shot` / Totale	Zeigt die gesamte Umgebung
`bird's eye view` / Vogelperspektive	Draufsicht direkt von oben
`low angle` / Untersicht	Untersicht, erzeugt Druck oder Heroismus
`dolly zoom` / Dolly-Zoom	Hintergrundkompression, klassischer Thriller-Effekt
`tracking shot` / Verfolgung	Kamera folgt der Bewegung des Subjekts
`pan` / Schwenk	Horizontale Kameradrehung
`slow push-in` / Langsames Hineinfahren	Erzeugt Spannung oder Fokus

5. Licht und Stimmung (Lighting & Mood)

Licht bestimmt die emotionale Wirkung des Bildes.

# Lichtbeschreibung
Warmtoniges Gegenlicht bei Sonnenuntergang, goldener Schimmer auf dem Gesicht, hoher Kontrast, кино-grade Color Grading (cinematic color grading)

Häufig verwendete Licht-Keywords:

golden hour -- Goldene Stunde (warmes Licht bei Sonnenaufgang/-untergang)
blue hour -- Blaue Stunde (Dämmerungs-Blau)
dramatic lighting -- Dramatisches Licht und Schatten
soft diffused light -- Weiches Streulicht
neon glow -- Neon-Glühen
backlit / silhouette -- Gegenlicht/Silhouette
high key / low key -- High-Key/Low-Key

6. Stil und Qualität (Style & Quality)

Sag dem Modell, welchen Stil Video du willst.

# Stilbeschreibung
Kinomäßige Qualität, 4K-Auflösung, Filmkörnung, Deakins-Fotografiestil, Bildformat 2.39:1

Häufig verwendete Stil-Keywords:

cinematic -- Kinomäßige Qualität
photorealistic -- Realistischer Stil
anime style -- Anime-Stil
documentary style -- Dokumentarstil
3D animation -- 3D-Animation
watercolor / oil painting -- Aquarell-/Ölmaler-Stil

Vollständiger Prompt-Template

Verbinde die sechs Elemente zu einem vollständigen Prompt:

[Subjekt] + [Bewegung] + [Umgebung/Szene] + [Kameraarbeit] + [Licht und Stimmung] + [Stil und Qualität]

Praxisbeispiel:

A 30-year-old man in a dark suit, standing on a rooftop at midnight, rain falling around him.
He slowly turns his head toward the camera, a faint smile on his face.
Medium shot, slow push-in, shallow depth of field with the city skyline softly blurred in the background.
Cold blue moonlight from above, warm orange neon signs reflecting on wet surfaces,
high contrast, cinematic color grading, 4K resolution, anamorphic lens flares,
aspect ratio 2.39:1.

Chinesische Prompts funktionieren mit derselben Struktur -- aber beachte, dass die meisten KI-Video-Modelle englische Prompts weit besser verstehen als chinesische. Verwende wann immer möglich Englisch.

Plattformspezifische Prompt-Unterschiede

Verschiedene Modelle reagieren unterschiedlich auf Prompts. Diese Unterschiede zu verstehen spart dir viele Irrwege.

Kling 3.0

Hervorragendes Verständnis für physische Bewegung, Bewegung sollte spezifisch beschrieben werden
Unterstützt chinesische Prompts, freundlich für Nutzer in China
Stark bei realistischen Szenen, hohe Wiedergabetreue für Materialien und Licht
Prompt-Tipp: Aktionen und physische Interaktionen detailliert beschreiben
Website: klingai.com

# Kling 3.0 Stil-Prompt
A woman pouring coffee from a ceramic mug into a glass cup,
liquid streams visible with natural physics, steam rising,
close-up shot, warm kitchen lighting, photorealistic, 4K

Google Veo 3.1

Unterstützt native Audio-Video-Synchronisation, du kannst Sound im Prompt beschreiben
Unterstützt bis zu 15 Sekunden, 1080p-Ausgabe
Kino-Bildqualität, ideal für narrative Inhalte
Prompt-Tipp: Audio-Beschreibung hinzufügen, wie Dialoge, Umgebungsgeräusche
Website: deepmind.google/veo

# Veo 3.1 Stil-Prompt (mit Audio)
A jazz pianist playing in a dimly lit club, fingers moving across the keys,
slow zoom into the piano. Smooth jazz music playing,
crowd murmuring softly in the background,
warm amber lighting, cinematic, 4K

Runway Gen-4.5

Leistungsstarke Bild-zu-Video (I2V)-Funktionen
Unterstützt präzise Bewegungssteuerung (Motion Brush)
Ideal zum Erstellen von Videos aus Standbildern
Prompt-Tipp: Mit Referenzbildern verwenden, Textbeschreibung ergänzt Bewegung
Website: runwayml.com

# Runway Gen-4.5 Stil-Prompt (mit I2V)
The camera slowly orbits around the subject,
wind blowing through her hair, subtle breathing motion,
gentle handheld camera movement, cinematic lighting

Wan 2.6

Alibaba's neuestes Modell, unterstützt Multi-Shot-Narrative
Native Audio-Synchronisation, präzise Lippensynchronisation
Bis zu 15 Sekunden, 1080p
Prompt-Tipp: Multi-Shot-Übergänge beschreiben, wie cut to, transition to
Website: wan.video

# Wan 2.6 Stil-Prompt (Multi-Shot)
Opening shot: a rocket launching from a launchpad,
wide angle, smoke billowing. Cut to:
close-up of the astronaut inside the cockpit,
control panels glowing blue. Transition to:
view from the window as Earth shrinks below,
cinematic orchestral music swelling, 4K

Fortgeschrittene Prompt-Techniken

Technik 1: Von kurz nach lang iterieren

Schreibe nicht gleich einen 200-Wörter-Prompt. Beginne mit den Kernelementen und füge schrittweise hinzu.

# Runde 1: Subjekt + Bewegung
A cat jumping onto a table

# Runde 2: + Umgebung + Kamera
A ginger cat jumping onto a wooden dining table in a sunny kitchen,
medium shot, slow motion

# Runde 3: + Licht + Stil
A ginger cat jumping onto a wooden dining table in a sunny kitchen,
morning light streaming through windows, dust particles in the air,
medium shot, slow motion, photorealistic, 4K, warm tones

Technik 2: Negative Prompts zum Ausschließen unerwünschter Inhalte

Einige Plattformen unterstützen Negative Prompts, um dem Modell zu sagen, was nicht gewünscht ist.

Negative prompt: deformed, blurry, extra limbs, text, watermark,
cartoon, low resolution, unnatural movement, flickering

Technik 3: Referenzbilder sind effektiver als Text

Für Bild-zu-Video (I2V)-Szenarien ist ein gutes Referenzbild + eine kurze Bewegungsbeschreibung oft zehnmal effektiver als ein reiner Text-Prompt.

# Prompt mit Referenzbildern (Runway / Kling etc.)
The camera slowly pushes in, wind blowing through the trees,
leaves gently falling, cinematic lighting

Technik 4: Storyboard-Beschreibungen zur Rhythmuskontrolle

Für Videos über 10 Sekunden, versuche Storyboard-artige Beschreibungen:

0-3s: Wide establishing shot of a cityscape at dawn,
      clouds moving slowly across the sky
3-6s: Cut to street level, people walking, camera tracking forward
6-10s: Close-up on a coffee cup being placed on a café table,
       steam rising, warm lighting

Häufige Fehler und wie man sie vermeidet

Fehler	Folge	Korrektur
Nur Subjekt, keine Bewegung	Standbild oder zufällige Bewegung	Bewegungsrichtung und -geschwindigkeit klar beschreiben
Widersprüchliche Bewegung	Bildzerreißen oder unnatürliches Ergebnis	Widersprüche wie "statisch + rennend" vermeiden
Kameraarbeit ignorieren	Flaues Bild	Mindestens einen Kamerabegriff hinzufügen
Prompt zu lang	Modell verliert den Fokus	Auf 50-150 Wörter beschränken
Chinesische Prompts	Große Verständnisabweichungen	Wann immer möglich Englisch verwenden
Keine Iteration	Nach einem unbefriedigenden Ergebnis aufgeben	Mehrere Runden Anpassung, beste Version behalten

Fazit

Prompt Engineering ist keine Mystik -- es ist eine Fähigkeit, die durch systematisches Lernen gemeistert werden kann. Die Kernpunkte:

Klare Struktur: Sechs-Elemente-Framework
Plattform-Anpassung: Die Eigenheiten jedes Modells verstehen
Iteratives Denken: Schreiben → Generieren → Anpassen → Umschreiben
Englisch zuerst: Die meisten Modelle verstehen Englisch besser

Wenn du diese Techniken meisterst, wirst du feststellen, dass du mit demselben Modell weit bessere Ergebnisse erzielst als andere. Das ist kein Talent -- das ist Methodik.

Weiterführende Links: - Wan AI Offizielle Dokumentation - Kling AI Prompt-Guide - Runway Gen-4.5 Tutorial - Google Veo Deep Dive