Zum Inhalt

KI-Video-Generierung Prompt Engineering 2026: Der komplette Leitfaden

Die KI-Video-Generierung hat 2026 ein Stadium erreicht, in dem "gut geschrieben vs. schlecht geschrieben einen himmelweiten Unterschied macht." Mit demselben Modell produzieren einige kinoartige Qualität, während andere einen Haufen verzerrter Pixelblöcke erhalten -- der Unterschied liegt ausschließlich im Prompt.

Dieser Artikel verzichtet auf Füllmaterial und liefert direkt die Essenz. Nach dem Lesen kannst du wiederverwendbare Video-Generierungs-Prompts schreiben.

Warum sind Video-Prompts schwieriger als Bild-Prompts?

Bei der Bildgenerierung muss nur ein einzelnes "Frame" beschrieben werden. Die Video-Generierung erfordert die gleichzeitige Kontrolle von drei Dimensionen: räumlich (Bildinhalt) + zeitlich (Bewegung/Veränderung) + Audio (Dialog/Soundeffekte).

Fehlt eine Dimension, füllt das Modell die Lücken selbst -- und das, was das Modell sich ausdenkt, ist meist nicht das, was du willst.

Die Sechs-Elemente-Struktur von Prompts

Ein vollständiger Video-Prompt sollte die folgenden sechs Dimensionen abdecken. Du musst nicht jedes Mal alle ausfüllen, aber du solltest wissen, dass sie existieren.

1. Subjekt (Subject)

Beschreibe, wer/was im Bild ist. Je spezifischer, desto besser.

# Verschwommen
Ein Mädchen geht die Straße entlang

# Spezifisch
Ein 20-jähriges asiatisches Mädchen in einem roten Trenchcoat, mit langem glattem schwarzem Haar, geht durch die Shibuya-Kreuzung in Tokio

2. Bewegung (Motion)

Beschreibe, was das Subjekt tut und wie es sich bewegt. Dies ist der Kernunterschied zwischen Video-Prompts und Bild-Prompts.

# Keine Bewegungsinformation
Ein Mädchen geht die Straße entlang

# Klare Bewegung
Sie geht zügig vorwärts, der Saum ihres Mantels weht im Wind, leichte Schritte, die Kamera folgt ihr vorwärts

Häufig verwendete Bewegungsbegriffe:

Bewegungsart Englische Keywords Effekt
Translation walking, running, flying Subjekt bewegt sich
Langsame Bewegung slowly drifting, gently swaying Sanfte Atmosphäre
Schnelle Bewegung sprinting, rushing, zooming Geschwindigkeitsgefühl
Rotation spinning, rotating, orbiting Orbit-Kamera
Morphing/Auflösen morphing, dissolving, transforming Kreative Übergänge

3. Umgebung/Szene (Environment)

Beschreibe, wo. Einschließlich Ort, Wetter und Uhrzeit.

# Vollständige Umgebungsbeschreibung
Shibuya-Kreuzung in Tokio, Nacht, Neonlichter flackern, leichter Regen, der Boden reflektiert bunte Lichtflecken

4. Kameraarbeit (Camera Work)

Dies ist der Teil, den die meisten Anfänger übersehen. Mit welcher Kamera gedreht wird bestimmt direkt die Bildqualität.

# Professionelle Kamerabeschreibung
Nahaufnahme, geringe Schärfentiefe, Hintergrundunscharf, langsames Hineinfahren (slow push-in), Handkamera-Stil

Häufig verwendete Kamerabegriffe:

Kameratyp Effekt
close-up / Nahaufnahme Betont Gesichtsausdruck oder Detail
medium shot / Halbnah Person halb, am häufigsten verwendet
wide shot / Totale Zeigt die gesamte Umgebung
bird's eye view / Vogelperspektive Draufsicht direkt von oben
low angle / Untersicht Untersicht, erzeugt Druck oder Heroismus
dolly zoom / Dolly-Zoom Hintergrundkompression, klassischer Thriller-Effekt
tracking shot / Verfolgung Kamera folgt der Bewegung des Subjekts
pan / Schwenk Horizontale Kameradrehung
slow push-in / Langsames Hineinfahren Erzeugt Spannung oder Fokus

5. Licht und Stimmung (Lighting & Mood)

Licht bestimmt die emotionale Wirkung des Bildes.

# Lichtbeschreibung
Warmtoniges Gegenlicht bei Sonnenuntergang, goldener Schimmer auf dem Gesicht, hoher Kontrast, кино-grade Color Grading (cinematic color grading)

Häufig verwendete Licht-Keywords:

  • golden hour -- Goldene Stunde (warmes Licht bei Sonnenaufgang/-untergang)
  • blue hour -- Blaue Stunde (Dämmerungs-Blau)
  • dramatic lighting -- Dramatisches Licht und Schatten
  • soft diffused light -- Weiches Streulicht
  • neon glow -- Neon-Glühen
  • backlit / silhouette -- Gegenlicht/Silhouette
  • high key / low key -- High-Key/Low-Key

6. Stil und Qualität (Style & Quality)

Sag dem Modell, welchen Stil Video du willst.

# Stilbeschreibung
Kinomäßige Qualität, 4K-Auflösung, Filmkörnung, Deakins-Fotografiestil, Bildformat 2.39:1

Häufig verwendete Stil-Keywords:

  • cinematic -- Kinomäßige Qualität
  • photorealistic -- Realistischer Stil
  • anime style -- Anime-Stil
  • documentary style -- Dokumentarstil
  • 3D animation -- 3D-Animation
  • watercolor / oil painting -- Aquarell-/Ölmaler-Stil

Vollständiger Prompt-Template

Verbinde die sechs Elemente zu einem vollständigen Prompt:

[Subjekt] + [Bewegung] + [Umgebung/Szene] + [Kameraarbeit] + [Licht und Stimmung] + [Stil und Qualität]

Praxisbeispiel:

A 30-year-old man in a dark suit, standing on a rooftop at midnight, rain falling around him.
He slowly turns his head toward the camera, a faint smile on his face.
Medium shot, slow push-in, shallow depth of field with the city skyline softly blurred in the background.
Cold blue moonlight from above, warm orange neon signs reflecting on wet surfaces,
high contrast, cinematic color grading, 4K resolution, anamorphic lens flares,
aspect ratio 2.39:1.

Chinesische Prompts funktionieren mit derselben Struktur -- aber beachte, dass die meisten KI-Video-Modelle englische Prompts weit besser verstehen als chinesische. Verwende wann immer möglich Englisch.

Plattformspezifische Prompt-Unterschiede

Verschiedene Modelle reagieren unterschiedlich auf Prompts. Diese Unterschiede zu verstehen spart dir viele Irrwege.

Kling 3.0

  • Hervorragendes Verständnis für physische Bewegung, Bewegung sollte spezifisch beschrieben werden
  • Unterstützt chinesische Prompts, freundlich für Nutzer in China
  • Stark bei realistischen Szenen, hohe Wiedergabetreue für Materialien und Licht
  • Prompt-Tipp: Aktionen und physische Interaktionen detailliert beschreiben
  • Website: klingai.com
# Kling 3.0 Stil-Prompt
A woman pouring coffee from a ceramic mug into a glass cup,
liquid streams visible with natural physics, steam rising,
close-up shot, warm kitchen lighting, photorealistic, 4K

Google Veo 3.1

  • Unterstützt native Audio-Video-Synchronisation, du kannst Sound im Prompt beschreiben
  • Unterstützt bis zu 15 Sekunden, 1080p-Ausgabe
  • Kino-Bildqualität, ideal für narrative Inhalte
  • Prompt-Tipp: Audio-Beschreibung hinzufügen, wie Dialoge, Umgebungsgeräusche
  • Website: deepmind.google/veo
# Veo 3.1 Stil-Prompt (mit Audio)
A jazz pianist playing in a dimly lit club, fingers moving across the keys,
slow zoom into the piano. Smooth jazz music playing,
crowd murmuring softly in the background,
warm amber lighting, cinematic, 4K

Runway Gen-4.5

  • Leistungsstarke Bild-zu-Video (I2V)-Funktionen
  • Unterstützt präzise Bewegungssteuerung (Motion Brush)
  • Ideal zum Erstellen von Videos aus Standbildern
  • Prompt-Tipp: Mit Referenzbildern verwenden, Textbeschreibung ergänzt Bewegung
  • Website: runwayml.com
# Runway Gen-4.5 Stil-Prompt (mit I2V)
The camera slowly orbits around the subject,
wind blowing through her hair, subtle breathing motion,
gentle handheld camera movement, cinematic lighting

Wan 2.6

  • Alibaba's neuestes Modell, unterstützt Multi-Shot-Narrative
  • Native Audio-Synchronisation, präzise Lippensynchronisation
  • Bis zu 15 Sekunden, 1080p
  • Prompt-Tipp: Multi-Shot-Übergänge beschreiben, wie cut to, transition to
  • Website: wan.video
# Wan 2.6 Stil-Prompt (Multi-Shot)
Opening shot: a rocket launching from a launchpad,
wide angle, smoke billowing. Cut to:
close-up of the astronaut inside the cockpit,
control panels glowing blue. Transition to:
view from the window as Earth shrinks below,
cinematic orchestral music swelling, 4K

Fortgeschrittene Prompt-Techniken

Technik 1: Von kurz nach lang iterieren

Schreibe nicht gleich einen 200-Wörter-Prompt. Beginne mit den Kernelementen und füge schrittweise hinzu.

# Runde 1: Subjekt + Bewegung
A cat jumping onto a table

# Runde 2: + Umgebung + Kamera
A ginger cat jumping onto a wooden dining table in a sunny kitchen,
medium shot, slow motion

# Runde 3: + Licht + Stil
A ginger cat jumping onto a wooden dining table in a sunny kitchen,
morning light streaming through windows, dust particles in the air,
medium shot, slow motion, photorealistic, 4K, warm tones

Technik 2: Negative Prompts zum Ausschließen unerwünschter Inhalte

Einige Plattformen unterstützen Negative Prompts, um dem Modell zu sagen, was nicht gewünscht ist.

Negative prompt: deformed, blurry, extra limbs, text, watermark,
cartoon, low resolution, unnatural movement, flickering

Technik 3: Referenzbilder sind effektiver als Text

Für Bild-zu-Video (I2V)-Szenarien ist ein gutes Referenzbild + eine kurze Bewegungsbeschreibung oft zehnmal effektiver als ein reiner Text-Prompt.

# Prompt mit Referenzbildern (Runway / Kling etc.)
The camera slowly pushes in, wind blowing through the trees,
leaves gently falling, cinematic lighting

Technik 4: Storyboard-Beschreibungen zur Rhythmuskontrolle

Für Videos über 10 Sekunden, versuche Storyboard-artige Beschreibungen:

0-3s: Wide establishing shot of a cityscape at dawn,
      clouds moving slowly across the sky
3-6s: Cut to street level, people walking, camera tracking forward
6-10s: Close-up on a coffee cup being placed on a café table,
       steam rising, warm lighting

Häufige Fehler und wie man sie vermeidet

Fehler Folge Korrektur
Nur Subjekt, keine Bewegung Standbild oder zufällige Bewegung Bewegungsrichtung und -geschwindigkeit klar beschreiben
Widersprüchliche Bewegung Bildzerreißen oder unnatürliches Ergebnis Widersprüche wie "statisch + rennend" vermeiden
Kameraarbeit ignorieren Flaues Bild Mindestens einen Kamerabegriff hinzufügen
Prompt zu lang Modell verliert den Fokus Auf 50-150 Wörter beschränken
Chinesische Prompts Große Verständnisabweichungen Wann immer möglich Englisch verwenden
Keine Iteration Nach einem unbefriedigenden Ergebnis aufgeben Mehrere Runden Anpassung, beste Version behalten

Fazit

Prompt Engineering ist keine Mystik -- es ist eine Fähigkeit, die durch systematisches Lernen gemeistert werden kann. Die Kernpunkte:

  1. Klare Struktur: Sechs-Elemente-Framework
  2. Plattform-Anpassung: Die Eigenheiten jedes Modells verstehen
  3. Iteratives Denken: Schreiben → Generieren → Anpassen → Umschreiben
  4. Englisch zuerst: Die meisten Modelle verstehen Englisch besser

Wenn du diese Techniken meisterst, wirst du feststellen, dass du mit demselben Modell weit bessere Ergebnisse erzielst als andere. Das ist kein Talent -- das ist Methodik.

Weiterführende Links: - Wan AI Offizielle Dokumentation - Kling AI Prompt-Guide - Runway Gen-4.5 Tutorial - Google Veo Deep Dive