Zum Inhalt

AI 视频生成提示词工程 2026 完全指南

AI 视频生成在 2026 年已经进入了"写得好与写得差,效果天差地别"的阶段。同样的模型,有人跑出电影级质感,有人得到一堆扭曲的像素块——差距就在 提示词(Prompt)

这篇文章不讲废话,直接上干货。读完你就能写出可复用的视频生成提示词。

为什么视频提示词比图片更难?

图片生成只需要描述"一帧"画面。视频生成需要同时控制 空间(画面内容)+ 时间(运动变化)+ 音频(对白/音效) 三个维度。

漏掉任何一个维度,模型就会自行脑补——而模型的脑补,往往是你不想要的。

提示词的六要素结构

一个完整的视频提示词应该覆盖以下六个维度。这不是必须全部填满,但你需要知道每个维度的存在。

1. 主体(Subject)

描述画面中谁/什么。越具体越好。

# ❌ 模糊
一个女孩走在街上

# ✅ 具体
一个 20 岁的亚洲女孩,穿着红色风衣,黑色长直发,走在东京涩谷的十字路口

2. 动作/运动(Motion)

描述主体在做什么以及怎么动。这是视频提示词与图片提示词的核心区别。

# ❌ 没有运动信息
一个女孩走在街上

# ✅ 明确运动
她快步向前走,风衣下摆随风飘动,步伐轻盈,镜头跟随她前进

常用运动描述词:

运动类型 英文关键词 效果
平移运动 walking, running, flying 主体移动
缓慢运动 slowly drifting, gently swaying 轻柔氛围
快速运动 sprinting, rushing, zooming 速度感
旋转运动 spinning, rotating, orbiting 环绕镜头
变形/溶解 morphing, dissolving, transforming 创意转场

3. 环境/场景(Environment)

描述在哪里。包括地点、天气、时间。

# ✅ 完整环境描写
东京涩谷十字路口,夜晚,霓虹灯闪烁,细雨蒙蒙,地面反射出彩色光斑

4. 镜头语言(Camera Work)

这是大多数新手忽略的部分。用什么镜头拍,直接决定了画面的质感。

# ✅ 专业镜头描述
中景镜头,浅景深,背景虚化,缓慢推进(slow push-in),手持摄像机风格

常用镜头术语:

镜头类型 效果
close-up / 特写 强调面部表情或细节
medium shot / 中景 人物半身,最常用
wide shot / 广角 展示环境全景
bird's eye view / 鸟瞰 从正上方俯视
low angle / 低角度 仰拍,营造压迫感或英雄感
dolly zoom / 推拉变焦 背景压缩,经典惊悚效果
tracking shot / 跟拍 镜头跟随主体移动
pan / 摇摄 镜头水平转动
slow push-in / 缓慢推进 营造紧张感或专注感

5. 光影与色调(Lighting & Mood)

光影决定了画面的情绪。

# ✅ 光影描写
暖色调夕阳逆光,金色光晕洒在脸上,高对比度,电影级调色(cinematic color grading)

常用光影关键词:

  • golden hour — 黄金时刻(日落/日出暖光)
  • blue hour — 蓝色时刻(黄昏蓝调)
  • dramatic lighting — 戏剧性光影
  • soft diffused light — 柔和漫射光
  • neon glow — 霓虹辉光
  • backlit / silhouette — 逆光/剪影
  • high key / low key — 高调/低调

6. 风格与画质(Style & Quality)

告诉模型你要什么风格的视频。

# ✅ 风格描述
电影质感,4K 分辨率,胶片颗粒感,Deakins 摄影风格,宽高比 2.39:1

常用风格关键词:

  • cinematic — 电影质感
  • photorealistic — 写实风格
  • anime style — 动漫风格
  • documentary style — 纪录片风格
  • 3D animation — 3D 动画
  • watercolor / oil painting — 水彩/油画风格

完整提示词模板

把六要素串起来,就是一个完整的提示词:

[主体] + [动作/运动] + [环境/场景] + [镜头语言] + [光影与色调] + [风格与画质]

实战示例:

A 30-year-old man in a dark suit, standing on a rooftop at midnight, rain falling around him. 
He slowly turns his head toward the camera, a faint smile on his face. 
Medium shot, slow push-in, shallow depth of field with the city skyline softly blurred in the background. 
Cold blue moonlight from above, warm orange neon signs reflecting on wet surfaces, 
high contrast, cinematic color grading, 4K resolution, anamorphic lens flares, 
aspect ratio 2.39:1.

翻译成中文提示词也适用同样的结构——不过需要注意,大多数 AI 视频模型对英文提示词的理解远好于中文。建议始终使用英文。

主流平台的提示词差异

不同模型对提示词的敏感度不同,了解这些差异能帮你少走很多弯路。

Kling 3.0(可灵)

  • 物理运动理解出色,运动描述要具体
  • 支持中文提示词,国内使用友好
  • 擅长写实场景,对材质和光影还原度高
  • 提示词建议:详细描写动作和物理交互
  • 官网:klingai.com
# Kling 3.0 风格提示词
A woman pouring coffee from a ceramic mug into a glass cup, 
liquid streams visible with natural physics, steam rising, 
close-up shot, warm kitchen lighting, photorealistic, 4K

Google Veo 3.1

  • 支持原生音画同步,可以在提示词中描述声音
  • 支持最长 15 秒、1080p 输出
  • 电影级画质,适合叙事性内容
  • 提示词建议:加入音频描述,如对话、环境音
  • 官网:deepmind.google/veo
# Veo 3.1 风格提示词(含音频)
A jazz pianist playing in a dimly lit club, fingers moving across the keys, 
slow zoom into the piano. Smooth jazz music playing, 
crowd murmuring softly in the background, 
warm amber lighting, cinematic, 4K

Runway Gen-4.5

  • 强大的图像到视频(I2V)功能
  • 支持精细的运动控制(Motion Brush)
  • 适合从静态图片出发制作视频
  • 提示词建议:配合参考图使用,文字描述补充运动
  • 官网:runwayml.com
# Runway Gen-4.5 风格提示词(配合 I2V)
The camera slowly orbits around the subject, 
wind blowing through her hair, subtle breathing motion, 
gentle handheld camera movement, cinematic lighting

Wan 2.6(通义万相)

  • 阿里巴巴最新模型,支持多镜头叙事
  • 原生音频同步,口型精准
  • 最长 15 秒,1080p
  • 提示词建议:描述多镜头切换,如 cut to、transition to
  • 官网:wan.video
# Wan 2.6 风格提示词(多镜头)
Opening shot: a rocket launching from a launchpad, 
wide angle, smoke billowing. Cut to: 
close-up of the astronaut inside the cockpit, 
control panels glowing blue. Transition to: 
view from the window as Earth shrinks below, 
cinematic orchestral music swelling, 4K

提示词进阶技巧

技巧一:从短到长迭代

不要一上来就写 200 字的长提示词。先写核心要素,再逐步添加。

# 第一轮:主体 + 运动
A cat jumping onto a table

# 第二轮:+ 环境 + 镜头
A ginger cat jumping onto a wooden dining table in a sunny kitchen, 
medium shot, slow motion

# 第三轮:+ 光影 + 风格
A ginger cat jumping onto a wooden dining table in a sunny kitchen, 
morning light streaming through windows, dust particles in the air, 
medium shot, slow motion, photorealistic, 4K, warm tones

技巧二:用负面提示词排除不想要的内容

部分平台支持负面提示词(Negative Prompt),用来告诉模型不要什么

Negative prompt: deformed, blurry, extra limbs, text, watermark, 
cartoon, low resolution, unnatural movement, flickering

技巧三:参考图比文字更有效

对于图像到视频(I2V)场景,一张好的参考图 + 简短的运动描述,往往比纯文字提示词效果好十倍。

# 配合参考图使用的提示词(Runway / Kling 等)
The camera slowly pushes in, wind blowing through the trees, 
leaves gently falling, cinematic lighting

技巧四:利用分镜控制节奏

对于 10 秒以上的视频,尝试用分镜式描述:

0-3s: Wide establishing shot of a cityscape at dawn, 
      clouds moving slowly across the sky
3-6s: Cut to street level, people walking, camera tracking forward
6-10s: Close-up on a coffee cup being placed on a café table, 
       steam rising, warm lighting

常见错误与避坑指南

错误 后果 修正
只写主体不写运动 画面静止或随机运动 明确描述运动方向和速度
运动描述矛盾 画面撕裂或不自然 避免"静止+奔跑"类矛盾
忽略镜头语言 画面平淡如水 添加至少一个镜头术语
提示词过长 模型丢失重点 控制在 50-150 词
中文提示词 理解偏差大 尽量使用英文
没有迭代 一次出片不理想就放弃 多轮调整,保留最好的版本

写在最后

提示词工程不是玄学,是可以通过系统学习掌握的技能。关键在于:

  1. 结构清晰:六要素框架
  2. 平台适配:了解不同模型的脾气
  3. 迭代思维:写→生成→调整→再写
  4. 英文优先:绝大多数模型对英文理解更好

当你掌握了这些技巧,你会发现同样的模型,你能跑出比别人好得多的效果。这不是天赋,是方法论。

更多参考: - Wan AI 官方文档 - Kling AI 提示词指南 - Runway Gen-4.5 教程 - Google Veo 深度解析