AI 영상 생성 프롬프트 엔지니어링 2026 완전 가이드
2026年のAI動画生成は「書き方の良し悪しで結果が天と地ほど違う」段階に突入しました。同じモデルでも、映画級クオリティを出せる人もいれば、歪んだピクセルの山になる人もいる -- その差はすべて プロンプト にあります。
この記事では無駄を省き、干货だけをお届けします。读完你就能書けるようになる、再利用可能な動画生成プロンプト。
なぜ動画プロンプトは画像プロンプトより難しいのか?
画像生成は「1フレーム」の描写だけで済みます。一方、動画生成は 空間(映像内容)+ 時間(動きの変化)+ 音声(セリフ/効果音) の3次元を同時にコントロールする必要があります。
どの次元が欠けても、モデルが勝手に補完します -- そしてモデルの補完は、たいていあなたが望むものではありません。
プロンプトの6要素構造
完全な動画プロンプトは以下の6次元をカバーすべきです。すべてを毎回埋める必要はありませんが、各次元の存在を知っておく必要があります。
1. 主体(Subject)
画面に 誰/何が いるかを描写します。具体的であれば具体的であるほど良いです。
# vague(曖昧)
少女が街を歩いている
# 具体的
20歳のアジア系女性、赤いトレンチコートを着て、黒髪のストレートロングヘア、東京渋谷のスクランブル交差点を歩いている
2. 動き(Motion)
主体が 何を、どう動いているか を描写します。これが動画プロンプトと画像プロンプトの核心的な違いです。
# 動きの情報が無い
少女が街を歩いている
# 動きが明確
彼女が軽快に前へ歩き、コートの裾が風に揺れ、足取りは軽やかに、カメラが彼女を追って前進する
よく使う動きの描写ワード:
| 動きの種類 | 英語キーワード | 効果 |
|---|---|---|
| 平行移動 | walking, running, flying | 主体の移動 |
| 緩やかな動き | slowly drifting, gently swaying | 優しい雰囲気 |
| 高速な動き | sprinting, rushing, zooming | スピード感 |
| 回転運動 | spinning, rotating, orbiting | 周回カメラ |
| 変形/溶解 | morphing, dissolving, transforming | クリエイティブなトランジション |
3. 環境/シーン(Environment)
どこで を描写します。場所、天気、時間を含めます。
# 完全な環境描写
東京渋谷のスクランブル交差点、夜、ネオンが瞬き、小雨が降る、地面にカラフルな光の斑点が反射
4. カメラワーク(Camera Work)
多くの初心者がスルーする部分です。どんなカメラで撮るか が、映像の質感を直接決定します。
# プロフェッショナルなカメラ描写
ミディアムショット、浅い被写界深度、背景ボケ、スロープッシュイン、ハンドヘルドカメラスタイル
よく使うカメラ用語:
| カメラの種類 | 効果 |
|---|---|
close-up / クローズアップ |
表情やディテールを強調 |
medium shot / ミディアムショット |
人物の上半身、最も一般的 |
wide shot / ワイドショット |
環境の全体像を提示 |
bird's eye view / バードアイビュー |
真上からの俯瞰 |
low angle / ローアングル |
仰角、圧迫感やヒーロー感を演出 |
dolly zoom / ドリーズーム |
背景の圧縮、クラシックなスリラー効果 |
tracking shot / 追跡ショット |
カメラが主体の動きに追従 |
pan / パン |
カメラの水平回転 |
slow push-in / スロープッシュイン |
緊張感や集中感を演出 |
5. 光と色調(Lighting & Mood)
光が映像のムードを決定します。
# 光の描写
暖色系の夕暮れバックライト、顔に金色の光の輪、ハイコントラスト、映画級カラーグレーティング(cinematic color grading)
よく使う光のキーワード:
golden hour-- ゴールデンアワー(日没/日の出の暖かい光)blue hour-- ブルーアワー(夕暮れの青いトーン)dramatic lighting-- ドラマチックな光と影soft diffused light-- 柔らかい拡散光neon glow-- ネオンの輝きbacklit / silhouette-- バックライト/シルエットhigh key / low key-- ハイキー/ローキー
6. スタイルと画質(Style & Quality)
モデルに どんなスタイル の動画が欲しいかを伝えます。
# スタイル描写
映画級クオリティ、4K解像度、フィルム粒状感、ディーキンス撮影スタイル、アスペクト比2.39:1
よく使うスタイルのキーワード:
cinematic-- 映画級クオリティphotorealistic-- リアリズムスタイルanime style-- アニメスタイルdocumentary style-- ドキュメンタリースタイル3D animation-- 3Dアニメーションwatercolor / oil painting-- 水彩/油絵スタイル
完全なプロンプトテンプレート
6要素をつなげると、完全なプロンプトになります:
[主体] + [動き] + [環境/シーン] + [カメラワーク] + [光と色調] + [スタイルと画質]
実践例:
A 30-year-old man in a dark suit, standing on a rooftop at midnight, rain falling around him.
He slowly turns his head toward the camera, a faint smile on his face.
Medium shot, slow push-in, shallow depth of field with the city skyline softly blurred in the background.
Cold blue moonlight from above, warm orange neon signs reflecting on wet surfaces,
high contrast, cinematic color grading, 4K resolution, anamorphic lens flares,
aspect ratio 2.39:1.
中国語プロンプトでも同じ構造が使えますが、ほとんどのAI動画モデルは英語プロンプトの理解が中国語よりも遥かに優れている ことに注意してください。可能であれば常に英語を使いましょう。
主要プラットフォームのプロンプトの違い
モデルによってプロンプトへの感度が異なります。これらの違いを理解することで、多くの回り道を避けられます。
Kling 3.0(可霊)
- 物理的な動き の理解に優れ、動きの描写は具体的にする必要がある
- 中国語プロンプトに対応、国内での利用にフレンドリー
- リアリズムなシーンに強く、素材や光の再現性が高い
- プロンプトのアドバイス:動作と物理的相互作用を詳細に描写
- 公式サイト:klingai.com
# Kling 3.0 スタイルのプロンプト
A woman pouring coffee from a ceramic mug into a glass cup,
liquid streams visible with natural physics, steam rising,
close-up shot, warm kitchen lighting, photorealistic, 4K
Google Veo 3.1
- ネイティブ音声同期 に対応し、プロンプトで音声を描写できる
- 最長15秒、1080p出力
- 映画級画質、ナラティブなコンテンツに適している
- プロンプトのアドバイス:音声描写(セリフ、環境音など)を追加
- 公式サイト:deepmind.google/veo
# Veo 3.1 スタイルのプロンプト(音声付き)
A jazz pianist playing in a dimly lit club, fingers moving across the keys,
slow zoom into the piano. Smooth jazz music playing,
crowd murmuring softly in the background,
warm amber lighting, cinematic, 4K
Runway Gen-4.5
- 強力な 画像から動画へ(I2V)の機能
- 精密な動きのコントロール(Motion Brush)に対応
- 静止画から動画を制作するのに最適
- プロンプトのアドバイス:参考画像と併用し、テキスト描写で動きを補完
- 公式サイト:runwayml.com
# Runway Gen-4.5 スタイルのプロンプト(I2V併用)
The camera slowly orbits around the subject,
wind blowing through her hair, subtle breathing motion,
gentle handheld camera movement, cinematic lighting
Wan 2.6(通義万相)
- アリババの最新モデル、マルチショットナラティブ に対応
- ネイティブ音声同期、リップシンクが正確
- 最長15秒、1080p
- プロンプトのアドバイス:マルチショットの切り替え(cut to、transition to など)を描写
- 公式サイト:wan.video
# Wan 2.6 スタイルのプロンプト(マルチショット)
Opening shot: a rocket launching from a launchpad,
wide angle, smoke billowing. Cut to:
close-up of the astronaut inside the cockpit,
control panels glowing blue. Transition to:
view from the window as Earth shrinks below,
cinematic orchestral music swelling, 4K
プロンプト上級テクニック
テクニック1:短く始めて長くする
最初から200語の長いプロンプトを書かないでください。核心要素から書き始め、徐々に追加していきます。
# 1回目:主体 + 動き
A cat jumping onto a table
# 2回目:+ 環境 + カメラ
A ginger cat jumping onto a wooden dining table in a sunny kitchen,
medium shot, slow motion
# 3回目:+ 光 + スタイル
A ginger cat jumping onto a wooden dining table in a sunny kitchen,
morning light streaming through windows, dust particles in the air,
medium shot, slow motion, photorealistic, 4K, warm tones
テクニック2:ネガティブプロンプトで不要なコンテンツを除外
一部のプラットフォームはネガティブプロンプトに対応しており、モデルに 何が要らないか を伝えることができます。
Negative prompt: deformed, blurry, extra limbs, text, watermark,
cartoon, low resolution, unnatural movement, flickering
テクニック3:参考画像はテキストより効果的
画像から動画(I2V)のシーンでは、良い参考画像1枚 + 短い動きの描写が、純粋なテキストプロンプトの10倍の効果があることが多いです。
# 参考画像と併用するプロンプト(Runway / Kling など)
The camera slowly pushes in, wind blowing through the trees,
leaves gently falling, cinematic lighting
テクニック4:コンテでリズムをコントロール
10秒以上の動画の場合、コンテ形式の描写を試してみてください:
0-3s: Wide establishing shot of a cityscape at dawn,
clouds moving slowly across the sky
3-6s: Cut to street level, people walking, camera tracking forward
6-10s: Close-up on a coffee cup being placed on a café table,
steam rising, warm lighting
よくあるミスと回避ガイド
| ミス | 結果 | 修正方法 |
|---|---|---|
| 主体だけで動きを書かない | 静止画またはランダムな動き | 動きの方向と速度を明確に描写 |
| 動きの描写が矛盾している | 映像の引き裂きや不自然な結果 | 「静止+走る」のような矛盾を避ける |
| カメラワークを無視する | 平淡な映像 | 少なくとも1つのカメラ用語を追加 |
| プロンプトが長すぎる | モデルが要点を見失う | 50〜150語に収める |
| 中国語プロンプト | 理解のズレが大きい | 可能な限り英語を使用 |
| イテレーションしない | 1回で不理想なら諦める | 複数回の調整、ベストバージョンを保存 |
最後に
プロンプトエンジニアリングは神秘ではなく、体系的な学習でマスターできるスキルです。重要なポイント:
- 構造が明確:6要素フレームワーク
- プラットフォームに合わせる:各モデルの癖を理解
- イテレーション思考:書く → 生成 → 調整 → 書き直す
- 英語優先:ほとんどのモデルは英語の理解が優れている
これらのテクニックをマスターすれば、同じモデルでも他人より遥かに良い結果を出せることがわかるはずです。これは才能ではなく、メソドロジーです。
さらに参考: - Wan AI 公式ドキュメント - Kling AI プロンプトガイド - Runway Gen-4.5 チュートリアル - Google Veo 深度解析