Google 在 I/O 2026 推出 Gemini Omni。
它不是單純的「又一個 AI 影片模型」,而是 Google 想把多模態理解和生成放進同一個模型裡。
換句話說,Gemini Omni 不只是用文字生影片。它可以讀文字、圖片、音訊、影片,再產生或修改影片。
Gemini Omni 能做什麼?
Google 對 Gemini Omni 的定位是:從任何輸入創造內容,先從影片開始。
目前最值得注意的能力包括:
- 用文字描述生成影片。
- 上傳圖片或影片作為參考。
- 用自然語言修改既有影片。
- 多輪對話後保留前面修改脈絡。
- 改變背景、角色、風格、鏡頭角度。
- 保持角色一致性。
- 在 Google Flow 和 Gemini app 中使用。
- 接進 YouTube Shorts Remix 和 YouTube Create。
這代表創作流程會更像「導演對剪輯師說話」,而不是一次性下 prompt。
和傳統 AI 影片工具差在哪?
| 比較項目 | 一般 AI 影片工具 | Gemini Omni 的方向 |
|---|---|---|
| 輸入 | 多半是文字或圖片 | 文字、圖片、音訊、影片都可作為參考 |
| 編輯 | 常要重新生成 | 可透過對話逐步修改 |
| 一致性 | 容易換臉、換物件 | 強調角色與場景延續 |
| 生態 | 單一工具 | Gemini app、Flow、YouTube、Google AI subscription |
| 用途 | 生成短片 | 生成、改造、 remix、工作流整合 |
真正的差異在「多輪修改」。
如果每次改一個細節都要重生整段影片,AI 影片很難進入正式工作流。
Gemini Omni 想解的是這個問題。
適合哪些創作場景?
Gemini Omni 適合:
- 社群短影音。
- YouTube Shorts Remix。
- 廣告概念片。
- 活動視覺草稿。
- 產品情境影片。
- MV 或動態視覺概念。
- 將照片轉成短片。
- 風格測試與 moodboard 動態化。
不太適合一開始就拿來做:
- 長篇劇情片。
- 高精準商業影片交付。
- 需要真實法律授權人物肖像的內容。
- 高度品牌控管的正式廣告片。
- 需要完全可重現鏡頭的專案。
AI 影片仍然適合先做草稿、概念、短內容和 remix。
內容創作者怎麼開始?
可以從低風險任務開始:
- 上傳一張產品照片。
- 要求 Gemini Omni 生成 5 秒社群短片。
- 第二輪要求換背景。
- 第三輪調整鏡頭。
- 第四輪加上不同風格版本。
- 比較哪一版最適合短影音封面或廣告測試。
不要一開始就要求一支完美影片。
AI 影片比較像快速試拍工具,適合用來找方向。
權利與標記要注意
Google 表示 Gemini Omni 影片會包含 SynthID digital watermark。
創作者仍然要注意:
- 不要未授權使用他人肖像。
- 不要假冒真實事件。
- 商業素材要確認授權。
- 品牌人物和商標要避免誤用。
- 發布 AI 生成內容時保留必要揭露。
AI 影片越真,越需要清楚標記與來源管理。
結論
Gemini Omni 的重點,不只是讓影片更漂亮。
它真正要改變的是創作流程:用任何素材開始,用對話修改,用 Google 生態分發。
對創作者來說,最好的切入點是短片概念、素材變體、社群 remix 和快速測試。等到多輪控制和一致性更穩,再逐步把它放進正式製作流程。