回到頂部
Mason AI Lab creative hero for multimodal AI video generation

Gemini Omni 是什麼?Google 新 AI 影片模型如何用文字、圖片、影片一起創作

Google 在 I/O 2026 推出 Gemini Omni,可從文字、圖片、音訊、影片等輸入生成與編輯影片。這篇整理功能、適合場景、限制與和 Google Flow、YouTube Shorts 的關係。

Google 在 I/O 2026 推出 Gemini Omni。

它不是單純的「又一個 AI 影片模型」,而是 Google 想把多模態理解和生成放進同一個模型裡。

換句話說,Gemini Omni 不只是用文字生影片。它可以讀文字、圖片、音訊、影片,再產生或修改影片。

Gemini Omni 能做什麼?

Google 對 Gemini Omni 的定位是:從任何輸入創造內容,先從影片開始。

目前最值得注意的能力包括:

  • 用文字描述生成影片。
  • 上傳圖片或影片作為參考。
  • 用自然語言修改既有影片。
  • 多輪對話後保留前面修改脈絡。
  • 改變背景、角色、風格、鏡頭角度。
  • 保持角色一致性。
  • 在 Google Flow 和 Gemini app 中使用。
  • 接進 YouTube Shorts Remix 和 YouTube Create。

這代表創作流程會更像「導演對剪輯師說話」,而不是一次性下 prompt。

和傳統 AI 影片工具差在哪?

比較項目一般 AI 影片工具Gemini Omni 的方向
輸入多半是文字或圖片文字、圖片、音訊、影片都可作為參考
編輯常要重新生成可透過對話逐步修改
一致性容易換臉、換物件強調角色與場景延續
生態單一工具Gemini app、Flow、YouTube、Google AI subscription
用途生成短片生成、改造、 remix、工作流整合

真正的差異在「多輪修改」。

如果每次改一個細節都要重生整段影片,AI 影片很難進入正式工作流。

Gemini Omni 想解的是這個問題。

適合哪些創作場景?

Gemini Omni 適合:

  • 社群短影音。
  • YouTube Shorts Remix。
  • 廣告概念片。
  • 活動視覺草稿。
  • 產品情境影片。
  • MV 或動態視覺概念。
  • 將照片轉成短片。
  • 風格測試與 moodboard 動態化。

不太適合一開始就拿來做:

  • 長篇劇情片。
  • 高精準商業影片交付。
  • 需要真實法律授權人物肖像的內容。
  • 高度品牌控管的正式廣告片。
  • 需要完全可重現鏡頭的專案。

AI 影片仍然適合先做草稿、概念、短內容和 remix。

內容創作者怎麼開始?

可以從低風險任務開始:

  1. 上傳一張產品照片。
  2. 要求 Gemini Omni 生成 5 秒社群短片。
  3. 第二輪要求換背景。
  4. 第三輪調整鏡頭。
  5. 第四輪加上不同風格版本。
  6. 比較哪一版最適合短影音封面或廣告測試。

不要一開始就要求一支完美影片。

AI 影片比較像快速試拍工具,適合用來找方向。

權利與標記要注意

Google 表示 Gemini Omni 影片會包含 SynthID digital watermark。

創作者仍然要注意:

  • 不要未授權使用他人肖像。
  • 不要假冒真實事件。
  • 商業素材要確認授權。
  • 品牌人物和商標要避免誤用。
  • 發布 AI 生成內容時保留必要揭露。

AI 影片越真,越需要清楚標記與來源管理。

結論

Gemini Omni 的重點,不只是讓影片更漂亮。

它真正要改變的是創作流程:用任何素材開始,用對話修改,用 Google 生態分發。

對創作者來說,最好的切入點是短片概念、素材變體、社群 remix 和快速測試。等到多輪控制和一致性更穩,再逐步把它放進正式製作流程。

參考來源

№ · further reading

延伸閱讀