5 月 2-3 日,xAI 一次端出兩個東西:Grok 4.3 + Custom Voices(1 分鐘語音、不到 2 分鐘克隆完)。
Grok 4.3 的定價非常激進:每百萬輸入 1.25 美元、每百萬輸出 2.50 美元(超過 20 萬詞元翻倍)——比 Claude Opus 便宜 12 倍、比 GPT-5 便宜 8 倍。性能不是最強(略低於 Claude Opus 4.7、GPT-5),但「便宜到值得試」。
更值得關注的是 Custom Voices。1 分鐘語音 + 不到 2 分鐘克隆完 把深偽詐騙工具的門檻拉到歷史新低。xAI 加了 即時通關密語 + 聲紋匹配 防護,但這些防護有結構性缺口——這篇拆給你看。
跟 4 月 Arup 深偽詐騙產業化一起讀,你會看清楚一個現象:深偽詐騙的「規模化」不是停在 4 月,5 月又被推了一把。
📋 5/02-03 公告核心事實
| 項目 | 內容 |
|---|---|
| Grok 4.3 推出 | 5/02-03,從 4 月公測期推至正式 |
| 定價 | 每百萬輸入 1.25 美元、輸出 2.50 美元(20 萬詞元以內) |
| 超過 20 萬詞元 | 價格翻倍 |
| 訂閱方案 | SuperGrok 每月 30 美元、X Premium+ 每月 40 美元(前 2 個月半價) |
| Custom Voices 樣本要求 | 約 1 分鐘語音 |
| 克隆速度 | 不到 2 分鐘 |
| 防護機制 | 即時通關密語 + 聲紋匹配 |
| 配套 | Grok Imagine 介面品質模式(更高真實感、更強文字渲染) |
最值得記的數字是每百萬輸入 1.25 美元——Claude Opus 4.7 輸入是 15 美元、GPT-5 輸入是 10 美元。Grok 4.3 不是性能領先,是「價格戰」。
💰 「便宜到值得試」的戰略意義
xAI 過去 18 個月在價格上一直比 OpenAI、Anthropic 略低,但沒有 5/03 這次激進。每百萬輸入 1.25 美元是「新進者搶市場」的定價——犧牲毛利換用戶。
為什麼 xAI 現在做這個價格戰?
(1) Grok 4 之後沒有「性能領先」的故事 2025 年 Grok 4 推出時主打「真相 AI、敢說、最強」,但業界最強的位置沒贏。Grok 4.3 性能仍是「次強」——比不過 Claude 4.7、GPT-5。xAI 必須換戰場——從「最強」變「最值得試」。
(2) X(Twitter)流量需要 AI 黏著 Grok 內建 X Premium+,X 的留存率需要 AI 功能撐。便宜 → 更多人訂 → 更多人用 X → 更多廣告 → 更多 X 收入。這個閉環裡 Grok 不需要「自己賺錢」,需要「讓 X 賺錢」。
(3) SpaceX Colossus 1 現在租 Anthropic 過去 Colossus 1 是 xAI 訓 Grok 的旗艦設施。5/06 SpaceX 把 Colossus 1 整廠租給 Anthropic = xAI 對 Colossus 1 依賴下降 = 算力成本結構變化。這個變化可能讓 xAI 願意降價搶市佔——算力邊際成本結構改變了。
(4) 對標下沉市場 每百萬輸入 1.25 美元對「個人開發者、學生、小新創」極有吸引力。Claude Opus 對這群人「用不起」,Grok 4.3 把大語言模型變成「奶茶錢」級別——年費 360 美元訂閱 = 一杯星巴克的價格,你可以查詢數百萬詞元。這個價格定位對「新興市場、學生群體」是降維打擊。
🎙️ Custom Voices:1 分鐘語音、不到 2 分鐘克隆完
語音克隆的歷史:
- 2023:需要 30 分鐘以上清晰語音、訓練要數小時、結果生硬
- 2024:5-10 分鐘樣本、訓練 30-60 分鐘、結果像本人但不自然
- 2025:3-5 分鐘樣本、訓練 10-15 分鐘、自然度高
- 2026/05 xAI:1 分鐘樣本、不到 2 分鐘克隆完、即時對話可用
這個進步速度的意義:深偽聲音的「工具門檻」過去 2 年下降 30 倍。過去需要技術專家半天的工作,現在隨機詐騙集團 2 分鐘做完。
xAI Custom Voices 的合規包裝:
- 開發者用介面接入時,有濫用偵測 + 稽核紀錄
- 商業客戶簽服務條款,禁止冒充他人(但執法仰賴受害者投訴)
- 訓練樣本必須通過 即時通關密語 + 聲紋匹配
這個機制:
- 使用者錄製樣本時,系統隨機生成通關密語(例:「藍色火車奔向月亮」)
- 使用者必須在錄音中即時念出通關密語
- 系統用聲紋特徵比對「這個人之前錄的其他段落」
- 兩個條件都通過 → 允許克隆
xAI 的宣稱:「這個機制防止第三方拿預錄音檔克隆」。
⚠️ Custom Voices 防護的結構性缺口
xAI 的通關密語跟聲紋匹配機制理論上有效,實務上有 3 個結構性缺口:
(1) 社交工程式的誘導 攻擊方可以設計場景誘導目標讀通關密語:
- 假冒「xAI 抽獎活動」,要求目標念固定一句話錄影(即時通關密語變固定句子)
- 假冒「朗讀比賽、詩詞活動」,蒐集目標的「多通關密語候選**」
- 用社交媒體公開直播、Podcast 採集
這個攻擊在過去語音深偽就用,Custom Voices 沒解這個問題,只把門檻從「有人錄音」提到「有人說通關密語」。
(2) 模型被越獄後護欄失效 xAI 的 Custom Voices 跑在 xAI 自家系統,但開源社群已有類似能力的模型(ElevenLabs OSS、CosyVoice、F5-TTS)。攻擊方不用 xAI 也可以做語音克隆——只是樣本要求高一點(2-5 分鐘 vs 1 分鐘)。
xAI 把「門檻」拉低,反而把「用 Custom Voices 做合法語音克隆工作的人」教育成深偽攻擊者——這個次級效應沒人在管。
(3) 訓練樣本可間接流通
- xAI 的「Voice Library」會儲存使用者的聲紋特徵
- 即使官方介面拒絕第三方克隆,聲紋特徵一旦洩漏(內部員工、駭客攻擊),就可被別處用
- 這是「集中化語音生物辨識資料」的系統性風險——類似 2024 LastPass 密碼庫洩漏的等級事件
對個人風險:
- 你用 Custom Voices 給自己克隆「為了娛樂」
- 你的聲紋特徵進入 xAI 系統
- xAI 被駭(機率不低)
- 你的聲紋特徵流入地下市場,被用來做詐騙
這個風險是「個人沒有主控權」的——一旦你做了語音克隆,就放棄了一部分語音生物辨識的主權。
🎯 「家中老人、公司財務的二人複核」從值得做變必須做
4 月 Arup 深偽詐騙那篇講過深偽詐騙的標準劇本。5/03 Custom Voices 進一步降低工具門檻,意味著過去「值得做」的防護現在變「不做就出事」。
個人、家庭層面的具體建議:
(1) 跟家人約「緊急情況的暗號」
- 老人對「孫子緊急要錢」是最常見詐騙場景
- 暗號要是「只有家人知道、不會在社交平台公開」的特定詞 — 例:童年的寵物名 + 一個地名
- 對家中老人現場演練——不要假設「我跟他說過他就懂」
(2) 對所有「緊急電話、語音訊息」雙重驗證
- 接到「家人、上司」語音訊息要錢:永遠用第二管道驗證
- 不要相信「他打給我了我聽得出是他」
- 不要相信「他講話有他特有的口頭禪」——AI 都能模仿
(3) 減少公開個人語音樣本
- 社交媒體上 30 秒以上的清晰個人語音 = 攻擊方訓練樣本
- Podcast、YouTube 影片、公司宣傳片是高風險
- 對名人、高階主管:這個保護幾乎做不到,只能靠「多管道驗證」
公司、財務層面:
(4) 大額款項授權
- 一定金額以上款項授權:強制 24 小時等待 + 二人實體簽核
- 用 passkey + FIDO2 硬體金鑰替代「視訊本人確認」
- 財務長、財務不能因為「我在視訊看到他」就放款
(5) 內部「反深偽訓練」
- 全公司財務人員看「深偽案例」(YouTube 有大量 Arup 案後重現)
- 每季演練「深偽詐騙模擬」——讓人員親身體驗「假的看不出來」
- 把「懷疑 = 暫停」變成標準流程預設值
💡 Mason 的判斷
Grok 4.3 + Custom Voices 把「AI 工具的雙刃劍」問題具體化。三個觀察:
(1) xAI 走的「激進度」路線,是 OpenAI、Anthropic 不敢走的 OpenAI、Anthropic 在語音克隆上極保守(預設不開放、企業客戶要過審查)。xAI 走完全相反——「先發布,再處理濫用」。這個策略短期會搶到下沉市場,長期會被監管反撲——預期 12 個月內歐盟、加州會對語音克隆立法,xAI 會首當其衝。
(2) Custom Voices 防護機制是「及格但不夠」 通關密語 + 聲紋匹配確實比「沒防護」好,但對「主動規劃的攻擊方」幾乎無效。xAI 把這個當「安全保證」推銷,但實質上只是「對隨機濫用的篩選器」。業界對語音克隆的「真正安全標準」還沒形成共識。
(3) 深偽防護從「技術」轉向「流程」 過去 24 個月業界投錢在「深偽偵測」(用 AI 抓 AI),5/03 後這條路徹底死掉——攻擊速度已遠超偵測速度。真實的防護是「人 + 流程」:暗號驗證、二人複核、強制等待期、passkey 替代視訊確認。這個轉變台灣業界跟不上——多數還在「買偵測工具」階段。
🇹🇼 對台灣的延伸
對台灣詐騙環境:
- 2024-2025 台灣已是「深偽 + 投資詐騙」全球前 5(高齡化 + 智慧型手機普及 + 對家庭關係的高情感投入)
- Grok 4.3 + Custom Voices 上線後 6-12 個月,預期看到「台語版深偽詐騙」「台灣家庭關係場景化深偽」浮現
- 警政署 165 反詐騙專線跟金管會應立即更新「深偽詐騙」的宣導模式——不要再用「仔細看」「注意口型」的舊話術,要改成「永遠雙重驗證」「設家庭暗號」
對台灣企業財務:
- 中小企業的「外資匯款授權」流程多數有漏洞——財務長用 LINE、Email 授權,沒有 passkey + 二人複核
- 上市公司「內部稽核」應把深偽詐騙模擬列入年度演練——這是低成本但高效的防禦投資
- 銀行對中小企業客戶的「大額授權」流程,應強制「多管道驗證」——不要只信視訊或單一電話
對台灣 AI 採用者:
- 個人用 Grok 4.3:值得試,因為便宜。但不要把它當主力模型——性能仍次於 Claude、GPT,且 xAI 對使用者資料保護鬆於 Anthropic
- 企業用 Grok 4.3:評估語音功能時要做風險評估——尤其零售、金融、客服場景
- 開發者用 Custom Voices 介面:先做濫用情境設計——你的服務可能被當作深偽工具,要有監控與下架機制
🎯 不同角色的建議
給家庭、個人:
- 今晚就跟家人約緊急暗號——不要拖到「等我有空再說」**。深偽詐騙的隨機性已經把每個家庭推入潛在受害者池
- 減少在公開平台上傳「30 秒以上正面清晰個人語音」——尤其影片、Podcast、公司簡介
- 對家中長輩做現場演練——「如果有人說我急需錢,你會怎麼做?」——直到他能直覺反應「先打另一個電話確認」
給企業財務長、財務主管:
- 這週把所有一定金額以上款項授權,改成 passkey + 二人複核——金額看公司規模,通常 5 萬到 100 萬美元
- 把「我在視訊看到他」從合規流程裡刪除——這是法律邊界外的判斷,不該作為授權依據
- 全公司財務人員強制觀看深偽案例 + 案例討論會——讓他們親眼看「假到看不出來」
給 AI 工具開發者:
- 如果你做的工具有語音、影像相關,現在就要設計濫用情境監控——不要等出事才補
- 對「語音生物辨識資料」有極高的儲存責任——遵循 GDPR、CCPA 但自願做得更嚴(短保留期、加密儲存、存取稽核)
- 跟客戶溝通時:強調防護限制,不要把「有通關密語」當「完全安全」推銷
給政策制定者:
- 金管會應跟進歐盟 eIDAS 2.0,2026 內強制金融業導入 passkey + 強制等待期
- 警政署反詐騙文宣需要語音克隆時代的新版本——「聽起來像本人」不再是「他是本人」的證據
- 教育部把「深偽社交工程」列入國高中數位素養課程——這是公民資安基礎
給政府機關:
- 公部門「視訊認證身份」徹底廢除——改用 W3C 可驗證憑證或 passkey
- 1922、165 等各專線訓練接線人員辨識「深偽詐騙電話」的話術模式——攻擊方的劇本相似度極高
- 老人福利機構、社區照顧據點列入反深偽宣導重點場域
❓ FAQ
Grok 4.3 跟 Claude、GPT 該選哪個?
看你的需求。
選 Grok 4.3 的情境:
- 預算極敏感——個人開發者、學生、實驗性專案
- 需要「敢說、爭議性內容」(其他模型拒絕的)
- 主要用 X 生態
- 對「最強性能」不堅持,「夠用就好」**
選 Claude 4.7、GPT-5 的情境:
- 商業、企業使用——資料保護、合規、服務水準較完整
- 需要最強的程式碼能力、推理、長上下文
- 代理工作流(Claude 受管代理、OpenAI 助理)
- 對模型對齊、安全有要求
混搭建議(對開發者):
- Anthropic Claude 主力(品質 + 代理生態)
- OpenAI GPT 第二意見、備援
- Grok 4.3 用於「便宜的批次任務」**——資料清洗、簡單摘要、低風險生成
不要把全部押在任一家——AI 模型市場仍在快速變化,三家輪流領先。
Custom Voices 的通關密語機制到底有沒有用?
有用但不夠。
有用之處:
- 擋掉「隨手抓 Podcast、YouTube 克隆名人聲音」這種懶人攻擊
- 提高「完全自動化深偽詐騙工廠」的成本
- 給 xAI 法律上的「我們有做合理努力」**辯護
不夠之處:
- 無法擋「社交工程誘導目標讀通關密語」——這是真實攻擊向量
- 無法擋「聲紋特徵從 xAI 系統洩漏」——一旦洩漏,克隆隨手做
- 無法擋「用其他開源語音克隆工具」——這些工具不需要通關密語
結論:Custom Voices 的通關密語機制是「有比沒有好」,但不是「安全」。個人對語音克隆詐騙的防護不能依賴「xAI 有通關密語」——必須回到「人類流程」:暗號驗證、二人複核、雙管道確認。
我做 Podcast、創作者,我的聲音被克隆怎麼辦?
現實:你已經部分曝光了,只能管理風險。
短期(現在到 6 個月):
- 減少新內容的暴露——可考慮加入「獨特音樂背景」「間歇性電子變聲」**讓克隆樣本更難純化
- 跟核心家人、工作夥伴約暗號——別人模仿你打給家人、員工,他們能識別
- 接到自己「奇怪電話」保持警覺——詐騙方可能會「用你的聲音」騙你的客戶、家人,你會接到衍生詢問
中期(6-12 個月):
- 評估「語音浮水印」**服務——SynthID、Veritone 等工具可以給聲音加數位浮水印
- 在合約、公開聲明加入「我的聲音僅本人合法使用」條款——法律上不能擋深偽,但對「冒充我做生意」的訴訟有用
長期(2-3 年):
- 整個業界會走向「語音生物辨識數位身份」——你的聲音對應「經認證的數位身份」**,沒這個身份的語音預設不信任
- 創作者經濟需要「個人語音智財」保護機制——這塊現在沒成熟方案,會是未來 3-5 年的法律與科技新議題**
結論:完全防止克隆不可能,只能「讓克隆的傷害最小化」——透過暗號、流程、社群信任網。
Sources:
- xAI launches Grok 4.3 at aggressively low price and voice cloning suite — VentureBeat
- xAI Adds Voice Cloning to New Grok 4.3 AI Model — WinBuzzer
- Grok 4.3: Always-On Reasoning, 40% Price Cut, and Voice Cloning — DDR Innova
- Custom Voices and Voice Library — xAI
- xAI Grok Voice Clone vs. Google Voice Model 2026 — MindStudio