2026 年 4 月 8 日,一個叫 HappyHorse 1.0 的模型從天而降,直接登上 Artificial Analysis Video Arena 排行榜第一。 沒有產品發布會、沒有技術部落格、沒有公司背書——然後在登頂後不久就從排行榜上消失了,只留下一堆疑問和幾張截圖。
這不是一個技術故事。這是一個關於「AI 排行榜到底可不可信」的產業警訊。
🔑 5 個關鍵重點
- HappyHorse 1.0 空降 Artificial Analysis 排行榜,Text-to-Video 和 Image-to-Video 雙料冠軍,Elo 分數比 Seedance 2.0 高近 60 分
- 聲稱「完全開源」,但 GitHub 404、HuggingFace 沒有 weights、Model Hub 顯示 “coming soon”——下載不到任何東西
- 技術分析發現它的規格與 daVinci-MagiHuman(Sand.ai 開源模型)逐項吻合,極可能是換皮上榜
- 幕後團隊疑為阿里巴巴淘天集團 Future Life Lab,負責人張迪(前快手 VP / Kling AI 技術負責人)
- 多個冒牌「官方網站」冒出收費,真假難辨,引發「AI 排行榜是否被刷榜操控」的產業信任危機
🐴 HappyHorse 1.0 是什麼?
聲稱的規格
| 項目 | 聲稱內容 |
|---|---|
| 參數量 | 150 億(15B) |
| 架構 | 40 層 unified single-stream Transformer |
| 核心特色 | 文字/圖片 → 影片 + 音訊同步生成(一次 forward pass) |
| 解析度 | 1080p |
| 生成速度 | ~38 秒 / 段(H100) |
| 音訊能力 | 對話、環境音、音效同步生成,7 語言唇形同步 |
| 開源授權 | 聲稱 Apache 2.0,含商用權 |
為什麼它引起注意?
因為它是第一個聲稱能在單一模型內同時生成影片和同步音訊的開源模型。目前市面上的做法是:先生成無聲影片 → 再用另一個模型配音 → 再做唇形同步。HappyHorse 聲稱一步到位。
如果這是真的,它比 Sora 2、Veo 3、Kling 3.0 這些閉源模型都先進——而且還開源。
但問題就在「如果」。
📊 排行榜表現:數字確實漂亮
HappyHorse 1.0 在 Artificial Analysis Video Arena 的成績:
| 類別 | Elo 分數 | 排名 | 比較對象 |
|---|---|---|---|
| Text-to-Video(無音訊) | 1333–1357 | #1 | 比 Seedance 2.0 高 ~60 分 |
| Image-to-Video | 1391–1406 | #1 | 史上最高分 |
| Text-to-Video(含音訊) | — | #2 | 僅次於 Veo 3 |
Artificial Analysis 是目前 AI 影片生成領域最具公信力的評測平台之一。能登上這裡的第一名,不是隨便灌票就能做到的——至少理論上不是。
🔍 疑點一:「開源」是空的
HappyHorse 官方宣稱「完全開源,含 base model、distilled model、super-resolution module、inference code」。
實際查證(截至 2026/4/9):
| 聲稱 | 實際狀態 |
|---|---|
| GitHub 程式碼 | 404,repo 不存在或已刪除 |
| HuggingFace weights | 沒有公開模型 |
| Model Hub 頁面 | 顯示 “coming soon” |
| API 存取 | 回傳 401 Unauthorized |
| 技術文件 | 404 |
一個聲稱「完全開源」的模型,什麼都下載不到。 這不是「還沒準備好」——這是「拿開源當行銷詞」。
在 AI 產業,「開源」這個詞正在被嚴重濫用。真正的開源意味著:你可以下載 weights、跑推論、fine-tune、商用。HappyHorse 一項都做不到。
🎭 疑點二:與 daVinci-MagiHuman 的驚人吻合
這是整個事件最關鍵的發現。
X 平台使用者 Vigo Zhao 對比了 HappyHorse 1.0 和 Sand.ai 開源的 daVinci-MagiHuman 模型,發現:
| 指標 | HappyHorse 1.0 | daVinci-MagiHuman |
|---|---|---|
| 視覺品質 | 4.80 | 4.80 |
| 文字對齊 | 4.18 | 4.18 |
| 物理一致性 | 4.52 | 4.52 |
| 語音字元錯誤率 | 14.60% | 14.60% |
| 參數量 | 15B | 15B |
| 架構 | Single-stream Transformer | Single-stream Transformer |
| 支援語言 | 7 語言(完全相同清單) | 7 語言(完全相同清單) |
逐項完全一致。 不是「接近」,是「一模一樣」。
而 daVinci-MagiHuman 是 Sand.ai 和 GAIR Lab 在 2026 年 3 月底公開發布的,Apache 2.0 授權,GitHub 和 HuggingFace 都可以下載。
合理推測:HappyHorse 1.0 就是 daVinci-MagiHuman 的換皮版本,用不同名字上了排行榜。
🏭 疑點三:幕後是誰?
多方報導指出,HappyHorse 背後是:
- 阿里巴巴淘天集團 Future Life Lab
- 負責人:張迪(前快手副總裁,Kling AI 技術負責人)
這個背景很關鍵——張迪是中國 AI 影片生成領域的頂尖人物,曾領導 Kling(快手的 AI 影片模型)的開發。離開快手後加入阿里巴巴體系。
但 Alibaba 從未正式承認 HappyHorse。 沒有新聞稿、沒有官方部落格、沒有任何公司層級的背書。這意味著兩種可能:
- 內部孵化但還沒準備好公開 → 先用匿名帳號測試排行榜反應
- 公司不想背書 → 因為上榜方式有爭議
不管哪種,「匿名上榜 → 聲稱開源但沒東西 → 被發現是換皮 → 消失」這個流程,對產業信任是很大的傷害。
⚡ 疑點四:兩週登頂的時間軸不合理
| 時間 | 事件 |
|---|---|
| 2026/3 月底 | daVinci-MagiHuman 開源發布 |
| 2026/4/8 | HappyHorse 空降 Artificial Analysis 排行榜 #1 |
| 間隔 | 約兩週 |
問題:一個「新模型」怎麼可能在兩週內就累積到足夠的 Arena 對戰次數,取得高於 Seedance 2.0 的 Elo?
Artificial Analysis 的 Arena 是用真人盲測投票計算 Elo。要穩定在 #1 需要大量對戰。兩週的時間窗口非常緊——除非:
- 針對評測場景特調生成策略(例如:用特定 prompt 模板最佳化輸出)
- 或 Arena 對戰次數不夠多,Elo 還不穩定(統計意義不足)
兩者都是「刷榜」的常見手法。不違法,但破壞評測的公信力。
🆚 AI 影片生成 2026 年競爭全景
| 模型 | 公司 | 開源 | 音影同步 | 排行榜 | 可用性 |
|---|---|---|---|---|---|
| HappyHorse 1.0 | 疑 Alibaba | ❌(聲稱但無 weights) | ✅(聲稱) | #1(排名狀態不穩) | ❌ 不可用 |
| daVinci-MagiHuman | Sand.ai | ✅ Apache 2.0 | ✅ | 未參與 Arena | ✅ 可下載 |
| Seedance 2.0 | ByteDance | ❌ | ✅ | #2(原本 #1) | API |
| Kling 3.0 | 快手 | ❌ | 部分 | Top 5 | API |
| Sora 2 | OpenAI | ❌ | ❌(影片only) | 中段 | ChatGPT Pro |
| Veo 3.1 | ❌ | ✅ | 音訊類 #1 | Vertex AI | |
| WAN 2.7 | Alibaba | ✅ | ❌ | 中段 | 可下載 |
注意:HappyHorse 的排名狀態仍不穩定,後續是否會被移除或維持尚待觀察。但不管結果如何,一個下載不到 weights 的模型佔據 #1,本身就是排行榜機制的漏洞。
🧠 這件事為什麼重要?
1. AI 排行榜的信任危機
Artificial Analysis、LMSYS Chatbot Arena、Open LLM Leaderboard——這些排行榜是 AI 產業的「消費者報告」。開發者、投資人、企業客戶都看排名做決策。
如果一個匿名模型可以用換皮 + 特調策略登頂,排行榜的意義在哪?
| 問題 | 影響 |
|---|---|
| 匿名提交不需要驗證身分 | 任何人可以用任何模型上榜 |
| 「開源」不需要驗證是否真的開源 | 聲稱開源就能拿到開源類別 #1 |
| Arena 對戰次數不透明 | 低對戰次數的 Elo 統計意義不足 |
| 沒有可重現性要求 | 別人無法驗證你的模型是不是你說的那個 |
2.「開源」這個詞正在被武器化
HappyHorse 不是唯一這樣做的。2025-2026 年,越來越多中國 AI 公司用「開源」當行銷詞:
- 發布新聞稿說「開源」
- 排行榜上標註「Open Source」
- 但 weights 要等幾週/幾個月才放出來(或永遠不放)
- 等到別人做了完整評測,行銷效果已經達到
這不是開源,是用開源的品牌信譽做免費廣告。
更離譜的是後續效應:HappyHorse 登頂後,網路上迅速冒出多個「HappyHorse 官方網站」,掛著同樣的名字和 Logo,提供付費生成服務(月費從 $11.90 到 $99.99 不等)。這些網站一方面聲稱「完全開源」,另一方面按月收費、按量計價——有些後端甚至標註使用其他公司的基礎設施,跟原始團隊毫無關聯。
這就是「假開源」的連鎖反應:原始團隊用「開源」拿曝光,第三方再用同一個品牌名拿來賣錢。 最後消費者根本分不清哪個是真的、哪個是冒牌的。如果你在搜尋引擎上看到任何「HappyHorse 線上試用」的網站,請先確認它有沒有可驗證的 GitHub repo 和 HuggingFace weights——如果沒有,大概率是蹭流量的代理頁面。
3. 真正的受害者是 daVinci-MagiHuman
如果 HappyHorse 真的是 daVinci-MagiHuman 的換皮,那 Sand.ai 和 GAIR Lab 才是真正做出技術的人——但他們沒有拿到排行榜的曝光,流量和聲量都被 HappyHorse 截走了。
做事的人沒聲量,搶功的人上頭條。 這是開源社群最討厭的事。
💡 對一般使用者的實際建議
如果你想用 AI 生成影片
| 需求 | 建議 | 原因 |
|---|---|---|
| 商用品質 | Veo 3.1 或 Seedance 2.0 | 穩定、有 API、有商用授權 |
| 開源自架 | daVinci-MagiHuman 或 WAN 2.7 | 真的有 weights 可以下載 |
| 含音訊 | Veo 3.1(閉源) / daVinci-MagiHuman(開源) | 原生音影同步 |
| 免費試用 | Kling 3.0 免費額度 | 每日有免費生成額度 |
不要選 HappyHorse。 即使它之後真的放出 weights,一個「假開源 + 匿名刷榜 + 冒牌官網滿天飛」的團隊,你要怎麼信任它的模型不會有後門或授權問題?
如果你是看排行榜做 AI 決策的人
在看任何 AI 排行榜時,多問三個問題:
- 我能不能自己跑這個模型?(不能 = 結果不可驗證)
- Elo 是基於多少對戰次數?(< 500 次 = 統計不穩定)
- 提交者是誰?有沒有公司背書?(匿名 = 高風險)
❓ FAQ
HappyHorse 1.0 現在還能用嗎?
不能。 截至 2026/4/9,GitHub 404、HuggingFace 沒有 weights、API 回傳 401。如果你在網路上看到「HappyHorse 線上試用」的網站,大概率是第三方蹭流量的代理頁面,不是官方服務。如果你想要類似能力的模型,直接用 daVinci-MagiHuman——那才是真正可以下載和使用的開源模型。
daVinci-MagiHuman 好用嗎?
技術上是目前開源影片生成的前段班。 15B 參數、音影同步、1080p、Apache 2.0 商用授權。但它需要 GPU 資源(至少一張 A100 / H100)來跑推論,不適合沒有 GPU 的個人使用者。如果你只是想生成短影片,用 Kling 免費額度或 Veo 3 會簡單很多。
Artificial Analysis 排行榜還可信嗎?
基本可信,但要帶批判眼光看。 HappyHorse 事件暴露了匿名提交和可重現性的漏洞。Artificial Analysis 之後可能會加強驗證機制(例如要求提交者提供可存取的 API 端點)。在那之前,排行榜的排名當參考就好,不要當聖經——特別是對你沒聽過的模型,先查它的 GitHub/HuggingFace 再說。
這跟 Alibaba 有什麼關係?
多方報導指出幕後是阿里巴巴淘天集團 Future Life Lab,但 Alibaba 從未正式承認。這可能是內部團隊的獨立行動,也可能是公司默許的市場試探。不管哪種,如果 Alibaba 真的是幕後推手,用匿名帳號刷排行榜而不是正式發布,對 Alibaba 在開源社群的品牌信譽是減分的——尤其他們旗下的 Qwen 和 WAN 系列一直靠開源建立好感。
以後還會有類似的刷榜事件嗎?
幾乎可以確定會有。 只要排行榜接受匿名提交、不要求可重現性驗證,就一定會有人鑽這個漏洞。AI 產業的競爭壓力太大,排行榜 #1 帶來的媒體曝光和投資人注意力值幾百萬美元——花幾週做一個「特調版本」上榜,投資報酬率太高了。