邊緣 AI：不需要雲端，手機就能跑 AI

Q: 邊緣 AI 對企業有什麼實際用途？

最成熟的應用是工廠的[視覺檢測](/career/ai-mfg-qa/)——AI 模型直接在產線旁的邊緣運算主機上跑，毫秒級即時判斷產品瑕疵，不需要等雲端回覆。醫療、零售（人流偵測）、[工地安全監控](/career/ai-arch-safety/)也都是邊緣 AI 的熱門場景。

Q: 想在電腦本地跑 AI，Mac 還是 Windows + NVIDIA 比較好？

如果預算有限且主要跑 LLM，**Mac（M4 Pro 以上，24GB 統一記憶體起跳）** 性價比最高，因為統一記憶體架構讓大模型可以直接用到全部 RAM。如果要做 AI 繪圖、影片生成、模型訓練，則 **Windows + RTX 4090** 生態系更完整。詳細工具比較可以參考 [Ollama 本地部署教學](/tools/ollama/)。

Apple Intelligence、Gemini Nano——AI 從雲端走向你的手機和家電。

發佈於： 2026-03-03

入門邊緣AI Edge AI NPU

📱 AI 為什麼要搬到手機上？

邊緣 AI（Edge AI）讓 AI 直接在你的裝置上運行，不需要把資料傳到雲端。

優勢	說明
🔒 更好的隱私	資料不離開手機，不會被雲端服務收集
⚡ 更快的回應	不需等網路延遲，即時處理
💰 免費	無 API 費用，不按用量計費
📶 離線可用	沒網路照樣能用 AI

📲 正在發生的改變

手機上的 AI

Apple Intelligence — iPhone、iPad 內建 AI，可本地處理照片搜尋、文字摘要、email 優先排序
Google Gemini Nano — Android 手機內建，快速回應、離線翻譯
兩者都在裝置上運行，不需要把你的資料傳到雲端

AI 智慧穿戴

AI 智慧眼鏡預計 2026 年市場達 950 萬副
Meta Ray-Ban 智慧眼鏡搭載多模態 AI，可即時翻譯和辨識物體

邊緣 AI 在工業

工廠用邊緣 AI 即時偵測產品瑕疵，不需等雲端回覆
醫療設備上的 AI 可即時分析 X 光片，加速診斷

🏠 在自己電腦上跑 AI

想在本地跑 AI 模型？用 Ollama 一行指令就能開始：

# 安裝後一行指令
ollama run llama3.1

推薦的本地模型：

模型	大小	適合	最低 RAM
Phi-3 Mini	3.8B	程式碼、問答	8GB
Llama 3.2 3B	3B	通用對話	8GB
Qwen 2.5 7B	7B	中文最佳	16GB
Gemma 2 2B	2B	極輕量	4GB

→ 完整指南：Ollama 教學、AI PC 時代

🔧 邊緣 AI 硬體選購指南

想在本地跑 AI，硬體規格決定了你能做什麼。以下是 2026 年的實用選購建議：

NPU vs GPU：哪個才重要？

2026 年的新電腦和手機幾乎都內建 NPU（神經網路處理器），但它和 GPU 的角色不同：

比較項目	NPU	GPU
擅長	持續性、低功耗的 AI 任務	短時間、高強度的 AI 運算
典型場景	背景降噪、相機即時美化、語音助理	跑大型語言模型、AI 繪圖
功耗	極低（1-5W）	較高（15-300W）
代表晶片	Apple Neural Engine、Qualcomm Hexagon	NVIDIA RTX、AMD RDNA

結論：如果你只是要用手機上的 AI 功能（Apple Intelligence、Gemini Nano），NPU 就夠了。如果你想在電腦上跑 Ollama 等本地模型，GPU 記憶體（VRAM）才是關鍵——至少需要 8GB VRAM。

不同預算的推薦配置

預算	配置建議	能跑的模型
0 元	用現有手機的 AI 功能	Apple Intelligence / Gemini Nano 內建功能
3 萬台幣	Mac Mini M4（16GB）	7B 模型流暢、13B 模型可用
5 萬台幣	桌機 + RTX 4060 Ti 16GB	13B 模型流暢、量化 70B 可用
10 萬以上	RTX 4090 24GB 或 Mac Studio M4 Max	70B 模型流暢運行

→ 想了解更多本地 AI 的可能性，看 AI PC 時代：為什麼你的下一台電腦需要 NPU

🏢 企業導入邊緣 AI 的三步驟

對企業來說，邊緣 AI 不是買幾台設備就好，需要有系統地規劃：

第一步：盤點高價值場景

列出公司內「需要即時 AI 判斷」且「資料不適合上雲」的場景。常見例子：

產線品質檢測（毫秒級要求 + 產品影像可能涉及商業機密）
門市人流分析（即時性 + 顧客隱私）
醫療院所的即時影像輔助判讀（延遲不可接受 + 病患隱私）

第二步：選擇邊緣運算平台

平台	適合場景	特色
NVIDIA Jetson Orin	工業視覺、機器人	效能最強，生態系最完整
Intel OpenVINO	零售、智慧建築	支援多種硬體，部署彈性大
Google Coral	輕量級嵌入式裝置	低功耗、成本低
AWS Panorama	已有 AWS 雲端架構的企業	雲邊協同最成熟

第三步：建立雲邊協同架構

最佳實務不是「全部放邊緣」或「全部上雲」，而是兩者搭配：邊緣端處理即時推論，雲端負責模型訓練和更新。這樣既有即時性，又能持續改善模型效能。

→ 延伸閱讀：AI 工廠品質檢測、Physical AI、免費 AI 工具清單

🔬 實測：2026 年手機上能跑哪些模型？

「手機上真的跑得動 LLM 嗎？」這是最常被問的問題。答案是：跑得動，但要看你期待的是什麼。

Apple Neural Engine 的實力

iPhone 17 Pro 搭載的 A19 Pro 晶片，Neural Engine 算力來到 45 TOPS，搭配 12GB 統一記憶體，本地可順暢執行 3B 參數模型。實測 Llama 3.2 3B（Q4 量化版） 在 iPhone 17 Pro 上的生成速度約為 18-22 tokens/秒，這個速度已經快過一般人的閱讀速度，足以支援即時對話。Apple Intelligence 本身用的是自家訓練的 3B 基礎模型，針對 Apple Neural Engine 做了深度優化。

高通 NPU 的競爭

高通 Snapdragon 8 Gen 4 搭載的 Hexagon NPU 算力達到 48 TOPS，在 Android 陣營領先。Samsung Galaxy S25 Ultra 實測可流暢跑 Gemini Nano 2（約 3.25B 參數），生成速度約 15-18 tokens/秒。高通自家的 AI Hub 也開放開發者部署自訂模型，是目前 Android 端側 AI 最成熟的生態系。

量化技術：讓大模型塞進小裝置

手機能跑 LLM 的關鍵是 量化（Quantization） 技術。原本用 FP16（16 bit 浮點數）儲存的模型，壓縮到 Q4（4 bit 整數） 後，體積縮小 4 倍，精度損失卻只有 2-5%。常見格式：

格式	用途	體積	精度
GGUF Q4_K_M	Ollama、llama.cpp 主流格式	原始 1/4	幾乎無損
GGUF Q8_0	需要更高精度時	原始 1/2	極接近原版
MLX（Apple）	Mac / iPhone 專用	類似 Q4	Apple Silicon 最佳化
ONNX Runtime Mobile	跨平台手機部署	彈性	視模型

實用建議：如果你是開發者想在手機上部署 LLM，先從 GGUF Q4_K_M 格式開始，它是目前生態系最成熟、工具鏈最齊全的選擇。

⚖️ 隱私 vs 雲端：該怎麼選？

邊緣 AI 最大賣點是隱私，但不代表「永遠用本地模型就對了」。實務上需要根據任務特性做判斷：

該用邊緣 AI 的場景

高頻、短任務：每天用 50 次的簡單摘要、翻譯、改錯字——用雲端 API 會產生不必要的費用和網路延遲
敏感資料：個人照片、健康紀錄、未公開的工作文件
離線需求：飛機上、山區、地下室——雲端 AI 完全不可用
法規合規：醫療影像、金融交易紀錄、未成年人資料

該用雲端 AI 的場景

複雜推理：需要跨領域知識整合的深度分析——手機上的 3B 模型遠遠不夠
長文檔處理：超過 128K token 的文檔——邊緣模型記憶體裝不下
多模態分析：高解析度影片理解、精密圖像生成——需要雲端 GPU
專業領域：法律、醫療、財務的專業判斷——需要最強模型

混合策略：2026 年主流做法是「本地優先、雲端兜底」。先讓裝置上的小模型嘗試處理，判斷信心不足時才路由到雲端。Apple Intelligence 的 Private Cloud Compute 就是這個設計。想同時比較不同雲端模型的能力，可以參考模型比較指南。

🔐 邊緣 AI 的隱私優勢與合規應用

隨著各國資料保護法規日益嚴格（例如歐盟 GDPR、台灣個資法），邊緣 AI「資料不離開裝置」的特性，正從技術優勢變成法規合規的必備能力。

醫療場景：病患資料零外洩

醫療院所處理的影像和病歷屬於最高敏感等級的個資。過去如果想用 AI 輔助判讀 X 光片，必須把影像上傳到雲端，光是資安審查就要跑好幾個月。現在用邊緣 AI，模型直接跑在院內的邊緣運算主機上，影像從頭到尾不離開醫院的內網。這不只是技術問題，更是讓 AI 醫療應用真正落地的關鍵突破。

零售場景：人流分析不存臉

門市想用 AI 分析來客人流動線，但如果攝影機畫面上傳到雲端，就涉及大量顧客的臉部影像。邊緣 AI 的做法是：在攝影機旁邊的小型運算設備上即時辨識人數和動線，只把「統計數字」（例如：今天下午三點到五點有 237 人經過 A 區）傳回後台，原始影像直接丟棄，從根本上避免隱私爭議。

個人裝置：你的資料你做主

Apple Intelligence 之所以強調「全部在裝置上處理」，背後的商業邏輯很清楚：當消費者越來越在意隱私，「你的照片、訊息、健康數據永遠不會離開你的 iPhone」就成了最強的賣點。這個趨勢會持續推動更多 AI 功能從雲端遷移到本地。

❓ FAQ

邊緣 AI 能達到 ChatGPT 的水準嗎？

目前不能。手機能跑的模型約 1-3B 參數，GPT-5.4 有數兆參數。但對日常任務（翻譯、摘要、簡單問答），邊緣 AI 已經「夠好」了。最佳策略是日常用邊緣 AI，複雜任務用雲端 AI。

Apple Intelligence 和 Gemini Nano 哪個好？

Apple Intelligence 在隱私保護和系統整合方面更強（資料完全不離開裝置）。Gemini Nano 在 AI 能力上更靈活。選你的手機平台就對了——iPhone 用 Apple Intelligence，Android 用 Gemini Nano。

邊緣 AI 對企業有什麼實際用途？

最成熟的應用是工廠的視覺檢測——AI 模型直接在產線旁的邊緣運算主機上跑，毫秒級即時判斷產品瑕疵，不需要等雲端回覆。醫療、零售（人流偵測）、工地安全監控也都是邊緣 AI 的熱門場景。

Q4 量化會讓模型變笨嗎？

實測上，Q4_K_M 量化對大多數日常任務（對話、摘要、翻譯、簡單程式碼）幾乎感覺不到差異，基準測試（如 MMLU）的分數下降通常在 2-5% 以內。但在需要精密數學推理或長鏈式思考的任務上，量化後的模型會明顯退步。實務建議：日常用 Q4，需要高準確度的場景用 Q8 或 FP16。

iPhone 跑本地 LLM 會不會很耗電？

會耗電，但沒想像中嚴重。Apple Neural Engine 是專為低功耗設計的 NPU，跑 3B 模型的耗電約 2-4W，生成 500 tokens 大約消耗 1% 電量。真正吃電的是「連續影像分析」這種持續性任務，而不是一次性的文字生成。

想在電腦本地跑 AI，Mac 還是 Windows + NVIDIA 比較好？

如果預算有限且主要跑 LLM，Mac（M4 Pro 以上，24GB 統一記憶體起跳） 性價比最高，因為統一記憶體架構讓大模型可以直接用到全部 RAM。如果要做 AI 繪圖、影片生成、模型訓練，則 Windows + RTX 4090 生態系更完整。詳細工具比較可以參考 Ollama 本地部署教學。

邊緣 AI 會取代雲端 AI 嗎？

不會，兩者是互補關係。邊緣 AI 處理高頻、即時、隱私敏感的任務；雲端 AI 處理複雜、大規模、需要最強模型的任務。2026 年的產業共識是「AI 將無所不在」——既在你的手機裡，也在資料中心的大型叢集中，根據任務特性自動路由。延伸閱讀：AI 手機革命。

№ · further reading