llms.txt 可以先想成「給 AI 工具看的網站導覽」。它放在網站根目錄,通常用純文字格式(Markdown)列出網站主題、重要頁面與可讀版本,讓大型語言模型(LLM)在回答使用者時比較容易找到你希望被引用的內容。
如果你負責內容網站、產品文件或公開知識庫,先不要把它當成新的搜尋排名捷徑。Google 搜尋官方文件已明確說,Google 搜尋與 AI 摘要(AI Overview)不需要 llms.txt;它更適合用來整理 AI 可讀入口、降低抓錯版本的機率,並搭配爬蟲規則檔(robots.txt)、網站地圖(sitemap)與清楚的文章結構一起使用。
這篇會幫你做三個決策:你的網站是否值得建立 /llms.txt、第一版要放哪些內容、哪些內容應該排除或改由 robots.txt / 權限控管處理。
先判斷:你的網站需要 llms.txt 嗎?
可以先用網站類型判斷投入程度,不必一開始就做完整自動化。
| 網站狀態 | 建議做法 | 為什麼 |
|---|---|---|
| 個人部落格、文章數很少 | 先不急,整理首頁、分類頁、sitemap 與內鏈 | AI 工具能讀的高價值內容有限,維護成本可能高於效益 |
| 內容網站、教學站、媒體站 | 做一份精簡 /llms.txt,列出主題集、代表文章與更新節奏 | 幫 AI 工具理解哪些頁面最能代表你的專業,而非抓到舊文或邊角頁 |
| 產品文件、API 文件、開發者文件 | 優先做,並提供 Markdown 版本或文件分區入口 | 開發者常把文件交給 Claude、ChatGPT、Cursor、Copilot 類工具讀,清楚入口能減少錯誤引用 |
| SaaS 公開知識庫、客服中心 | 可做,但要先清掉過期政策與重複頁 | AI 讀到舊退款規則或舊價格,比沒有 llms.txt 更麻煩 |
| 付費內容、會員資料、內部文件 | 不要放進公開 llms.txt;用登入、noindex、robots.txt、WAF 或權限系統處理 | llms.txt 是公開索引,不能當成存取控制工具 |
如果只能做一件事,先列出「最希望 AI 正確引用的 10 到 30 個頁面」。列不出來,代表第一步應該回到內容治理,暫時不必新增檔案。
llms.txt 是什麼?白話比喻
你可以把 /llms.txt 想成一張給 AI 的導覽卡:
- 這個網站在講什麼。
- 哪些頁面最權威、最值得先讀。
- 哪些頁面有 Markdown 版本或更乾淨的內容格式。
- 哪些內容只是補充,可以在上下文有限時略過。
- 讀者或 AI 工具應該怎麼理解網站分區。
官方提案來自 Jeremy Howard / Answer.AI 的 llms.txt 提案。提案建議網站在根目錄放一個 Markdown 檔,檔案通常包含網站名稱、簡短摘要、補充說明,以及用二級標題(H2)分組的連結清單。它的定位是「讓 LLM 在推論時更容易使用網站資訊」,不能當成新的搜尋排名標籤。
一個最小版本可以長這樣:
# Example Site
> 這個網站提供 AI SEO、內容策略與工具選型指南。
## 主要指南
- [AI SEO 入門](https://example.com/ai-seo.md): 解釋 Google SEO、AI Overview、AEO 與 AI 引用的差異。
- [AI 爬蟲治理](https://example.com/ai-crawlers.md): 判斷 ClaudeBot、GPTBot、Google-Extended 是否要放行、限速或封鎖。
## 產品文件
- [API 快速開始](https://example.com/api-quickstart.md): 認證、請求格式、錯誤碼與範例。
## Optional
- [活動公告](https://example.com/news.md): 時效性較高,引用前要確認日期。
## Optional 在提案中有特別意義:這一區比較像次要資料。當 AI 工具的上下文有限,可以先略過這些連結。
跟 robots.txt、sitemap 差在哪?
這三個檔案常被混在一起,但任務不同。
| 檔案 | 主要用途 | 適合放什麼 | 不適合拿來做什麼 |
|---|---|---|---|
robots.txt | 告訴爬蟲哪些 URL 可以或不該抓 | 爬取規則、User-Agent、Sitemap 位置 | 保密或阻止頁面被索引;Google 官方也提醒它不能讓頁面退出 Google 索引 |
sitemap.xml | 幫搜尋引擎有效發現 URL | 重要頁面、更新時間、多語版本、圖片或影片資料 | 解釋網站脈絡;它通常是 URL 清單,不會告訴 AI 哪些頁面最適合引用 |
llms.txt | 給 AI 工具看的精簡導覽 | 網站摘要、主題分區、權威頁面、Markdown 版本、可略過內容 | 存取控制、排名保證、替代內容品質或結構化資料 |
做內容網站時,可以這樣分工:
robots.txt:處理爬取邊界,例如後台、搜尋結果頁、重複參數頁。sitemap.xml:讓搜尋引擎知道哪些頁面存在、何時更新。/llms.txt:告訴 AI 工具哪些頁面最能代表網站知識,並提供乾淨版本。- 正文與內鏈:讓人類讀者真的能完成任務,這仍然是最重要的基礎。
Google 搜尋需要 llms.txt 嗎?先看官方說法
Google 搜尋官方的生成式 AI 指南已明確寫到:網站不需要建立新的機器可讀檔案、AI 文字檔、標記或 Markdown,才有機會出現在 Google 搜尋與其生成式 AI 功能中;Google 搜尋本身不使用 llms.txt 作為特殊訊號。
這代表兩件事:
- 不要把 llms.txt 寫成「保證進 AI Overview」或「提高 Google 排名」的捷徑。
- 如果你的主要目標是 Google 搜尋,仍要優先做好可爬取、可索引、有幫助內容、清楚標題、內鏈、結構化資料與頁面體驗。
但這不代表 llms.txt 沒有價值。Cloudflare 與 Anthropic 的開發者文件都已公開類似入口,方便 AI 工具或人類快速理解文件結構。比較穩健的期待是:它能改善「AI 或使用者拿到網站脈絡」的品質;引用、排名與流量仍取決於各平台是否使用、怎麼使用,以及你的內容是否真的值得引用。
最小可行版本要放哪些內容?
第一版不要追求完整。先把 AI 最容易抓錯、也最值得引用的內容整理出來。
| 區塊 | 建議內容 | 審稿重點 |
|---|---|---|
| 網站摘要 | 用一兩句說明網站主題、服務對象、內容範圍 | 不要塞品牌口號;要能幫 AI 判斷網站專長 |
| 核心主題 | 依讀者任務分組,例如「AI SEO」「AI 工具選型」「本機 LLM」 | 分組名稱用人看得懂的中文,不要只貼內部分類代碼 |
| 權威頁面 | 每組 3 到 10 個代表頁,優先放 canonical 與最新指南 | 刪掉過期、重複、薄內容與活動頁 |
| 可讀版本 | 若有 .md、乾淨列印版或 API reference,放在原文旁邊 | 確認內容與公開頁一致,避免 Markdown 版本落後 |
| 更新提示 | 標明高風險內容的檢查週期,例如價格、法律、API 限制 | 不要讓 AI 引用舊價格、舊政策或停用功能 |
| 可略過內容 | 用 Optional 放新聞彙整、延伸閱讀或低優先資料 | 避免把上下文塞滿,讓主要指南更難被讀到 |
若網站有中文與英文版本,建議分清語言入口。不要把不同語言頁面混在同一區卻沒有標示,否則 AI 工具可能把英文產品限制套到繁中讀者身上。
三種常見情境怎麼做
內容網站:先放「讀者最常需要的決策頁」
內容網站最怕把 llms.txt 做成全站清單。全站清單已經有 sitemap,llms.txt 要處理的是取捨。
比較好的第一版可以包含:
- 站點主題與更新頻率。
- 3 到 6 個主題集。
- 每個主題集的 canonical 指南。
- 最近仍有效的比較文、教學文、風險說明。
- 明確排除過期新聞、活動頁與重複頁。
例如 Mason AI Lab 這類內容站,/llms.txt 更適合列出 AI SEO 入門、AI 爬蟲治理、OKF 知識包 這種可長期引用的頁面;短新聞可以放在次要區,或交給 sitemap 與分類頁處理。
產品文件:讓 AI 先讀對版本與限制
產品文件的價值在於「答對」。如果 AI 工具讀到舊 API、舊錯誤碼或舊價格,使用者會直接做錯事。
建議優先列:
- 快速開始。
- 認證與權限。
- 版本差異。
- API reference。
- 錯誤碼。
- 費用、速率限制與資料保留政策。
- 變更紀錄與停用功能。
如果文件工具支援 Markdown 輸出、MCP 或 AI Assistant,也可以把 llms.txt 當成入口之一。像 GitBook AI 文件指南 這類工具選型,重點就在於文件同時服務人類讀者、搜尋引擎與 AI 工具。
公開知識庫:先處理責任與更新日期
客服中心、政策頁、法規解釋、內部方法公開版,都需要更嚴格的維護。
放進 llms.txt 前,先確認每個頁面都有:
- 最新確認日期。
- 負責團隊或權威來源。
- 適用範圍。
- 不適用情境。
- 下一步或人工處理方式。
如果這些資訊不存在,AI 工具讀到的只是「看起來像答案的舊內容」。那時候應該先修正文,再評估是否需要索引。
哪些內容不要放進 llms.txt?
公開 llms.txt 很容易被任何人讀到,所以要把邊界想清楚。
不要放:
- 需要登入的會員內容、內部文件、客戶資料或合約細節。
- 已過期但尚未下架的價格、方案、活動頁。
- 站內搜尋結果、標籤頁、參數頁、薄內容頁。
- 只是為了塞關鍵字而建立的頁面。
- API key、內部端點、非公開測試環境、後台路徑。
- 會讓 AI 把法律、醫療、投資建議誤認為正式指示的內容。
如果你想限制 AI 爬蟲,應該回到 AI 爬蟲治理:用 robots.txt、User-Agent 分流、伺服器日誌、CDN 規則、登入牆、noindex 或付費存取策略處理。llms.txt 只負責導覽,不能替你保護內容。
半天內完成的實作清單
小型內容站可以用這個順序做第一版:
- 從 sitemap 或內容索引挑出 10 到 30 個最值得 AI 引用的頁面。
- 刪掉過期頁、重複頁、低價值頁與不希望公開導向的頁面。
- 用 3 到 6 個讀者任務分組,不要照內部部門分組。
- 為每個連結補一句用途:這頁解決什麼問題、適合誰讀。
- 若有 Markdown 版本,確認內容與公開頁同步。
- 把高風險頁標出更新日期與檢查週期。
- 部署到
https://example.com/llms.txt。 - 每次更新 canonical 文章、產品方案或文件版本時,把 llms.txt 納入檢查。
完成後,可以手動檢查三件事:
- 用瀏覽器開
/llms.txt,確認回傳純文字而非 404、登入頁或壞掉的 HTML。 - 把檔案貼給 AI 工具,請它說明網站主題與重要頁面;如果回答偏掉,代表摘要或分組還不清楚。
- 用一篇最新 canonical 頁測試:公開頁、Markdown 版本、llms.txt 連結是否指向同一個主題與日期。
什麼時候需要 llms-full.txt 或自動產生?
有些網站會另外提供完整索引或整站 Markdown,例如 /llms-full.txt,讓 AI 工具一次讀到更多內容。這適合內容量大、文件穩定、且有自動驗證流程的網站。
但完整檔也有風險:
- 檔案太大,AI 工具不一定願意完整讀完。
- 舊內容會被放大,錯誤引用更容易發生。
- 價格、法律、API 限制若沒有更新日期,會看起來比實際更可靠。
- 生成流程若沒有驗證,可能把草稿、測試頁或不該公開的內容放進去。
比較安全的做法是先維護精簡 /llms.txt,等內容索引、更新日期、內鏈與驗證流程穩定後,再考慮完整檔。對靜態網站來說,最好讓 llms.txt 由同一份內容來源自動產生,並在部署前檢查連結、標題、日期與排除規則。
FAQ
llms.txt 會讓網站出現在 AI Overview 嗎?
不能這樣保證。Google 搜尋官方文件已說明,Google 搜尋與其生成式 AI 功能不需要 llms.txt,也不把它當成特殊檔案處理。llms.txt 的合理期待是改善 AI 可讀入口與內容脈絡,不能保證排名或引用。
有 sitemap 還需要 llms.txt 嗎?
看網站任務。sitemap 幫搜尋引擎發現 URL;llms.txt 用更短的文字告訴 AI 工具哪些頁面最重要、每頁用途是什麼。內容少的小站可以先只做好 sitemap;產品文件、API 文件與大型內容站較有理由加一份精簡 llms.txt。
llms.txt 可以阻止 AI 爬蟲嗎?
不適合。阻止或限制爬蟲要用 robots.txt、伺服器規則、CDN / WAF、登入牆、noindex 或授權機制。llms.txt 是導覽檔,公開列出你希望被讀的入口;不要把敏感內容放進去。
llms.txt 要多久更新一次?
跟內容風險一致。一般 evergreen 文章可以每月或每季檢查;價格、API、法律、醫療、資安與產品限制頁,最好在每次更新正文時同步檢查 llms.txt。若無法維護,就先保持精簡。
非工程團隊可以自己做 llms.txt 嗎?
可以先做內容盤點與分組,再請工程或網站管理者部署。非工程團隊最重要的工作是決定哪些頁面值得代表網站、哪些頁面已過期、哪些內容需要更新日期與責任人。部署只是最後一步。
參考來源
- llms.txt proposal:The /llms.txt file
- AnswerDotAI / llms-txt GitHub repository
- Google Search Central:Optimizing your website for generative AI features on Google Search
- Google Search Central:Introduction to robots.txt
- Google Search Central:Learn about sitemaps
- Cloudflare Developer Documentation:/llms.txt
- Anthropic Developer Documentation:/llms.txt
- Search Engine Land:Meet llms.txt, a proposed standard for AI website content crawling
- Ahrefs:What Is llms.txt, and Should You Care About It?