Back

llms.txt:AI 读取网站内容的新方式

llms.txt:AI 读取网站内容的新方式

像 ChatGPT 和 Claude 这样的大型语言模型(LLMs)在爬取网站时面临一个根本性问题:它们的上下文窗口太小,无法处理整个网站,而且将充满导航、广告和 JavaScript 的复杂 HTML 页面转换为 AI 友好的文本既困难又不精确。llms.txt AI 爬虫标准提供了一个解决方案——一个简单的文本文件,告诉 AI 系统您网站上哪些内容最重要。

核心要点

  • llms.txt 是一个提议的标准,通过结构化的 Markdown 文件帮助 AI 系统理解和优先处理网站内容
  • 类似于 robots.txt 和 sitemap.xml,但专门设计用于引导 AI 爬虫找到您最有价值的内容
  • 目前已被约 950 个域名采用,包括主要的科技公司,但尚未有 AI 提供商正式支持
  • 实施工作量极小,随着 AI 爬虫技术的发展,可能带来未来收益

什么是 llms.txt?

llms.txt 文件是一个提议的标准,旨在帮助 AI 系统更有效地理解和使用网站内容。类似于 robots.txt 指导搜索引擎爬虫,sitemap.xml 列出可用 URL,llms.txt 为 AI 提供了一个经过策划的、结构化的最重要内容地图。

该文件位于您的根域名下(https://yourdomain.com/llms.txt),采用 Markdown 格式,为 AI 爬虫提供了一条通往高价值内容的清晰路径,避免了导航元素、广告或 JavaScript 渲染组件等经常让自动化系统困惑的噪音。

llms.txt 解决的问题

现代网站为 AI 爬虫带来两个主要挑战:

  1. 技术复杂性:大多数 AI 爬虫只能读取基本 HTML,无法获取由 JavaScript 加载的内容
  2. 信息过载:没有指导的情况下,AI 系统会浪费计算资源处理无关页面,如过时的博客文章或管理部分

llms.txt AI 爬虫标准通过提供清洁、结构化的格式来解决这两个问题,帮助 AI 系统快速识别和处理您最有价值的内容。

llms.txt 与 robots.txt 和 sitemap.xml 的区别

虽然这些文件看起来相似,但各自服务于不同的目的:

robots.txt:看门人

  • 目的:告诉爬虫哪里不能去
  • 格式:带有 User-agent 和 Disallow 指令的简单文本
  • 示例Disallow: /admin/

sitemap.xml:导航器

  • 目的:列出所有可供索引的 URL
  • 格式:带有 URL 条目和元数据的 XML
  • 示例<url><loc>https://example.com/page</loc></url>

llms.txt:AI 指南

  • 目的:向 AI 展示哪些内容重要以及内容如何结构化
  • 格式:带有语义组织的 Markdown
  • 重点:为 AI 理解提供内容含义和层次结构

文件结构和实施

llms.txt 文件使用标准 Markdown 格式。以下是一个简洁的示例:

# Company Name
> Brief description of what your company does

## Products
- [Product API](https://example.com/api): RESTful API documentation
- [SDK Guide](https://example.com/sdk): JavaScript SDK implementation

## Documentation
- [Getting Started](https://example.com/docs/start): Quick setup guide
- [Authentication](https://example.com/docs/auth): OAuth 2.0 flow

## Resources
- [Changelog](https://example.com/changelog): Latest updates
- [Status](https://example.com/status): Service availability

可选的 llms-full.txt

对于内容丰富的网站,您可以创建一个额外的 llms-full.txt 文件,包含更详细的信息。主要的 llms.txt 文件作为简洁概览,而 llms-full.txt 提供广泛的文档、代码示例和更深入的技术细节。

当前采用情况和实际案例

几家以开发者为重点的公司已经实施了 llms.txt AI 爬虫标准

根据最新数据,大约有 950 个域名发布了 llms.txt 文件——虽然数量不多但在增长,其中包括许多有影响力的科技公司。

优势和局限性

潜在优势

  • 改善 AI 理解:清洁、结构化的内容帮助 AI 更好地理解您的网站
  • 计算效率:减少 AI 处理您内容所需的资源
  • 内容控制:您决定 AI 系统应该优先处理什么
  • 未来定位:早期采用可能在标准发展时提供优势

当前局限性

最大的局限性?尚未有主要 AI 提供商正式支持 llms.txt。OpenAI、Google 和 Anthropic 都没有确认他们的爬虫使用这些文件。正如 Google 的 John Mueller 所指出的:“据我所知,没有 AI 服务表示他们在使用 llms.txt。”

这使得 llms.txt 目前主要是推测性的——尽管 Anthropic 发布自己的 llms.txt 文件表明他们至少在考虑这个标准。

何时尝试 llms.txt

尽管存在当前局限性,如果您符合以下情况,实施 llms.txt 可能是有意义的:

  • 运营一个以开发者为重点、有大量文档的网站
  • 希望尝试新兴的 Web 标准
  • 拥有已经组织良好的结构化内容
  • 相信为潜在的未来 AI 爬虫采用做好定位

实施成本很小——它只是托管在您服务器上的一个 Markdown 文件。除了创建它所花费的时间外,没有任何缺点。

快速实施步骤

  1. 创建一个名为 llms.txt 的新文件
  2. 使用 Markdown 标题和列表结构化您的内容
  3. 上传到您的根目录
  4. 可选择创建 llms-full.txt 用于全面文档
  5. 随着内容变化保持两个文件的更新

结论

llms.txt AI 爬虫标准代表了解决 AI Web 爬虫实际问题的有趣尝试。虽然主要 AI 提供商尚未正式采用,但最小的实施工作量和潜在的未来收益使其值得技术网站考虑。随着 AI 继续重塑人们查找和消费信息的方式,像 llms.txt 这样的标准可能成为在 AI 生成的响应中保持可见性的必要条件。

常见问题

目前,没有证据表明任何主要 AI 提供商使用 llms.txt 文件。实施目前纯粹是推测性的。

如果您实施了,每当添加重要新内容或重构现有页面时都应该更新。像对待网站地图一样对待它。

可以,尽管目前的采用主要偏向开发者文档网站。任何有结构化内容的网站都可能受益。

结构化数据帮助搜索引擎理解内容上下文,而 llms.txt 专门针对 AI 语言模型,提供策划的高价值内容路径。

这是基于您内容策略的独立决定。llms.txt 文件旨在引导 AI 爬虫,而不是像 robots.txt 那样控制访问。

Listen to your bugs 🧘, with OpenReplay

See how users use your app and resolve issues fast.
Loved by thousands of developers