什么是 Robots.txt？企业指南

您已经创建了网站地图，并提交给了谷歌，您的网站也开始被收录。但有一天，您发现网站的后台管理页面、内部支付页面或测试页面也出现在了谷歌搜索结果中。客户输入您的公司名称后，看到的却是未完成的测试页面。

或者反过来：你发布了一篇新的博客文章，等了两周，它仍然没有出现在谷歌搜索结果中。你询问技术团队，他们说：“robots.txt 文件阻止了谷歌抓取整个网站。”

这两种情况都涉及一个很少有网站管理员会关注的小文件： robots.txt 。

本文将用简单的语言和实际示例解释 robots.txt 是什么、它是如何工作的、何时需要编辑它以及企业应该避免的常见错误。

什么是 Robots.txt？面向网站管理员的解释。

如果站点地图就像建筑结构图——向 Google 展示有哪些房间——那么robots.txt 就像“禁区”标志——告诉 Google 哪些房间禁止访问。

从技术角度来说：robots.txt 是一个位于网站根目录下的小型文本文件（例如： https://example.com/robots.txt ://example.com/robots.txt）。该文件包含一些规则，用于告诉搜索引擎机器人（例如 Googlebot）应该做什么。

允许抓取哪些页面？
哪些页面不允许被抓取？
网站地图在哪里？

您可以通过在浏览器中输入以下网址来查看任何网站的 robots.txt 文件： ten-mien.com/robots.txt 。

💡 重要提示：robots.txt 只是一个礼貌性的请求，并非绝对禁止。信誉良好的机器人（例如 Googlebot）会遵守，但恶意机器人（例如垃圾邮件机器人、爬虫机器人）可能会无视它。如果您需要真正的安全保障，请使用密码或防火墙——不要依赖 robots.txt。

robots.txt 文件是什么样的？

您无需从头开始编写此文件。但为了便于理解，以下是一个简单的 robots.txt 文件示例：

 User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xml

每行文字的解释：

当前的	意义
`User-agent: *`	适用于所有机器人（谷歌、必应等）
`Disallow: /admin/`	阻止机器人访问`/admin/`目录。
`Disallow: /thanh-toan/`	阻止机器人访问结账页面。
`Disallow: /staging/`	禁止机器人进入测试环境。
`Allow: /`	允许机器人爬取剩余部分。
`Sitemap: https://...`	向机器人显示网站地图的位置。

以下是一个更复杂的例子——适用于包含博客、服务页面和管理后台的商业网站：

 # Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml

📝开发者须知：路径中的 ` ` 字符是通配符——`/ ?utm_` 表示屏蔽所有包含 `?utm_` 参数的 URL。路径末尾的 `$` 字符用于精确匹配 URL。例如：`Disallow: /*.pdf$` 将屏蔽所有 PDF 文件。

robots.txt 在 SEO 过程中是如何发挥作用的？

为了理解 robots.txt 的作用，让我们回顾一下谷歌用于对网站进行搜索结果排名的过程：

 Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng)

Robots.txt 执行第一步——爬取。

在 Googlebot 开始抓取您网站上的任何页面之前，它会先检查您的 robots.txt 文件。如果某个 URL 被列为Disallow ，Googlebot 将跳过该页面——不会抓取，也不会读取其内容。

 Googlebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếm

robots.txt 和 sitemap：一对互补的组合。

文件	角色
网站地图	“这是我希望谷歌知道的网页列表。”
Robots.txt	“这些页面我不希望谷歌抓取。”

这两个文件并不冲突，它们协同工作。站点地图提供导航，而 robots.txt 设置规则。正确结合使用，即可控制 Google 在您的网站上看到和忽略的内容。

robots.txt 的用途是什么？以下列举 4 个常见场景。

1. 对 Google 隐藏管理员页面和内部页面。

管理页面、CMS后台页面、测试页面、测试页面——这些都不应该出现在谷歌搜索结果中。robots.txt文件告诉谷歌：“请勿进入此处。”

 Disallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/

2. 避免浪费你的“爬虫预算”。

谷歌的抓取并非无限期。每个网站都有一个“抓取预算”，即谷歌机器人每次访问网站时会抓取的页面数量。如果一个网站有很多不重要的页面（例如内部搜索页面、筛选页面、分页页面），谷歌机器人可能会忙于抓取这些页面，而忽略了重要的服务页面或博客文章。

 Disallow: /search? Disallow: /tag/ Disallow: /page/

💡 抓取预算对于大型网站（数千页）尤为重要。小型企业网站通常无需过于担心，但保持 robots.txt 文件的整洁仍然是一个好习惯。

3. 屏蔽重复内容

如果一个网站有多个指向相同内容的 URL（例如，带有跟踪参数?utm_source=facebook URL，或带有?print=true打印版本），您可以屏蔽这些重复的 URL：

 Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print=

4. 网站地图导航

robots.txt 是 Googlebot 抓取网站时首先检查的文件。将您的网站地图放在这里有助于 Google 更快地找到它——即使您尚未将其提交到 Search Console。

 Sitemap: https://example.com/sitemap.xml

企业何时应该关注 robots.txt 文件？

你并非总是需要编辑 robots.txt 文件。但有些时候，检查这个文件是必须的：

新网站上线时

这是最关键的时刻。许多网站完全无法被抓取，因为开发团队忘记删除Disallow: / ”这行代码——这行代码是他们在测试阶段添加的，目的是为了阻止谷歌索引未完成的版本。

上线测试：

类别	如何检查
robots.txt 文件存在。	在浏览器中打开`https://ten-mien.com/robots.txt` 。
不要屏蔽整个网站。	请确保没有`Disallow: /`
网站地图已设置。	请确保存在以下行`Sitemap: https://ten-mien.com/sitemap.xml`
重要页面不会被屏蔽。	检查服务页面、博客或联系信息是否未包含在`Disallow`

✅ 当一个网站在几周后仍未被 Google 收录时

如果您已经创建了站点地图，并将其提交到 Search Console，但 Google 仍然没有对其进行索引，那么 robots.txt 文件是首先需要检查的对象。

添加要隐藏的区域（会员页面、内部页面）时

如果您的网站包含账户管理页面、会员区或内部页面，请更新您的 robots.txt 文件以屏蔽这些区域。

当更换网站平台或重新设计时

每个平台（WordPress、Webflow、自定义代码）都会生成不同的 URL 结构。迁移时，旧的 robots.txt 文件可能会错误地屏蔽新页面，或者遗漏需要屏蔽的页面。

当 Search Console 报告错误“被 robots.txt 阻止”时

Google Search Console 提供一份索引报告，其中会显示哪些页面被 robots.txt 文件屏蔽。如果您发现某个重要页面被屏蔽，则需要立即修复该文件。

5 个常见的 robots.txt 错误及解决方法。

错误 1：阻止整个网站访问 - 最严重的错误。

症状： Google 未索引任何页面。Search Console 报告大量页面“已被 robots.txt 阻止”。

原因： robots.txt 文件包含：

 User-agent: Disallow: /

这两行代码的意思是：“阻止所有机器人访问任何页面。”这种情况通常发生在开发者在测试阶段设置了这条规则，但忘记在正式上线前将其移除时。

解决方案：改为：

 User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xml

Disallow:冒号后为空）= 允许所有爬虫。

⚠️这是我们在新企业网站上看到的排名第一的错误。修复后，Google 可能需要几天到几周的时间才能再次抓取您的网站地图。请通过 Google Search Console 重新提交您的网站地图，以加快处理速度。

错误 2：阻止 CSS 和 JavaScript

症状：网站在浏览器中显示正常，但使用 Search Console 中的“网址检查”工具时，Google 检测到页面布局损坏或页面空白。

原因： robots.txt 文件阻止了包含 CSS 和 JS 的文件夹：

 Disallow: /wp-content/ Disallow: /wp-includes/

谷歌需要读取 CSS 和 JS 代码来了解页面的外观（称为“渲染”）。如果渲染过程被阻止，谷歌就无法渲染页面 → 也就无法理解页面内容 → 从而影响排名。

如何解决：

 User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/

📝开发者须知：自 2014 年起，Google 已明确建议不要在 robots.txt 文件中屏蔽 CSS、JS 和图片。Googlebot 需要这些资源才能正确渲染页面。请使用 Search Console 中的网址检查工具来查看 Google 如何渲染您的页面。

错误 3：误屏蔽了重要页面。

症状：服务页面、产品页面或博客文章未出现在 Google 搜索结果中 - 即使它们已列入站点地图。

原因： robots.txt 中的规则过于宽泛。例如：

 Disallow: /dich-vu

这一行不仅阻止了/dich-vu/ ，还阻止了/dich-vu-thiet-ke-web/ 、 /dich-vu-seo/以及任何以/dich-vu开头的 URL。

解决方法：在路径末尾添加正斜杠/以指定具体目录：

禁止：/dich-vu-noi-bo/

或者使用Allow来保护必要的页面：

 Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/

📝开发者须知： `Allow` 和 `Disallow` 的顺序会产生影响。Googlebot 会使用最具体的规则（最具体的路径）。如果规则长度相同，`Allow` 的优先级高于 `Disallow`。部署前，请务必使用 Search Console 中的 [Robots 测试工具](https://support.google.com/webmasters/answer/6062598) 进行测试。

错误 4：缺少 robots.txt 文件

症状：输入ten-mien.com/robots.txt → 返回 404 错误。

原因：该网站是手动构建的，开发人员并未创建此文件。或者该文件在部署过程中被意外删除。

影响：不如错误 1 那么严重——如果没有 robots.txt 文件，Google 默认会抓取所有内容。但这同时也意味着：

Google 将抓取管理员页面、测试页面和内部页面。
您无法通过 robots.txt 将用户引导至网站地图。
缺乏基本控制

解决方案：在根目录下创建robots.txt文件。最小内容：

 User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml

错误 5：使用 robots.txt 文件隐藏页面以使其不被 Google 抓取（用途被误解）

症状：您使用Disallow屏蔽了某个页面，但该页面仍然出现在 Google 上——即使没有任何内容摘要。

原因： robots.txt 文件阻止了搜索引擎抓取网页，但并未阻止索引。如果该页面已被索引，或者有其他网站指向该页面的反向链接，Google 可能会将该 URL 保留在搜索结果中，但不会显示其内容。

正确的解决方法：

目标	用什么
我不想让谷歌抓取我的网站。	在 robots.txt 文件中`Disallow`
不希望 Google 收录（显示）您的内容。	卡片在 HTML 中
我两个都不想要。	在 HTML 中使用`noindex` （并且不要在 robots.txt 中阻止）。

⚠️ 这是最常见的误解：如果您同时在 robots.txt 文件中阻止抓取，并在 HTML 中使用 `noindex` 标签，Google 将看不到`noindex` 标签，因为它不会抓取该页面——而该页面可能仍然已被索引。解决方法：在 HTML 中使用 `noindex` 标签，并移除robots.txt 文件中针对该页面的 `Disallow` 规则。

企业网站的 robots.txt 模板

以下是一个适用于大多数中小企业网站的 robots.txt 文件示例：

 # ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml

📝开发者须知： robots.txt 文件必须位于根域名下，即 `https://example.com/robots.txt`，而不是 `/blog/robots.txt` 或任何其他子目录。每个子域名都需要自己的 robots.txt 文件（例如，`blog.example.com/robots.txt` 与 `example.com/robots.txt` 是分开的）。

如何检查网站的 robots.txt 文件

方法一：直接在浏览器中查看。

在地址栏中输入https://ten-mien-cua-ban.com/robots.txt 。您将看到该文件的文本内容。如果看到 404 错误，则表示该网站没有 robots.txt 文件。

方法二：使用 Google Search Console

登录Google Search Console
前往“设置” → “爬虫” → “robots.txt”
检查谷歌正在读取的 robots.txt 文件。
检查该网址是否被屏蔽。

方法三：查看索引报告

在 Search Console →页面（或索引）→ 中找到“被 robots.txt 阻止”条目。如果此列表中包含重要页面，则需要立即编辑 robots.txt 文件。

💡 您应该至少每季度检查一次 robots.txt 文件，或者在您的网站发生重大变化时（添加页面、更改结构、迁移到不同的平台）进行检查。

摘要：Robots.txt 中应该屏蔽哪些内容，不应该屏蔽哪些内容？

✅ 你应该屏蔽它。	❌ 请勿屏蔽
管理员页面（ `/admin/` ， `/wp-admin/` ）	首页、服务页面、联系页面
暂存/测试页面	博客文章，文章
内部搜索页面（ `/search?` ）	CSS 和 JavaScript 文件
带有跟踪参数（ `?utm_` ，? `?fbclid=` ）的 URL	图片（谷歌图片也能带来流量）
购物车、结账、个人账户页面	网站地图
重复内容页面（筛选、排序、分页）	常见问题解答页面，案例研究