廷·丁
532 观看次数
目录
您已经创建了网站地图,并提交给了谷歌,您的网站也开始被收录。但有一天,您发现网站的后台管理页面、内部支付页面或测试页面也出现在了谷歌搜索结果中。客户输入您的公司名称后,看到的却是未完成的测试页面。
或者反过来:你发布了一篇新的博客文章,等了两周,它仍然没有出现在谷歌搜索结果中。你询问技术团队,他们说:“robots.txt 文件阻止了谷歌抓取整个网站。”
这两种情况都涉及一个很少有网站管理员会关注的小文件: robots.txt 。
本文将用简单的语言和实际示例解释 robots.txt 是什么、它是如何工作的、何时需要编辑它以及企业应该避免的常见错误。
如果站点地图就像建筑结构图——向 Google 展示有哪些房间——那么robots.txt 就像“禁区”标志——告诉 Google 哪些房间禁止访问。
从技术角度来说:robots.txt 是一个位于网站根目录下的小型文本文件(例如: https://example.com/robots.txt ://example.com/robots.txt)。该文件包含一些规则,用于告诉搜索引擎机器人(例如 Googlebot)应该做什么。
您可以通过在浏览器中输入以下网址来查看任何网站的 robots.txt 文件: ten-mien.com/robots.txt 。
💡 重要提示:robots.txt 只是一个礼貌性的请求,并非绝对禁止。信誉良好的机器人(例如 Googlebot)会遵守,但恶意机器人(例如垃圾邮件机器人、爬虫机器人)可能会无视它。如果您需要真正的安全保障,请使用密码或防火墙——不要依赖 robots.txt。
您无需从头开始编写此文件。但为了便于理解,以下是一个简单的 robots.txt 文件示例:
User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xml每行文字的解释:
| 当前的 | 意义 |
|---|---|
User-agent: * | 适用于所有机器人(谷歌、必应等) |
Disallow: /admin/ | 阻止机器人访问/admin/目录。 |
Disallow: /thanh-toan/ | 阻止机器人访问结账页面。 |
Disallow: /staging/ | 禁止机器人进入测试环境。 |
Allow: / | 允许机器人爬取剩余部分。 |
Sitemap: https://... | 向机器人显示网站地图的位置。 |
以下是一个更复杂的例子——适用于包含博客、服务页面和管理后台的商业网站:
# Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml📝开发者须知:路径中的 ` ` 字符是通配符——`/ ?utm_` 表示屏蔽所有包含 `?utm_` 参数的 URL。路径末尾的 `$` 字符用于精确匹配 URL。例如:`Disallow: /*.pdf$` 将屏蔽所有 PDF 文件。
为了理解 robots.txt 的作用,让我们回顾一下谷歌用于对网站进行搜索结果排名的过程:
Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng)Robots.txt 执行第一步——爬取。
在 Googlebot 开始抓取您网站上的任何页面之前,它会先检查您的 robots.txt 文件。如果某个 URL 被列为Disallow ,Googlebot 将跳过该页面——不会抓取,也不会读取其内容。
Googlebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếm| 文件 | 角色 |
|---|---|
| 网站地图 | “这是我希望谷歌知道的网页列表。” |
| Robots.txt | “这些页面我不希望谷歌抓取。” |
这两个文件并不冲突,它们协同工作。站点地图提供导航,而 robots.txt 设置规则。正确结合使用,即可控制 Google 在您的网站上看到和忽略的内容。
管理页面、CMS后台页面、测试页面、测试页面——这些都不应该出现在谷歌搜索结果中。robots.txt文件告诉谷歌:“请勿进入此处。”
Disallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/谷歌的抓取并非无限期。每个网站都有一个“抓取预算”,即谷歌机器人每次访问网站时会抓取的页面数量。如果一个网站有很多不重要的页面(例如内部搜索页面、筛选页面、分页页面),谷歌机器人可能会忙于抓取这些页面,而忽略了重要的服务页面或博客文章。
Disallow: /search? Disallow: /tag/ Disallow: /page/💡 抓取预算对于大型网站(数千页)尤为重要。小型企业网站通常无需过于担心,但保持 robots.txt 文件的整洁仍然是一个好习惯。
如果一个网站有多个指向相同内容的 URL(例如,带有跟踪参数?utm_source=facebook URL,或带有?print=true打印版本),您可以屏蔽这些重复的 URL:
Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print=robots.txt 是 Googlebot 抓取网站时首先检查的文件。将您的网站地图放在这里有助于 Google 更快地找到它——即使您尚未将其提交到 Search Console。
Sitemap: https://example.com/sitemap.xml你并非总是需要编辑 robots.txt 文件。但有些时候,检查这个文件是必须的:
这是最关键的时刻。许多网站完全无法被抓取,因为开发团队忘记删除Disallow: / ”这行代码——这行代码是他们在测试阶段添加的,目的是为了阻止谷歌索引未完成的版本。
上线测试:
| 类别 | 如何检查 |
|---|---|
| robots.txt 文件存在。 | 在浏览器中打开https://ten-mien.com/robots.txt 。 |
| 不要屏蔽整个网站。 | 请确保没有Disallow: / |
| 网站地图已设置。 | 请确保存在以下行Sitemap: https://ten-mien.com/sitemap.xml |
| 重要页面不会被屏蔽。 | 检查服务页面、博客或联系信息是否未包含在Disallow |
如果您已经创建了站点地图,并将其提交到 Search Console,但 Google 仍然没有对其进行索引,那么 robots.txt 文件是首先需要检查的对象。
如果您的网站包含账户管理页面、会员区或内部页面,请更新您的 robots.txt 文件以屏蔽这些区域。
每个平台(WordPress、Webflow、自定义代码)都会生成不同的 URL 结构。迁移时,旧的 robots.txt 文件可能会错误地屏蔽新页面,或者遗漏需要屏蔽的页面。
Google Search Console 提供一份索引报告,其中会显示哪些页面被 robots.txt 文件屏蔽。如果您发现某个重要页面被屏蔽,则需要立即修复该文件。
症状: Google 未索引任何页面。Search Console 报告大量页面“已被 robots.txt 阻止”。
原因: robots.txt 文件包含:
User-agent: Disallow: /这两行代码的意思是:“阻止所有机器人访问任何页面。”这种情况通常发生在开发者在测试阶段设置了这条规则,但忘记在正式上线前将其移除时。
解决方案:改为:
User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xml Disallow:冒号后为空)= 允许所有爬虫。
⚠️这是我们在新企业网站上看到的排名第一的错误。修复后,Google 可能需要几天到几周的时间才能再次抓取您的网站地图。请通过 Google Search Console 重新提交您的网站地图,以加快处理速度。
症状:网站在浏览器中显示正常,但使用 Search Console 中的“网址检查”工具时,Google 检测到页面布局损坏或页面空白。
原因: robots.txt 文件阻止了包含 CSS 和 JS 的文件夹:
Disallow: /wp-content/ Disallow: /wp-includes/谷歌需要读取 CSS 和 JS 代码来了解页面的外观(称为“渲染”)。如果渲染过程被阻止,谷歌就无法渲染页面 → 也就无法理解页面内容 → 从而影响排名。
如何解决:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/📝开发者须知:自 2014 年起,Google 已明确建议不要在 robots.txt 文件中屏蔽 CSS、JS 和图片。Googlebot 需要这些资源才能正确渲染页面。请使用 Search Console 中的网址检查工具来查看 Google 如何渲染您的页面。
症状:服务页面、产品页面或博客文章未出现在 Google 搜索结果中 - 即使它们已列入站点地图。
原因: robots.txt 中的规则过于宽泛。例如:
Disallow: /dich-vu这一行不仅阻止了/dich-vu/ ,还阻止了/dich-vu-thiet-ke-web/ 、 /dich-vu-seo/以及任何以/dich-vu开头的 URL。
解决方法:在路径末尾添加正斜杠/以指定具体目录:
禁止:/dich-vu-noi-bo/
或者使用Allow来保护必要的页面:
Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/📝开发者须知: `Allow` 和 `Disallow` 的顺序会产生影响。Googlebot 会使用最具体的规则(最具体的路径)。如果规则长度相同,`Allow` 的优先级高于 `Disallow`。部署前,请务必使用 Search Console 中的 [Robots 测试工具](https://support.google.com/webmasters/answer/6062598) 进行测试。
症状:输入ten-mien.com/robots.txt → 返回 404 错误。
原因:该网站是手动构建的,开发人员并未创建此文件。或者该文件在部署过程中被意外删除。
影响:不如错误 1 那么严重——如果没有 robots.txt 文件,Google 默认会抓取所有内容。但这同时也意味着:
解决方案:在根目录下创建robots.txt文件。 最小内容:
User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml症状:您使用Disallow屏蔽了某个页面,但该页面仍然出现在 Google 上——即使没有任何内容摘要。
原因: robots.txt 文件阻止了搜索引擎抓取网页,但并未阻止索引。如果该页面已被索引,或者有其他网站指向该页面的反向链接,Google 可能会将该 URL 保留在搜索结果中,但不会显示其内容。
正确的解决方法:
| 目标 | 用什么 |
|---|---|
| 我不想让谷歌抓取我的网站。 | 在 robots.txt 文件中Disallow |
| 不希望 Google 收录(显示)您的内容。 | 卡片在 HTML 中 |
| 我两个都不想要。 | 在 HTML 中使用noindex (并且不要在 robots.txt 中阻止)。 |
⚠️ 这是最常见的误解:如果您同时在 robots.txt 文件中阻止抓取,并在 HTML 中使用 `noindex` 标签,Google 将看不到`noindex` 标签,因为它不会抓取该页面——而该页面可能仍然已被索引。解决方法:在 HTML 中使用 `noindex` 标签,并移除robots.txt 文件中针对该页面的 `Disallow` 规则。
以下是一个适用于大多数中小企业网站的 robots.txt 文件示例:
# ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml📝开发者须知: robots.txt 文件必须位于根域名下,即 `https://example.com/robots.txt`,而不是 `/blog/robots.txt` 或任何其他子目录。每个子域名都需要自己的 robots.txt 文件(例如,`blog.example.com/robots.txt` 与 `example.com/robots.txt` 是分开的)。
在地址栏中输入https://ten-mien-cua-ban.com/robots.txt 。您将看到该文件的文本内容。如果看到 404 错误,则表示该网站没有 robots.txt 文件。
在 Search Console →页面(或索引)→ 中找到“被 robots.txt 阻止”条目。如果此列表中包含重要页面,则需要立即编辑 robots.txt 文件。
💡 您应该至少每季度检查一次 robots.txt 文件,或者在您的网站发生重大变化时(添加页面、更改结构、迁移到不同的平台)进行检查。
| ✅ 你应该屏蔽它。 | ❌ 请勿屏蔽 |
|---|---|
管理员页面( /admin/ , /wp-admin/ ) | 首页、服务页面、联系页面 |
| 暂存/测试页面 | 博客文章,文章 |
内部搜索页面( /search? ) | CSS 和 JavaScript 文件 |
带有跟踪参数( ?utm_ ,? ?fbclid= )的 URL | 图片(谷歌图片也能带来流量) |
| 购物车、结账、个人账户页面 | 网站地图 |
| 重复内容页面(筛选、排序、分页) | 常见问题解答页面,案例研究 |
Robots.txt 和网站地图有什么区别?
网站地图文件表示:“这是我希望谷歌知道的页面。” robots.txt 文件表示:“这是我不想让谷歌抓取的页面。” 这两个文件相辅相成——网站地图提供路径指引,robots.txt 设置权限限制。
如果没有 robots.txt 文件,谷歌还能抓取网站吗?
是的。如果没有 robots.txt 文件,Google 默认会抓取所有网页——包括你不想抓取的网页。所以你才需要这个文件。
我使用WordPress,robots.txt文件在哪里?
WordPress 会自动创建一个虚拟的 robots.txt 文件。如果您使用 Yoast 或 Rank Math 等 SEO 插件,则可以直接在插件内编辑 robots.txt 文件,而无需访问服务器。
robots.txt 文件会影响网站速度吗?
不,这个文件只有几KB大小,不会影响页面加载速度。
我已使用 robots.txt 文件屏蔽了该网站,为什么它仍然在谷歌上排名?
因为 robots.txt 文件只会阻止搜索引擎抓取,而不会阻止搜索引擎索引页面。如果您希望页面从 Google 完全消失,请使用 `<robots.txt>` 标签。在 HTML 中 - 并且不要在 robots.txt 中阻止该页面(以便 Google 可以读取 noindex 标签)。
修改 robots.txt 文件后,谷歌需要多久才能更新?
谷歌通常会在 24-48 小时内检查您的 robots.txt 文件。您可以前往 Search Console → 设置 → 抓取,请求谷歌更快地检查该文件。
robots.txt 是一个很小的文件——通常只有几行——但它直接影响 Google 是否能找到你的网站。
需要记住的事项:
robots.txt 只是影响 SEO 的众多技术因素之一。如果您想知道“我的网站设置是否正确?”,答案就在于您使用的平台。
GTG CRM 帮助您创建具有标准 robots.txt 文件、自动站点地图和符合 Google 要求的技术结构的网站——您无需担心编辑每个文件或每行代码。











