Thinh Dinh
532 vistas
Tabla de Contenidos
Tienes un mapa del sitio, lo has enviado a Google y tu sitio web está empezando a indexarse. Pero un día, descubres que la página de administración, la página de pago interna o la página de prueba también aparecen en Google. Los clientes escriben el nombre de tu empresa y ven la página de prueba sin terminar.
O, por el contrario: publicas una nueva entrada en tu blog, esperas dos semanas y sigue sin aparecer en Google. Consultas con el equipo técnico y te dicen: "El archivo robots.txt está impidiendo que Google rastree todo el sitio web".
Ambas situaciones implican un pequeño archivo al que pocos administradores web prestan atención: robots.txt .
Este artículo explicará qué es robots.txt, cómo funciona, cuándo es necesario editarlo y los errores comunes que las empresas deben evitar; todo ello en un lenguaje sencillo y con ejemplos prácticos.
Si un mapa del sitio es como el plano de un edificio , que le muestra a Google qué habitaciones hay, entonces robots.txt es como un letrero de "Áreas restringidas" , que le indica a Google qué habitaciones están fuera de los límites .
En términos técnicos: robots.txt es un pequeño archivo de texto ubicado en el directorio raíz de un sitio web (por ejemplo: https://example.com/robots.txt ). Este archivo contiene reglas que indican a los bots de los motores de búsqueda, como Googlebot, qué deben hacer.
Puedes ver el archivo robots.txt de cualquier sitio web escribiendo: ten-mien.com/robots.txt en tu navegador.
💡 Importante: robots.txt es solo una solicitud de cortesía , no una prohibición absoluta. Los bots confiables como Googlebot la cumplirán, pero los bots maliciosos (spam, scrapers) podrían ignorarla. Si necesitas seguridad real, usa una contraseña o un cortafuegos; no confíes en robots.txt.
No es necesario que crees este archivo desde cero. Pero para entenderlo rápidamente, este es un archivo robots.txt sencillo:
User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xmlExplicación de cada línea:User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xml
| Actual | Significado |
|---|---|
User-agent: * | Se aplica a todos los bots (Google, Bing, etc.). |
Disallow: /admin/ | Impide que los bots accedan al directorio /admin/ . |
Disallow: /thanh-toan/ | Impide que los bots accedan a la página de pago. |
Disallow: /staging/ | No permita que los bots accedan al entorno de pruebas. |
Allow: / | Deja que el bot rastree el resto. |
Sitemap: https://... | Muestra a los bots dónde se encuentra el mapa del sitio. |
Aquí tienes un ejemplo más complejo, adecuado para un sitio web empresarial con blog, páginas de servicios y área de administración:
# Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml📝# Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml
Nota para desarrolladores: Personaje
El comodín `/ ?utm_en la ruta significa bloquear todas las URL que contengan el parámetro?utm_. El carácter `$al final de la ruta se utiliza para coincidir con el final exacto de la URL. Por ejemplo:Disallow: /*.pdf$bloqueará todos los archivos PDF.
---
Para comprender la función de robots.txt, repasemos el proceso que utiliza Google para clasificar los sitios web en los resultados de búsqueda:
Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng)El archivo Robots.txt opera en el primer paso: el rastreo.Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng)
Antes de que Googlebot comience a rastrear cualquier página de tu sitio web, primero revisa tu archivo robots.txt . Si una URL está marcada como Disallow ), Googlebot omitirá esa página: no la rastreará ni leerá su contenido.
Googlebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếmRobots.txt y mapa del sitio: un par complementario.Googlebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếm
| Archivo | Role |
|---|---|
| Mapa del sitio | "Esta es una lista de páginas que quiero que Google conozca." |
| Robots.txt | "Estas son las páginas que no quiero que Google rastree." |
Estos dos archivos no entran en conflicto; funcionan conjuntamente. El mapa del sitio proporciona las indicaciones, mientras que robots.txt establece los límites. Combinados correctamente, usted controla lo que Google ve y lo que ignora en su sitio web.
Página de administración, página de backend del CMS, página de prueba, página de desarrollo: ninguna de estas debería aparecer en los resultados de búsqueda de Google. El archivo robots.txt le indica a Google: "No entres aquí".
Disallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/2. Evite malgastar su "presupuesto para explorar".Disallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/
Google no rastrea indefinidamente. Cada sitio web tiene un "presupuesto de rastreo": la cantidad de páginas que Googlebot rastreará en cada visita. Si un sitio web tiene muchas páginas poco importantes (páginas de búsqueda interna, páginas de filtros, páginas de paginación), Googlebot podría estar ocupado rastreando estas páginas en lugar de páginas de servicio importantes o entradas de blog.
Disallow: /search? Disallow: /tag/ Disallow: /page/💡 El presupuesto de rastreo es especialmente importante para sitios web grandes (miles de páginas). Los sitios web de pequeñas empresas no suelen tener que preocuparse demasiado, pero mantener limpio el archivo robots.txt sigue siendo una buena práctica.Disallow: /search? Disallow: /tag/ Disallow: /page/
Si un sitio web tiene varias URL que conducen al mismo contenido (por ejemplo, una URL con el parámetro de seguimiento ?utm_source=facebook o una versión impresa ?print=true ), puede bloquear estas URL duplicadas:
Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print=4. Cómo llegar al mapa del sitioDisallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print=
El archivo robots.txt es el primer lugar que Googlebot revisa al analizar un sitio web. Colocar tu mapa del sitio aquí ayuda a Google a encontrarlo más rápido, incluso si aún no lo has enviado a Search Console.
¿Cuándo deberían las empresas prestar atención al archivo robots.txt? Sitemap: https://example.com/sitemap.xmlNo siempre es necesario editar robots.txt. Pero hay ocasiones en las que revisar este archivo es obligatorio :
Este es el momento más crítico. Muchos sitios web quedan completamente bloqueados para el rastreo porque el equipo de desarrollo olvidó eliminar la línea Disallow: / ", una línea que colocaron durante la fase de pruebas para evitar que Google indexara la versión inacabada.
Prueba al lanzar el producto:
| Categoría | Cómo comprobarlo |
|---|---|
| El archivo robots.txt existe. | Abre https://ten-mien.com/robots.txt en tu navegador. |
| No bloquees sitios web completos. | Asegúrese de que NO haya Disallow: / |
| Se ha publicado el mapa del sitio. | Asegúrese de que la siguiente línea esté presente Sitemap: https://ten-mien.com/sitemap.xml |
| Las páginas importantes no están bloqueadas. | Comprueba que la página de servicio, el blog o la información de contacto no estén incluidos en Disallow |
Si ya tienes un mapa del sitio, lo has enviado a Search Console, pero Google aún no lo indexa, el archivo robots.txt es el primer lugar que debes revisar.
Si su sitio web incluye páginas de administración de cuentas, áreas de miembros o páginas internas, actualice su archivo robots.txt para bloquear estas áreas.
Cada plataforma (WordPress, Webflow, código personalizado) crea una estructura de URL diferente. Al migrar, el antiguo archivo robots.txt podría bloquear erróneamente la nueva página o pasar por alto páginas que deberían bloquearse.
Google Search Console proporciona un informe de indexación que muestra qué páginas están siendo bloqueadas por robots.txt. Si ves que una página importante está bloqueada, es hora de corregir el archivo de inmediato.
Síntoma: Google no indexa ninguna página. Search Console informa que numerosas páginas están "Bloqueadas por robots.txt".
Motivo: El archivo robots.txt contiene:
User-agent: Disallow: /Estas dos líneas significan: "Bloquear el acceso de todos los bots a cualquier página". Esto suele ocurrir cuando los desarrolladores configuran esta regla durante la fase de pruebas y olvidan eliminarla antes de la publicación.User-agent: Disallow: /
Solución: Cambiar a:
User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xmlDisallow:User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xml
(nada después de los dos puntos) = permite gatear todo.
⚠️ Este es el error más frecuente en los sitios web de negocios nuevos. Tras corregirlo, Google puede tardar entre varios días y varias semanas en indexarlo de nuevo. Vuelve a enviar tu mapa del sitio a través de Search Console para acelerar el proceso.
---
Síntoma: El sitio web se visualiza con normalidad en el navegador, pero al utilizar la herramienta "Inspección de URL" en Search Console, Google detecta que la página tiene un diseño defectuoso o está en blanco.
Motivo: El archivo robots.txt está bloqueando la carpeta que contiene CSS y JS:
Disallow: /wp-content/ Disallow: /wp-includes/Google necesita leer CSS y JS para entender cómo se ve una página (proceso llamado "renderizado"). Si esto se bloquea, Google no puede renderizar la página, no entiende el contenido y, por lo tanto, afecta el posicionamiento.Disallow: /wp-content/ Disallow: /wp-includes/
Cómo solucionarlo:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/📝User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/
Nota para desarrolladores: Desde 2014, Google desaconseja claramente bloquear CSS, JavaScript e imágenes en robots.txt. Googlebot necesita estos recursos para renderizar las páginas correctamente. Utiliza la herramienta de inspección de URL en Search Console para comprobar cómo Google renderiza tu página.
Síntoma: Las páginas de servicios, las páginas de productos o las entradas del blog no aparecen en los resultados de búsqueda de Google, aunque sí figuran en el mapa del sitio.
Motivo: La regla en robots.txt es demasiado amplia. Por ejemplo:
Esta línea bloquea no solo Disallow: /dich-vu /dich-vu/ pero también /dich-vu-thiet-ke-web/ , /dich-vu-seo/ , y cualquier URL que comience con /dich-vu .
Solución: Añada una barra inclinada / al final de la ruta para bloquear el directorio exacto:
No permitir: /dich-vu-noi-bo/
O utilice Allow para proteger las páginas necesarias:
Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/📝Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/
Nota para desarrolladores: El orden de
AllowyDisallowinfluye. Googlebot utiliza la regla más específica (la ruta más específica). Si tienen la misma longitud,Allowtiene prioridad sobreDisallow. Siempre realice pruebas con la herramienta de prueba de robots en Search Console antes de implementar.
Síntoma: Al escribir ten-mien.com/robots.txt se produce un error 404.
Motivo: El sitio web se construyó manualmente y el desarrollador no creó este archivo. O bien, el archivo se eliminó accidentalmente durante la implementación.
Impacto: No tan grave como el error 1: sin robots.txt, Google rastrea todo por defecto. Pero esto significa:
Solución: Crea un archivo robots.txt en el directorio raíz. Contenido mínimo:
User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml---User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml
Síntoma: Bloqueas una página usando Disallow , pero esa página sigue apareciendo en Google, incluso sin ningún fragmento de contenido.
Motivo: El archivo robots.txt bloquea el rastreo , pero no la indexación . Si la página ya ha sido indexada o tiene enlaces entrantes de otros sitios web, Google puede mantener la URL en los resultados de búsqueda, pero no mostrará el contenido.
La forma correcta de solucionarlo:
| Objetivo | Qué usar |
|---|---|
| No quiero que Google rastree mi sitio web. | Disallow en robots.txt |
| No quiero que Google indexe (muestre) mi contenido. | Tarjeta en HTML |
| No quiero ambas cosas. | Utilice noindex en HTML (y no lo bloquee en robots.txt). |
⚠️ Este es el error más común: si bloqueas el rastreo (robots.txt) y también configuras
noindex(HTML), Google no verá la etiqueta noindex porque no rastreará esa página, y aun así podría indexarse. La solución: usanoindexen HTML y elimina la reglaDisallowpara esa página en robots.txt.
A continuación se muestra un ejemplo de archivo robots.txt adecuado para la mayoría de los sitios web de pequeñas y medianas empresas:
# ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml📝# ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml
Nota para desarrolladores: El archivo robots.txt debe estar ubicado en el dominio raíz:
https://example.com/robots.txt. No/blog/robots.txtni en ningún otro subdirectorio. Cada subdominio necesita su propio archivo robots.txt (por ejemplo,blog.example.com/robots.txtes independiente deexample.com/robots.txt).
Escribe https://ten-mien-cua-ban.com/robots.txt en la barra de direcciones. Verás el contenido del archivo en formato de texto. Si aparece un error 404, significa que el sitio web no tiene un archivo robots.txt.
En Search Console → Páginas (o Indexación ) → Busca la entrada "Bloqueado por robots.txt" . Si hay páginas importantes en esta lista, debes editar robots.txt inmediatamente.
💡 Debes revisar tu archivo robots.txt al menos trimestralmente o siempre que tu sitio web sufra cambios importantes (agregar páginas, cambiar la estructura, migrar a una plataforma diferente).
| ✅ Deberías bloquearlo. | ❌ NO bloquear |
|---|---|
Página de administración ( /admin/ , /wp-admin/ ) | Página de inicio, página de servicios, página de contacto |
| Página de preparación/prueba | Entrada de blog, artículo |
Página de búsqueda interna ( /search? ) | Archivos CSS y JavaScript |
URL con parámetro de seguimiento ( ?utm_ , ?fbclid= ) | Imágenes (Google Imágenes también genera tráfico) |
| Carrito de compras, página de pago, página de cuenta personal | Mapa del sitio |
| Páginas de contenido duplicado (filtrado, ordenación, paginación) | Página de preguntas frecuentes, estudio de caso |
---
¿Cuál es la diferencia entre Robots.txt y sitemap?
El mapa del sitio indica: "Esta es la página que quiero que Google conozca". El archivo robots.txt indica: "Esta es la página que no quiero que Google rastree". Ambos archivos se complementan: el mapa del sitio proporciona las indicaciones y robots.txt establece los límites.
¿Puede Google rastrear un sitio web sin un archivo robots.txt?
Sí. Sin un archivo robots.txt, Google rastreará todas las páginas por defecto, incluidas aquellas que no deseas que indexen. Por eso es importante tener este archivo.
Utilizo WordPress, ¿dónde se encuentra el archivo robots.txt?
WordPress crea automáticamente un archivo robots.txt virtual. Si utilizas un plugin de SEO como Yoast o Rank Math, puedes editar el archivo robots.txt directamente desde el plugin sin necesidad de acceder al servidor.
¿El archivo robots.txt afecta la velocidad del sitio web?
No. Este archivo solo ocupa unos pocos KB. No afecta a la velocidad de carga de la página.
Bloqueé el sitio usando robots.txt, entonces ¿por qué sigue apareciendo en los resultados de Google?
Porque robots.txt solo bloquea el rastreo, no la indexación. Si quieres que la página desaparezca por completo de Google, usa la etiqueta. en HTML, y no bloquees esa página en robots.txt (para que Google pueda leer la etiqueta noindex).
Tras editar el archivo robots.txt, ¿cuánto tiempo tardará Google en actualizarlo?
Google suele revisar tu archivo robots.txt en un plazo de 24 a 48 horas. Puedes ir a Search Console → Configuración → Rastreo para solicitar que Google lo revise antes.
El archivo robots.txt es pequeño, normalmente solo tiene unas pocas líneas, pero afecta directamente a si Google encuentra o no tu sitio web.
Cosas que debes recordar:
El archivo robots.txt es solo uno de los muchos factores técnicos que afectan al SEO. Si te preguntas: "¿Está mi sitio web configurado correctamente?", la respuesta reside en la plataforma que utilizas.
GTG CRM te ayuda a crear un sitio web con un archivo robots.txt estándar, un mapa del sitio automático y una estructura técnica lista para Google ; no tienes que preocuparte por editar cada archivo o línea de código.











