Facebook Messenger
Perspicacias

¿Qué es Robots.txt y cuándo deberían las empresas preocuparse por ello?

Thinh Dinh

532 vistas

Tabla de Contenidos

Tienes un mapa del sitio, lo has enviado a Google y tu sitio web está empezando a indexarse. Pero un día, descubres que la página de administración, la página de pago interna o la página de prueba también aparecen en Google. Los clientes escriben el nombre de tu empresa y ven la página de prueba sin terminar.

O, por el contrario: publicas una nueva entrada en tu blog, esperas dos semanas y sigue sin aparecer en Google. Consultas con el equipo técnico y te dicen: "El archivo robots.txt está impidiendo que Google rastree todo el sitio web".

Ambas situaciones implican un pequeño archivo al que pocos administradores web prestan atención: robots.txt .

Este artículo explicará qué es robots.txt, cómo funciona, cuándo es necesario editarlo y los errores comunes que las empresas deben evitar; todo ello en un lenguaje sencillo y con ejemplos prácticos.

¿Qué es Robots.txt? Una explicación para administradores web.

Si un mapa del sitio es como el plano de un edificio , que le muestra a Google qué habitaciones hay, entonces robots.txt es como un letrero de "Áreas restringidas" , que le indica a Google qué habitaciones están fuera de los límites .

En términos técnicos: robots.txt es un pequeño archivo de texto ubicado en el directorio raíz de un sitio web (por ejemplo: https://example.com/robots.txt ). Este archivo contiene reglas que indican a los bots de los motores de búsqueda, como Googlebot, qué deben hacer.

  • ¿Qué páginas tienen permiso para ser indexadas?
  • ¿Qué páginas no se pueden indexar?
  • ¿Dónde se encuentra el mapa del sitio?

Puedes ver el archivo robots.txt de cualquier sitio web escribiendo: ten-mien.com/robots.txt en tu navegador.

💡 Importante: robots.txt es solo una solicitud de cortesía , no una prohibición absoluta. Los bots confiables como Googlebot la cumplirán, pero los bots maliciosos (spam, scrapers) podrían ignorarla. Si necesitas seguridad real, usa una contraseña o un cortafuegos; no confíes en robots.txt.

¿Qué aspecto tiene un archivo robots.txt?

No es necesario que crees este archivo desde cero. Pero para entenderlo rápidamente, este es un archivo robots.txt sencillo:

 User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xml

Explicación de cada línea:

Actual Significado
User-agent: * Se aplica a todos los bots (Google, Bing, etc.).
Disallow: /admin/ Impide que los bots accedan al directorio /admin/ .
Disallow: /thanh-toan/ Impide que los bots accedan a la página de pago.
Disallow: /staging/ No permita que los bots accedan al entorno de pruebas.
Allow: / Deja que el bot rastree el resto.
Sitemap: https://... Muestra a los bots dónde se encuentra el mapa del sitio.

Aquí tienes un ejemplo más complejo, adecuado para un sitio web empresarial con blog, páginas de servicios y área de administración:

 # Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml
📝 Nota para desarrolladores: Los caracteres ` ` en la ruta son comodines: `/ ?utm_` significa bloquear todas las URL que contengan el parámetro `?utm_`. Los caracteres `$` al final de la ruta se utilizan para la coincidencia exacta de la URL. Por ejemplo: `Disallow: /*.pdf$` bloqueará todos los archivos PDF.

¿Cómo funciona el archivo Robots.txt en el proceso de SEO?

Para comprender la función de robots.txt, repasemos el proceso que utiliza Google para clasificar los sitios web en los resultados de búsqueda:

 Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng)

El archivo Robots.txt opera en el primer paso: el rastreo.

Antes de que Googlebot comience a rastrear cualquier página de tu sitio web, primero revisa tu archivo robots.txt . Si una URL está marcada como Disallow ), Googlebot omitirá esa página: no la rastreará ni leerá su contenido.

 Googlebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếm

Robots.txt y mapa del sitio: un par complementario.

Archivo Role
Mapa del sitio "Esta es una lista de páginas que quiero que Google conozca."
Robots.txt "Estas son las páginas que no quiero que Google rastree."

Estos dos archivos no entran en conflicto; funcionan conjuntamente. El mapa del sitio proporciona las indicaciones, mientras que robots.txt establece los límites. Combinados correctamente, usted controla lo que Google ve y lo que ignora en su sitio web.

¿Para qué se utiliza el archivo Robots.txt? 4 escenarios comunes.

1. Oculta las páginas de administración y las páginas internas de Google.

Página de administración, página de backend del CMS, página de prueba, página de desarrollo: ninguna de estas debería aparecer en los resultados de búsqueda de Google. El archivo robots.txt le indica a Google: "No visites esta página".

 Disallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/

2. Evite malgastar su "presupuesto para explorar".

Google no rastrea indefinidamente. Cada sitio web tiene un "presupuesto de rastreo": la cantidad de páginas que Googlebot rastreará en cada visita. Si un sitio web tiene muchas páginas irrelevantes (páginas de búsqueda interna, páginas de filtros, páginas de paginación), Googlebot podría estar ocupado rastreando estas páginas en lugar de páginas de servicio importantes o entradas de blog.

 Disallow: /search? Disallow: /tag/ Disallow: /page/
💡 El presupuesto de rastreo es especialmente importante para sitios web grandes (con miles de páginas). Los sitios web de pequeñas empresas no suelen tener que preocuparse demasiado, pero mantener limpio el archivo robots.txt sigue siendo una buena práctica.

3. Bloquear contenido duplicado

Si un sitio web tiene varias URL que conducen al mismo contenido (por ejemplo, una URL con el parámetro de seguimiento ?utm_source=facebook o una versión impresa ?print=true ), puede bloquear estas URL duplicadas:

 Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print=

4. Cómo llegar al mapa del sitio

El archivo robots.txt es el primer lugar que Googlebot revisa al analizar un sitio web. Colocar tu mapa del sitio aquí ayuda a Google a encontrarlo más rápido, incluso si aún no lo has enviado a Search Console.

 Sitemap: https://example.com/sitemap.xml

¿Cuándo deberían las empresas prestar atención al archivo robots.txt?

No siempre es necesario editar robots.txt. Pero hay ocasiones en las que revisar este archivo es obligatorio :

Cuando el nuevo sitio web esté en funcionamiento

Este es el momento más crítico. Muchos sitios web quedan completamente bloqueados para el rastreo porque el equipo de desarrollo olvidó eliminar la línea Disallow: / ", una línea que colocaron durante la fase de pruebas para evitar que Google indexara la versión inacabada.

Prueba al lanzar el producto:

Categoría Cómo comprobarlo
El archivo robots.txt existe. Abre https://ten-mien.com/robots.txt en tu navegador.
No bloquees sitios web completos. Asegúrese de que NO haya Disallow: /
Se ha publicado el mapa del sitio. Asegúrese de que la siguiente línea esté presente Sitemap: https://ten-mien.com/sitemap.xml
Las páginas importantes no están bloqueadas. Comprueba que la página de servicio, el blog o la información de contacto no estén incluidos en Disallow

✅ Cuando un sitio web no es indexado por Google después de varias semanas

Si ya tienes un mapa del sitio, lo has enviado a Search Console, pero Google aún no lo indexa, el archivo robots.txt es el primer lugar que debes revisar.

Al agregar áreas que se ocultarán (página de miembro, página interna)

Si su sitio web incluye páginas de administración de cuentas, áreas de miembros o páginas internas, actualice su archivo robots.txt para bloquear estas áreas.

Al cambiar de plataforma web o rediseñar el sitio

Cada plataforma (WordPress, Webflow, código personalizado) crea una estructura de URL diferente. Al migrar, el antiguo archivo robots.txt podría bloquear erróneamente la nueva página o pasar por alto páginas que deberían bloquearse.

Cuando Search Console informa del error "Bloqueado por robots.txt"

Google Search Console proporciona un informe de indexación que muestra qué páginas están siendo bloqueadas por robots.txt. Si ves que una página importante está bloqueada, es hora de corregir el archivo de inmediato.

5 errores comunes en robots.txt y cómo solucionarlos.

Error 1: Bloqueo de todo el sitio web: el error más grave.

Síntoma: Google no indexa ninguna página. Search Console informa que numerosas páginas están "Bloqueadas por robots.txt".

Motivo: El archivo robots.txt contiene:

 User-agent: Disallow: /

Estas dos líneas significan: "Bloquear el acceso de todos los bots a cualquier página". Esto suele ocurrir cuando los desarrolladores configuran esta regla durante la fase de pruebas y olvidan eliminarla antes de la publicación.

Solución: Cambiar a:

 User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xml

Disallow: (nada después de los dos puntos) = permite el rastreo completo.

⚠️ Este es el error más frecuente en los sitios web de negocios nuevos. Tras corregirlo, Google puede tardar entre varios días y varias semanas en indexarlo de nuevo. Vuelve a enviar tu mapa del sitio a través de Search Console para acelerar el proceso.

Error 2: Bloqueo de CSS y JavaScript

Síntoma: El sitio web se visualiza con normalidad en el navegador, pero al utilizar la herramienta "Inspección de URL" en Search Console, Google detecta que la página tiene un diseño defectuoso o está en blanco.

Motivo: El archivo robots.txt está bloqueando la carpeta que contiene CSS y JS:

 Disallow: /wp-content/ Disallow: /wp-includes/

Google necesita leer CSS y JS para entender cómo se ve una página (proceso llamado "renderizado"). Si esto se bloquea, Google no puede renderizar la página, no entiende el contenido y, por lo tanto, afecta el posicionamiento.

Cómo solucionarlo:

 User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/
📝 Nota para desarrolladores: Desde 2014, Google recomienda claramente no bloquear CSS, JS ni imágenes en robots.txt. Googlebot necesita estos recursos para renderizar las páginas correctamente. Usa la herramienta de inspección de URL en Search Console para comprobar cómo Google renderiza tu página.

Error 3: Se está bloqueando una página importante por error.

Síntoma: Las páginas de servicios, las páginas de productos o las entradas del blog no aparecen en los resultados de búsqueda de Google, aunque sí figuran en el mapa del sitio.

Motivo: La regla en robots.txt es demasiado amplia. Por ejemplo:

 Disallow: /dich-vu

Esta línea bloquea no solo /dich-vu/ sino también /dich-vu-thiet-ke-web/ , /dich-vu-seo/ y cualquier URL que comience con /dich-vu .

Solución: Añada una barra inclinada / al final de la ruta para bloquear el directorio exacto:

No permitir: /dich-vu-noi-bo/

O utilice Allow para proteger las páginas necesarias:

 Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/
📝 Nota para desarrolladores: El orden de `Allow` y `Disallow` es importante. Googlebot utiliza la regla más específica (la ruta más específica). Si tienen la misma longitud, `Allow` tiene prioridad sobre `Disallow`. Siempre realiza pruebas con la [Herramienta de prueba de robots](https://support.google.com/webmasters/answer/6062598) en Search Console antes de implementar.

Error 4: No se encontró el archivo robots.txt

Síntoma: Al escribir ten-mien.com/robots.txt se produce un error 404.

Motivo: El sitio web se construyó manualmente y el desarrollador no creó este archivo. O bien, el archivo se eliminó accidentalmente durante la implementación.

Impacto: No es tan grave como el error 1: sin robots.txt, Google rastrea todo por defecto. Pero esto significa:

  • Google rastreará la página de administración, la página de prueba y las páginas internas.
  • No existe una forma de dirigir a los usuarios al mapa del sitio a través de robots.txt.
  • Falta de controles básicos

Solución: Crea un archivo robots.txt en el directorio raíz. Contenido mínimo:

 User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml

Error 5: Se está utilizando robots.txt para ocultar una página de Google (propósito malinterpretado).

Síntoma: Bloqueas una página usando Disallow , pero esa página sigue apareciendo en Google, incluso sin ningún fragmento de contenido.

Motivo: El archivo robots.txt bloquea el rastreo , pero no la indexación . Si la página ya ha sido indexada o tiene enlaces entrantes de otros sitios web, Google puede mantener la URL en los resultados de búsqueda, pero no mostrará el contenido.

La forma correcta de solucionarlo:

Objetivo Qué usar
No quiero que Google rastree mi sitio web. Disallow en robots.txt
No quiero que Google indexe (muestre) mi contenido. Tarjeta en HTML
No quiero ambas cosas. Utilice noindex en HTML (y no lo bloquee en robots.txt).
⚠️ Este es el malentendido más común: si bloqueas el rastreo (robots.txt) y usas `noindex` (HTML), Google no verá la etiqueta `noindex` porque no rastreará esa página, y aun así podría estar indexada. La solución: usa `noindex` en HTML y elimina la regla `Disallow` para esa página en robots.txt.

Plantilla Robots.txt para sitios web empresariales

A continuación se muestra un ejemplo de archivo robots.txt adecuado para la mayoría de los sitios web de pequeñas y medianas empresas:

 # ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml
📝 Nota para desarrolladores: El archivo robots.txt debe estar ubicado en el dominio raíz: `https://example.com/robots.txt`. No en `/blog/robots.txt` ni en ningún otro subdirectorio. Cada subdominio necesita su propio archivo robots.txt (por ejemplo, `blog.example.com/robots.txt` es independiente de `example.com/robots.txt`).

Cómo comprobar el archivo robots.txt de tu sitio web

Método 1: Compruébelo directamente en el navegador.

Escribe https://ten-mien-cua-ban.com/robots.txt en la barra de direcciones. Verás el contenido del archivo en formato de texto. Si aparece un error 404, significa que el sitio web no tiene un archivo robots.txt.

Método 2: Usando la Consola de Búsqueda de Google

  1. Inicia sesión en Google Search Console.
  2. Ve a AjustesRastreorobots.txt
  3. Comprueba el archivo robots.txt que lee Google.
  4. Comprueba si la URL específica está bloqueada.

Método 3: Consultar el informe de indexación

En Search Console → Páginas (o Indexación ) → Busca la entrada "Bloqueado por robots.txt" . Si hay páginas importantes en esta lista, debes editar robots.txt inmediatamente.

💡 Deberías revisar tu archivo robots.txt al menos trimestralmente o siempre que tu sitio web sufra cambios importantes (agregar páginas, cambiar la estructura, migrar a una plataforma diferente).

Resumen: ¿Qué se debe y qué no se debe bloquear en el archivo Robots.txt?

✅ Deberías bloquearlo. ❌ NO bloquear
Página de administración ( /admin/ , /wp-admin/ ) Página de inicio, página de servicios, página de contacto
Página de preparación/prueba Entrada de blog, artículo
Página de búsqueda interna ( /search? ) Archivos CSS y JavaScript
URL con parámetro de seguimiento ( ?utm_ , ?fbclid= ) Imágenes (Google Imágenes también genera tráfico)
Carrito de compras, página de pago, página de cuenta personal Mapa del sitio
Páginas de contenido duplicado (filtrado, ordenación, paginación) Página de preguntas frecuentes, estudio de caso

Preguntas frecuentes sobre robots.txt

¿Cuál es la diferencia entre Robots.txt y sitemap?

El mapa del sitio indica: "Esta es la página que quiero que Google conozca". El archivo robots.txt indica: "Esta es la página que no quiero que Google rastree". Ambos archivos se complementan: el mapa del sitio proporciona las indicaciones y robots.txt establece los límites.

¿Puede Google rastrear un sitio web sin un archivo robots.txt?

Sí. Sin un archivo robots.txt, Google rastreará todas las páginas por defecto, incluidas aquellas que no deseas que indexen. Por eso es importante tener este archivo.

Utilizo WordPress, ¿dónde se encuentra el archivo robots.txt?

WordPress crea automáticamente un archivo robots.txt virtual. Si utilizas un plugin de SEO como Yoast o Rank Math, puedes editar el archivo robots.txt directamente desde el plugin sin necesidad de acceder al servidor.

¿El archivo robots.txt afecta la velocidad del sitio web?

No. Este archivo solo ocupa unos pocos KB. No afecta a la velocidad de carga de la página.

Bloqueé el sitio usando robots.txt, entonces ¿por qué sigue apareciendo en los resultados de Google?

Porque robots.txt solo bloquea el rastreo, no la indexación. Si quieres que la página desaparezca por completo de Google, usa la etiqueta. en HTML, y no bloquees esa página en robots.txt (para que Google pueda leer la etiqueta noindex).

Tras editar el archivo robots.txt, ¿cuánto tiempo tardará Google en actualizarlo?

Google suele revisar tu archivo robots.txt en un plazo de 24 a 48 horas. Puedes ir a Search Console → Configuración → Rastreo para solicitar que Google lo revise antes.

Concluir

El archivo robots.txt es pequeño, normalmente solo tiene unas pocas líneas, pero afecta directamente a si Google encuentra o no tu sitio web.

Cosas que debes recordar:

  1. El archivo Robots.txt es una señal de "Áreas restringidas" : le indica a Google qué páginas no debe rastrear.
  2. Compruebe inmediatamente cuando el sitio web esté en línea : el error que bloquea todo el sitio web es el error más común y grave.
  3. No utilices robots.txt para ocultar una página a Google : bloquea el rastreo, pero no la indexación.
  4. Permita siempre CSS y JS : Google necesita renderizar la página para comprender el contenido.
  5. Combina esto con un mapa del sitio y Search Console para obtener un control total sobre cómo Google rastrea e indexa tu sitio web.

Verifique la plataforma de su sitio web.

El archivo robots.txt es solo uno de los muchos factores técnicos que afectan al SEO. Si te preguntas: "¿Está mi sitio web configurado correctamente?", la respuesta reside en la plataforma que utilizas.

GTG CRM te ayuda a crear un sitio web con un archivo robots.txt estándar, un mapa del sitio automático y una estructura técnica lista para Google ; no tienes que preocuparte por editar cada archivo o línea de código.

Optimiza Operaciones Acelera el Crecimiento

Empieza con Créditos Gratis
Gratis 20.00036.888 credit
Funciones completas
No requiere tarjeta de crédito