Facebook Messenger
Perspectives

Qu’est-ce que le fichier Robots.txt et quand les entreprises doivent-elles s’en préoccuper ?

Thinh Dinh

532 vues

Table des Matières

Qu’est-ce que le fichier Robots.txt et quand les entreprises doivent-elles s’en préoccuper ?

Vous avez un sitemap, vous l'avez soumis à Google et votre site web commence à être indexé. Mais un jour, vous découvrez que la page d'administration, la page de paiement interne ou la page de test de votre site apparaissent également dans les résultats de Google. Les clients saisissent le nom de votre entreprise et voient la page de test inachevée.

Ou inversement : vous publiez un nouvel article de blog, attendez deux semaines, et il n’apparaît toujours pas sur Google. Vous contactez l’équipe technique, qui vous répond : « Le fichier robots.txt empêche Google d’explorer l’intégralité du site web. »

Dans les deux cas, il s'agit d'un petit fichier auquel peu d'administrateurs web prêtent attention : robots.txt .

Cet article explique ce qu'est le fichier robots.txt, comment il fonctionne, quand il est nécessaire de le modifier et les erreurs courantes que les entreprises doivent éviter, le tout dans un langage simple et avec des exemples pratiques.

Qu’est-ce que Robots.txt ? Explications pour les administrateurs web.

Si un sitemap est comme un plan de bâtiment – ​​montrant à Google quelles pièces il contient – ​​alors robots.txt est comme un panneau « Zones interdites » – indiquant à Google quelles pièces sont interdites d’accès .

En termes techniques : robots.txt est un petit fichier texte situé à la racine d’un site web (par exemple : https://example.com/robots.txt ). Ce fichier contient des règles qui indiquent aux robots des moteurs de recherche, comme Googlebot, la marche à suivre.

  • Quelles pages sont autorisées à être indexées ?
  • Quelles pages ne sont pas autorisées à être indexées ?
  • Où se trouve le plan du site ?

Vous pouvez consulter le fichier robots.txt de n'importe quel site web en saisissant : ten-mien.com/robots.txt dans votre navigateur.

💡 Important : le fichier robots.txt est une simple demande de courtoisie , et non une interdiction absolue. Les robots légitimes comme Googlebot s'y conformeront, mais les robots malveillants (spam, scrapers) peuvent l'ignorer. Pour une sécurité optimale, utilisez un mot de passe ou un pare-feu ; ne vous fiez pas au fichier robots.txt.

À quoi ressemble un fichier robots.txt ?

Vous n'avez pas besoin de créer ce fichier de toutes pièces. Mais pour vous donner une idée rapide, voici un simple fichier robots.txt :

 User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xml Explication pour chaque ligne : User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xml

Actuel Signification
User-agent: * S'applique à tous les robots (Google, Bing, etc.)
Disallow: /admin/ Empêcher les robots d'accéder au répertoire /admin/ .
Disallow: /thanh-toan/ Empêcher les robots d'accéder à la page de paiement.
Disallow: /staging/ N’autorisez pas les bots dans l’environnement de test.
Allow: / Laissez le bot explorer le reste.
Sitemap: https://... Indiquez aux robots d'exploration où se trouve le plan du site.

Voici un exemple plus complexe, adapté à un site web d'entreprise comprenant un blog, des pages de services et une zone d'administration :

 # Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml 📝 # Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml

Note aux développeurs : Personnage Le caractère générique ` / ?utm_ dans le chemin bloque toutes les URL contenant le paramètre ?utm_ . Le caractère ` $ à la fin du chemin permet de cibler la fin exacte de l'URL. Par exemple : Disallow: /*.pdf$ bloquera tous les fichiers PDF.

---

Comment fonctionne le fichier Robots.txt dans le processus de référencement (SEO) ?

Pour comprendre le rôle du fichier robots.txt, revenons sur le processus utilisé par Google pour classer les sites web dans les résultats de recherche :

 Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng) Le fichier Robots.txt intervient lors de la première étape : l’exploration. Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng)

Avant de commencer à explorer une page de votre site web, Googlebot consulte d'abord votre fichier robots.txt . Si une URL est indiquée comme Disallow , Googlebot ignorera cette page : il ne l'explorera pas et ne lira pas son contenu.

 Googlebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếm Robots.txt et sitemap : un duo complémentaire. Googlebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếm

Déposer Rôle
Plan du site «Voici une liste de pages que je souhaite faire connaître à Google.»
Robots.txt « Voici les pages que je ne veux pas que Google explore. »

Ces deux fichiers ne sont pas incompatibles ; ils fonctionnent de concert. Le sitemap fournit les instructions, tandis que robots.txt définit les restrictions d'accès. Correctement associés, ils vous permettent de contrôler ce que Google voit et ignore sur votre site web.

À quoi sert le fichier Robots.txt ? 4 scénarios courants.

1. Masquer les pages d'administration et les pages internes à Google.

Page d'administration, page d'interface d'administration du CMS, page de préproduction, page de test : aucune de ces pages ne devrait apparaître dans les résultats de recherche Google. Le fichier robots.txt indique à Google : « Ne visitez pas cette page. »

 Disallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/ 2. Évitez de gaspiller votre « budget d'exploration ». Disallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/

Google n'explore pas les sites web indéfiniment. Chaque site dispose d'un « budget d'exploration » : le nombre de pages que Googlebot explorera à chaque visite. Si un site web contient de nombreuses pages peu importantes (pages de recherche interne, pages de filtres, pages de pagination), Googlebot risque d'être occupé à explorer ces pages au lieu des pages de service importantes ou des articles de blog.

 Disallow: /search? Disallow: /tag/ Disallow: /page/ 💡 Le budget d'exploration est surtout important pour les grands sites web (des milliers de pages). Les petits sites web d'entreprises n'ont généralement pas à s'en préoccuper autant, mais il est tout de même conseillé de maintenir un fichier robots.txt propre. Disallow: /search? Disallow: /tag/ Disallow: /page/

3. Bloquer le contenu dupliqué

Si un site Web comporte plusieurs URL qui mènent au même contenu (par exemple, une URL avec le paramètre de suivi ?utm_source=facebook ou une version imprimable ?print=true ), vous pouvez bloquer ces URL dupliquées :

 Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print= 4. Accès au plan du site Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print=

Le fichier robots.txt est le premier endroit que Googlebot consulte lorsqu'il s'agit d'un site web. Y placer votre sitemap permet à Google de le trouver plus rapidement, même si vous ne l'avez pas encore soumis à la Search Console.

 Quand les entreprises doivent-elles prêter attention au fichier robots.txt ? Sitemap: https://example.com/sitemap.xml

Il n'est pas toujours nécessaire de modifier le fichier robots.txt. Cependant, il arrive que la vérification de ce fichier soit obligatoire .

Lorsque le nouveau site web sera mis en ligne

C'est le moment le plus critique. De nombreux sites web sont complètement bloqués par l'indexation car l'équipe de développement a oublié de supprimer la ligne Disallow: / » – une ligne qu'ils avaient ajoutée lors de la phase de test pour empêcher Google d'indexer la version inachevée.

Test avant la mise en production :

Catégorie Comment vérifier
Le fichier robots.txt existe. Ouvrez https://ten-mien.com/robots.txt dans votre navigateur.
Ne bloquez pas des sites web entiers. Assurez-vous qu'il n'y a AUCUNE Disallow: /
Le plan du site a été déclaré. Assurez-vous que la ligne suivante est présente Sitemap: https://ten-mien.com/sitemap.xml
Les pages importantes ne sont pas bloquées. Vérifiez si la page de service, le blog ou les informations de contact ne figurent pas dans Disallow

✅ Lorsqu'un site web n'est pas indexé par Google après plusieurs semaines

Si vous avez déjà un sitemap, que vous l'avez soumis à Search Console, mais que Google ne l'indexe toujours pas, le fichier robots.txt est le premier élément à vérifier.

Lors de l'ajout de zones à masquer (page membre, page interne)

Si votre site web comprend des pages de gestion de compte, des espaces membres ou des pages internes, veuillez mettre à jour votre fichier robots.txt afin de bloquer ces zones.

Lors du changement de plateforme ou de la refonte d'un site web

Chaque plateforme (WordPress, Webflow, code personnalisé) génère une structure d'URL différente. Lors d'une migration, l'ancien fichier robots.txt peut bloquer par erreur la nouvelle page ou omettre des pages qui devraient être bloquées.

Lorsque Search Console signale l'erreur « Bloqué par robots.txt »

Google Search Console fournit un rapport d'indexation indiquant les pages bloquées par le fichier robots.txt. Si une page importante est bloquée, il est urgent de corriger ce fichier.

5 erreurs courantes du fichier robots.txt et comment les corriger.

Erreur 1 : Blocage de l’ensemble du site web – l’erreur la plus grave.

Symptôme : Aucune page n’est indexée par Google. Search Console signale de nombreuses pages comme « Bloquées par robots.txt ».

Motif : Le fichier robots.txt contient :

 User-agent: Disallow: / Ces deux lignes signifient : « Bloquer l’accès à toutes les pages pour tous les robots ». Cela se produit souvent lorsque les développeurs définissent cette règle en phase de test et oublient de la supprimer avant la mise en production. User-agent: Disallow: /

Solution : Remplacer par :

 User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xml Disallow: User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xml

(rien après les deux-points) = permet de ramper tout.

⚠️ C'est l'erreur la plus fréquente sur les nouveaux sites web d'entreprises. Après correction, Google peut mettre plusieurs jours, voire plusieurs semaines, à indexer à nouveau votre site. Soumettez à nouveau votre sitemap via Search Console pour accélérer le processus.

---

Erreur 2 : Blocage du CSS et du JavaScript

Symptôme : Le site web s’affiche normalement dans le navigateur, mais lors de l’utilisation de l’outil « Inspection d’URL » dans Search Console, Google détecte que la page a une mise en page défectueuse ou est vide.

Motif : le fichier robots.txt bloque le dossier contenant les fichiers CSS et JS.

 Disallow: /wp-content/ Disallow: /wp-includes/ Google a besoin de lire le CSS et le JS pour comprendre l'apparence d'une page (ce qu'on appelle le « rendu »). Si cette opération est bloquée, Google ne peut pas afficher la page ; il ne comprend donc pas son contenu, ce qui affecte le classement dans les résultats de recherche. Disallow: /wp-content/ Disallow: /wp-includes/

Comment y remédier :

 User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/ 📝 User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/

Note aux développeurs : depuis 2014, Google déconseille fortement de bloquer les fichiers CSS, JS et les images dans le fichier robots.txt. Googlebot a besoin de ces ressources pour afficher correctement les pages. Utilisez l’outil d’inspection d’URL de la Search Console pour vérifier comment Google affiche votre page.

Erreur 3 : Blocage par erreur d’une page importante.

Symptôme : Les pages de services, les pages produits ou les articles de blog n'apparaissent pas dans les résultats de recherche Google, même s'ils sont répertoriés dans le sitemap.

Motif : La règle dans robots.txt est trop générale. Par exemple :

 Cette ligne bloque non seulement Disallow: /dich-vu

/dich-vu/ mais aussi /dich-vu-thiet-ke-web/ , /dich-vu-seo/ , et toute URL qui commence par /dich-vu .

Solution : Ajoutez une barre oblique / à la fin du chemin pour bloquer le répertoire exact :

Interdit : /dich-vu-noi-bo/

Ou utilisez Allow pour protéger les pages nécessaires :

 Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/ 📝 Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/

Note aux développeurs : L’ordre des règles Allow et Disallow a une incidence. Googlebot utilise la règle la plus spécifique (le chemin le plus précis). Si les deux règles ont la même longueur, Allow est prioritaire sur Disallow . Il est toujours recommandé de tester avec l’outil de test des robots de la Search Console avant le déploiement.

Erreur 4 : Aucun fichier robots.txt

Symptôme : La saisie ten-mien.com/robots.txt renvoie une erreur 404.

Motif : Le site web a été créé manuellement et le développeur n’a pas créé ce fichier. Ou bien le fichier a été supprimé accidentellement lors du déploiement.

Impact : Moins grave que l’erreur 1 – sans fichier robots.txt, Google explore tout par défaut. Mais cela signifie :

  • Google explorera la page d'administration, la page de test et les pages internes.
  • Il n'existe aucun moyen de diriger les utilisateurs vers le plan du site via le fichier robots.txt.
  • Absence de commandes de base

Solution : Créez un fichier robots.txt à la racine du projet. Contenu minimum :

 User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml --- User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml

Erreur 5 : Utilisation du fichier robots.txt pour masquer une page à Google (objectif mal compris)

Symptôme : Vous bloquez une page à l’aide de l’action Disallow , mais cette page apparaît toujours sur Google, même sans aucun extrait de contenu.

Motif : Le fichier robots.txt bloque l’exploration , mais pas l’indexation . Si la page est déjà indexée ou si elle contient des liens entrants provenant d’autres sites web, Google peut conserver l’URL dans les résultats de recherche, mais n’affichera pas le contenu.

La bonne façon de résoudre le problème :

Cible Que faut-il utiliser ?
Je ne veux pas que Google explore mon site. Disallow dans robots.txt
Vous ne souhaitez pas que Google indexe (affiche) votre contenu. Carte en HTML
Je ne veux pas les deux. Utilisez noindex en HTML (et ne bloquez pas dans robots.txt).

⚠️ Voici l'erreur la plus fréquente : si vous bloquez l'exploration (robots.txt) et que vous définissez également noindex (HTML), Google ne verra pas cette balise car il n'explorera pas la page — or, la page peut toujours être indexée. La solution : utilisez noindex dans le code HTML et supprimez la règle Disallow pour cette page dans le fichier robots.txt.

Modèle de fichier robots.txt pour les sites web d'entreprise

Vous trouverez ci-dessous un exemple de fichier robots.txt adapté à la plupart des sites web des PME :

 # ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml 📝 # ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml

Note aux développeurs : le fichier robots.txt doit se trouver à la racine du domaine — https://example.com/robots.txt — et non dans /blog/robots.txt ou un autre sous-répertoire. Chaque sous-domaine nécessite son propre fichier robots.txt (par exemple, blog.example.com/robots.txt est différent de example.com/robots.txt ).

Comment vérifier le fichier robots.txt de votre site web

Méthode 1 : Vérifiez directement dans le navigateur.

Saisissez https://ten-mien-cua-ban.com/robots.txt dans la barre d'adresse. Le contenu du fichier s'affichera au format texte. Si vous obtenez une erreur 404, cela signifie que le site web ne possède pas de fichier robots.txt.

Méthode 2 : Utilisation de Google Search Console

  1. Connectez-vous à Google Search Console
  2. Accédez à ParamètresExplorationrobots.txt
  3. Vérifiez le fichier robots.txt que Google lit.
  4. Vérifiez si l'URL spécifique est bloquée.

Méthode 3 : Vérifier le rapport d’indexation

Dans Search Console → Pages (ou Indexation ) → Recherchez l'entrée « Bloquée par robots.txt » . Si des pages importantes figurent dans cette liste, vous devez modifier le fichier robots.txt immédiatement.

💡 Vous devriez vérifier votre fichier robots.txt au moins une fois par trimestre ou chaque fois que votre site Web subit des changements majeurs (ajout de pages, modification de la structure, migration vers une autre plateforme).

Résumé : Que faut-il bloquer et que ne faut-il pas bloquer dans le fichier Robots.txt ?

✅ Vous devriez le bloquer. ❌ NE PAS bloquer
Page d'administration ( /admin/ , /wp-admin/ ) Page d'accueil, page des services, page de contact
Page de test/de préparation Article de blog
Page de recherche interne ( /search? ) Fichiers CSS et JavaScript
URL avec paramètre de suivi ( ?utm_ , ?fbclid= ) Images (Google Images génère également du trafic)
Panier d'achat, page de paiement, page de compte personnel Plan du site
Pages de contenu dupliquées (filtrage, tri, pagination) FAQ, étude de cas

---

Foire aux questions sur robots.txt

Quelle est la différence entre Robots.txt et sitemap ?

Le sitemap indique : « Voici la page que je veux faire connaître à Google. » Le fichier robots.txt indique : « Voici la page que je ne veux pas que Google explore. » Ces deux fichiers sont complémentaires : le sitemap donne les instructions, tandis que robots.txt définit les restrictions.

Sans fichier robots.txt, Google peut-il quand même explorer un site web ?

Oui. Sans fichier robots.txt, Google explorera toutes les pages par défaut, y compris celles que vous ne souhaitez pas indexer. C'est pourquoi ce fichier est indispensable.

J'utilise WordPress, où se trouve le fichier robots.txt ?

WordPress crée automatiquement un fichier robots.txt virtuel. Si vous utilisez une extension SEO comme Yoast ou Rank Math, vous pouvez modifier ce fichier directement depuis l'extension, sans accéder au serveur.

Le fichier robots.txt a-t-il une incidence sur la vitesse du site web ?

Non. Ce fichier ne pèse que quelques kilo-octets. Il n'a aucune incidence sur la vitesse de chargement de la page.

J'ai bloqué le site à l'aide du fichier robots.txt, alors pourquoi apparaît-il toujours dans les résultats de recherche Google ?

Le fichier robots.txt bloque uniquement l'exploration, pas l'indexation. Si vous souhaitez que la page disparaisse complètement de Google, utilisez la balise appropriée. en HTML - et ne bloquez pas cette page dans robots.txt (afin que Google puisse lire la balise noindex).

Après avoir modifié le fichier robots.txt, combien de temps faudra-t-il à Google pour effectuer la mise à jour ?

Google vérifie généralement votre fichier robots.txt sous 24 à 48 heures. Vous pouvez accéder à Search Console → Paramètres → Exploration pour demander à Google de le vérifier plus rapidement.

Conclure

Le fichier robots.txt est petit — généralement quelques lignes seulement — mais il influence directement la façon dont Google trouve votre site web.

Points à retenir :

  1. Le fichier robots.txt est un panneau « Zones restreintes » : il indique à Google quelles pages ne doivent pas être explorées.
  2. Vérifiez immédiatement dès la mise en ligne du site web : l’erreur qui bloque l’intégralité du site est la plus courante et la plus grave.
  3. N'utilisez pas le fichier robots.txt pour masquer une page à Google : il bloque l'exploration, mais pas l'indexation.
  4. Autorisez toujours le CSS et le JS : Google doit pouvoir afficher la page pour en comprendre le contenu.
  5. Combinez cela avec un sitemap et Search Console pour obtenir un contrôle total sur la façon dont Google explore et indexe votre site web.

Vérifiez la plateforme de votre site web.

Le fichier robots.txt n'est qu'un des nombreux facteurs techniques qui influencent le référencement. Si vous vous demandez si votre site web est correctement configuré, la réponse se trouve dans la plateforme que vous utilisez.

GTG CRM vous aide à créer un site web avec un fichier robots.txt standard, un plan de site automatique et une structure technique optimisée pour Google – vous n'avez pas à vous soucier de modifier chaque fichier ou ligne de code.

Optimiser les Opérations Accélérer la Croissance

Commencer avec des Crédits Gratuits
Offert 20.00036.888 credit
Fonctionnalités complètes
Aucune carte bancaire requise