Thinh Dinh
532 vues
Table des Matières
Vous avez un sitemap, vous l'avez soumis à Google et votre site web commence à être indexé. Mais un jour, vous découvrez que la page d'administration, la page de paiement interne ou la page de test de votre site apparaissent également dans les résultats de Google. Les clients saisissent le nom de votre entreprise et voient la page de test inachevée.
Ou inversement : vous publiez un nouvel article de blog, attendez deux semaines, et il n’apparaît toujours pas sur Google. Vous contactez l’équipe technique, qui vous répond : « Le fichier robots.txt empêche Google d’explorer l’intégralité du site web. »
Dans les deux cas, il s'agit d'un petit fichier auquel peu d'administrateurs web prêtent attention : robots.txt .
Cet article explique ce qu'est le fichier robots.txt, comment il fonctionne, quand il est nécessaire de le modifier et les erreurs courantes que les entreprises doivent éviter, le tout dans un langage simple et avec des exemples pratiques.
Si un sitemap est comme un plan de bâtiment – montrant à Google quelles pièces il contient – alors robots.txt est comme un panneau « Zones interdites » – indiquant à Google quelles pièces sont interdites d’accès .
En termes techniques : robots.txt est un petit fichier texte situé à la racine d’un site web (par exemple : https://example.com/robots.txt ). Ce fichier contient des règles qui indiquent aux robots des moteurs de recherche, comme Googlebot, la marche à suivre.
Vous pouvez consulter le fichier robots.txt de n'importe quel site web en saisissant : ten-mien.com/robots.txt dans votre navigateur.
💡 Important : le fichier robots.txt est une simple demande de courtoisie , et non une interdiction absolue. Les robots légitimes comme Googlebot s'y conformeront, mais les robots malveillants (spam, scrapers) peuvent l'ignorer. Pour une sécurité optimale, utilisez un mot de passe ou un pare-feu ; ne vous fiez pas au fichier robots.txt.
Vous n'avez pas besoin de créer ce fichier de toutes pièces. Mais pour vous donner une idée rapide, voici un simple fichier robots.txt :
User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xmlExplication pour chaque ligne :
| Actuel | Signification |
|---|---|
User-agent: * | S'applique à tous les robots (Google, Bing, etc.) |
Disallow: /admin/ | Empêcher les robots d'accéder au répertoire /admin/ . |
Disallow: /thanh-toan/ | Empêcher les robots d'accéder à la page de paiement. |
Disallow: /staging/ | N’autorisez pas les bots dans l’environnement de test. |
Allow: / | Laissez le bot explorer le reste. |
Sitemap: https://... | Indiquez aux robots d'exploration où se trouve le plan du site. |
Voici un exemple plus complexe, adapté à un site web d'entreprise comprenant un blog, des pages de services et une zone d'administration :
# Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml📝 Note aux développeurs : Les caractères ` ` dans le chemin sont des caractères génériques — `/ ?utm_` signifie bloquer toutes les URL contenant le paramètre `?utm_`. Les caractères `$` à la fin du chemin servent à une correspondance exacte avec l’URL. Par exemple : `Disallow: /*.pdf$` bloquera tous les fichiers PDF.
Pour comprendre le rôle du fichier robots.txt, revenons sur le processus utilisé par Google pour classer les sites web dans les résultats de recherche :
Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng)Le fichier Robots.txt intervient lors de la première étape : l’exploration.
Avant de commencer à explorer une page de votre site web, Googlebot consulte d'abord votre fichier robots.txt . Si une URL est indiquée comme Disallow , Googlebot ignorera cette page : il ne l'explorera pas et ne lira pas son contenu.
Googlebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếm| Déposer | Rôle |
|---|---|
| Plan du site | «Voici une liste de pages que je souhaite faire connaître à Google.» |
| Robots.txt | « Voici les pages que je ne veux pas que Google explore. » |
Ces deux fichiers ne sont pas incompatibles ; ils fonctionnent de concert. Le sitemap fournit les instructions, tandis que robots.txt définit les restrictions d'accès. Correctement associés, ils vous permettent de contrôler ce que Google voit et ignore sur votre site web.
Page d'administration, page d'interface d'administration du CMS, page de préproduction, page de test : aucune de ces pages ne devrait apparaître dans les résultats de recherche Google. Le fichier robots.txt indique à Google : « Ne pas entrer ici. »
Disallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/Google n'explore pas les sites web indéfiniment. Chaque site dispose d'un « budget d'exploration » : le nombre de pages que Googlebot explorera à chaque visite. Si un site web contient de nombreuses pages peu importantes (pages de recherche interne, pages de filtres, pages de pagination), Googlebot risque d'être occupé à explorer ces pages au lieu des pages de service importantes ou des articles de blog.
Disallow: /search? Disallow: /tag/ Disallow: /page/💡 Le budget d'exploration est surtout important pour les grands sites web (des milliers de pages). Les petits sites web d'entreprises n'ont généralement pas à s'en préoccuper autant, mais il est tout de même conseillé de maintenir un fichier robots.txt propre.
Si un site Web comporte plusieurs URL qui mènent au même contenu (par exemple, une URL avec le paramètre de suivi ?utm_source=facebook ou une version imprimable ?print=true ), vous pouvez bloquer ces URL dupliquées :
Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print=Le fichier robots.txt est le premier endroit que Googlebot consulte lorsqu'il s'agit d'un site web. Y placer votre sitemap permet à Google de le trouver plus rapidement, même si vous ne l'avez pas encore soumis à la Search Console.
Sitemap: https://example.com/sitemap.xmlIl n'est pas toujours nécessaire de modifier le fichier robots.txt. Cependant, il arrive que la vérification de ce fichier soit obligatoire .
C'est le moment le plus critique. De nombreux sites web sont complètement bloqués par l'indexation car l'équipe de développement a oublié de supprimer la ligne Disallow: / » – une ligne qu'ils avaient ajoutée lors de la phase de test pour empêcher Google d'indexer la version inachevée.
Test avant la mise en production :
| Catégorie | Comment vérifier |
|---|---|
| Le fichier robots.txt existe. | Ouvrez https://ten-mien.com/robots.txt dans votre navigateur. |
| Ne bloquez pas des sites web entiers. | Assurez-vous qu'il n'y a AUCUNE Disallow: / |
| Le plan du site a été déclaré. | Assurez-vous que la ligne suivante est présente Sitemap: https://ten-mien.com/sitemap.xml |
| Les pages importantes ne sont pas bloquées. | Vérifiez si la page de service, le blog ou les informations de contact ne figurent pas dans Disallow |
Si vous avez déjà un sitemap, que vous l'avez soumis à Search Console, mais que Google ne l'indexe toujours pas, le fichier robots.txt est le premier élément à vérifier.
Si votre site web comprend des pages de gestion de compte, des espaces membres ou des pages internes, veuillez mettre à jour votre fichier robots.txt afin de bloquer ces zones.
Chaque plateforme (WordPress, Webflow, code personnalisé) génère une structure d'URL différente. Lors d'une migration, l'ancien fichier robots.txt peut bloquer par erreur la nouvelle page ou omettre des pages qui devraient être bloquées.
Google Search Console fournit un rapport d'indexation indiquant les pages bloquées par le fichier robots.txt. Si une page importante est bloquée, il est urgent de corriger ce fichier.
Symptôme : Aucune page n’est indexée par Google. Search Console signale de nombreuses pages comme « Bloquées par robots.txt ».
Motif : Le fichier robots.txt contient :
User-agent: Disallow: /Ces deux lignes signifient : « Bloquer l’accès à toutes les pages pour tous les robots ». Cela se produit souvent lorsque les développeurs définissent cette règle en phase de test et oublient de la supprimer avant la mise en production.
Solution : Remplacer par :
User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xml Disallow: (rien après les deux-points) = autorise tout le crawl.
⚠️ C'est l'erreur la plus fréquente sur les nouveaux sites web d'entreprises. Après correction, Google peut mettre plusieurs jours, voire plusieurs semaines, à indexer à nouveau votre site. Soumettez à nouveau votre sitemap via Search Console pour accélérer le processus.
Symptôme : Le site web s’affiche normalement dans le navigateur, mais lors de l’utilisation de l’outil « Inspection d’URL » dans Search Console, Google détecte que la page a une mise en page défectueuse ou est vide.
Motif : le fichier robots.txt bloque le dossier contenant les fichiers CSS et JS.
Disallow: /wp-content/ Disallow: /wp-includes/Google a besoin de lire le CSS et le JS pour comprendre l'apparence d'une page (c'est ce qu'on appelle le « rendu »). Si cette opération est bloquée, Google ne peut pas afficher la page ; il ne comprend donc pas son contenu, ce qui affecte le classement dans les résultats de recherche.
Comment y remédier :
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/📝 Note aux développeurs : Depuis 2014, Google déconseille fortement de bloquer les fichiers CSS, JS et les images dans le fichier robots.txt. Googlebot a besoin de ces ressources pour afficher correctement les pages. Utilisez l’outil d’inspection d’URL de la Search Console pour vérifier comment Google affiche votre page.
Symptôme : Les pages de services, les pages produits ou les articles de blog n'apparaissent pas dans les résultats de recherche Google, même s'ils sont répertoriés dans le sitemap.
Motif : La règle dans robots.txt est trop générale. Par exemple :
Disallow: /dich-vu Cette ligne bloque non seulement /dich-vu/ mais aussi /dich-vu-thiet-ke-web/ , /dich-vu-seo/ , et toute URL commençant par /dich-vu .
Solution : Ajoutez une barre oblique / à la fin du chemin pour bloquer le répertoire exact :
Interdit : /dich-vu-noi-bo/
Ou utilisez Allow pour protéger les pages nécessaires :
Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/📝 Remarque pour les développeurs : L’ordre des règles `Allow` et `Disallow` a une incidence. Googlebot utilise la règle la plus spécifique (le chemin le plus précis). Si les deux règles ont la même longueur, `Allow` est prioritaire sur `Disallow`. Il est recommandé de toujours effectuer des tests avec l’outil de test des robots de la Search Console avant le déploiement.
Symptôme : La saisie ten-mien.com/robots.txt renvoie une erreur 404.
Motif : Le site web a été créé manuellement et le développeur n’a pas créé ce fichier. Ou bien le fichier a été supprimé accidentellement lors du déploiement.
Impact : Moins grave que l’erreur 1 – sans fichier robots.txt, Google explore tout par défaut. Mais cela signifie :
Solution : Créez un fichier robots.txt à la racine du projet. Contenu minimum :
User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml Symptôme : Vous bloquez une page à l’aide de l’action Disallow , mais cette page apparaît toujours sur Google, même sans aucun extrait de contenu.
Motif : Le fichier robots.txt bloque l’exploration , mais pas l’indexation . Si la page est déjà indexée ou si elle contient des liens entrants provenant d’autres sites web, Google peut conserver l’URL dans les résultats de recherche, mais n’affichera pas le contenu.
La bonne façon de résoudre le problème :
| Cible | Que faut-il utiliser ? |
|---|---|
| Je ne veux pas que Google explore mon site. | Disallow dans robots.txt |
| Vous ne souhaitez pas que Google indexe (affiche) votre contenu. | Carte en HTML |
| Je ne veux pas les deux. | Utilisez noindex en HTML (et ne bloquez pas dans robots.txt). |
⚠️ Voici l'erreur la plus fréquente : si vous bloquez l'exploration (robots.txt) et utilisez `noindex` (HTML), Google ne verra pas la balise `noindex` car il n'explorera pas la page — or, la page peut toujours être indexée. La solution : utilisez `noindex` en HTML et supprimez la règle `Disallow` pour cette page dans robots.txt.
Vous trouverez ci-dessous un exemple de fichier robots.txt adapté à la plupart des sites web des PME :
# ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml📝 Note aux développeurs : Le fichier robots.txt doit se trouver à la racine du domaine — `https://example.com/robots.txt`. Il ne doit pas se trouver dans `/blog/robots.txt` ni dans aucun autre sous-répertoire. Chaque sous-domaine nécessite son propre fichier robots.txt (par exemple, `blog.example.com/robots.txt` est différent de `example.com/robots.txt`).
Saisissez https://ten-mien-cua-ban.com/robots.txt dans la barre d'adresse. Le contenu du fichier s'affichera au format texte. Si vous obtenez une erreur 404, cela signifie que le site web ne possède pas de fichier robots.txt.
Dans Search Console → Pages (ou Indexation ) → Recherchez l'entrée « Bloquée par robots.txt » . Si des pages importantes figurent dans cette liste, vous devez modifier le fichier robots.txt immédiatement.
💡 Vous devriez vérifier votre fichier robots.txt au moins une fois par trimestre ou chaque fois que votre site Web subit des changements majeurs (ajout de pages, modification de la structure, migration vers une autre plateforme).
| ✅ Vous devriez le bloquer. | ❌ NE PAS bloquer |
|---|---|
Page d'administration ( /admin/ , /wp-admin/ ) | Page d'accueil, page des services, page de contact |
| Page de test/de préparation | Article de blog |
Page de recherche interne ( /search? ) | Fichiers CSS et JavaScript |
URL avec paramètre de suivi ( ?utm_ , ?fbclid= ) | Images (Google Images génère également du trafic) |
| Panier d'achat, page de paiement, page de compte personnel | Plan du site |
| Pages de contenu dupliquées (filtrage, tri, pagination) | FAQ, étude de cas |
Quelle est la différence entre Robots.txt et sitemap ?
Le sitemap indique : « Voici la page que je veux faire connaître à Google. » Le fichier robots.txt indique : « Voici la page que je ne veux pas que Google explore. » Ces deux fichiers sont complémentaires : le sitemap donne les instructions, tandis que robots.txt définit les restrictions.
Sans fichier robots.txt, Google peut-il quand même explorer un site web ?
Oui. Sans fichier robots.txt, Google explorera toutes les pages par défaut, y compris celles que vous ne souhaitez pas indexer. C'est pourquoi ce fichier est indispensable.
J'utilise WordPress, où se trouve le fichier robots.txt ?
WordPress crée automatiquement un fichier robots.txt virtuel. Si vous utilisez une extension SEO comme Yoast ou Rank Math, vous pouvez modifier ce fichier directement depuis l'extension, sans accéder au serveur.
Le fichier robots.txt a-t-il une incidence sur la vitesse du site web ?
Non. Ce fichier ne pèse que quelques kilo-octets. Il n'a aucune incidence sur la vitesse de chargement de la page.
J'ai bloqué le site à l'aide du fichier robots.txt, alors pourquoi apparaît-il toujours dans les résultats de recherche Google ?
Le fichier robots.txt bloque uniquement l'exploration, pas l'indexation. Si vous souhaitez que la page disparaisse complètement de Google, utilisez la balise appropriée. en HTML - et ne bloquez pas cette page dans robots.txt (afin que Google puisse lire la balise noindex).
Après avoir modifié le fichier robots.txt, combien de temps faudra-t-il à Google pour effectuer la mise à jour ?
Google vérifie généralement votre fichier robots.txt sous 24 à 48 heures. Vous pouvez accéder à Search Console → Paramètres → Exploration pour demander à Google de le vérifier plus rapidement.
Le fichier robots.txt est petit — généralement quelques lignes seulement — mais il influence directement la façon dont Google trouve votre site web.
Points à retenir :
Le fichier robots.txt n'est qu'un des nombreux facteurs techniques qui influencent le référencement. Si vous vous demandez si votre site web est correctement configuré, la réponse se trouve dans la plateforme que vous utilisez.
GTG CRM vous aide à créer un site web avec un fichier robots.txt standard, un plan de site automatique et une structure technique optimisée pour Google – vous n'avez pas à vous soucier de modifier chaque fichier ou ligne de code.











