ティン・ディン
532 視聴回数
目次
サイトマップを作成し、Googleに送信して、ウェブサイトがインデックスされ始めたとします。ところが、ある日、管理ページ、内部決済ページ、またはウェブサイトのステージングページもGoogleの検索結果に表示されていることに気づきます。顧客が会社名を入力すると、未完成のテストページが表示されてしまうのです。
あるいはその逆で、新しいブログ記事を公開して2週間待っても、Googleの検索結果に表示されない。技術チームに問い合わせると、「robots.txtファイルがGoogleによるウェブサイト全体のクロールをブロックしている」と言われる。
どちらの状況も、ほとんどのウェブ管理者が注意を払わない小さなファイル、 robots.txtに関係しています。
この記事では、robots.txtとは何か、どのように機能するのか、いつ編集する必要があるのか、そして企業が避けるべきよくある間違いについて、すべて分かりやすい言葉と具体的な例を交えて解説します。
サイトマップが建物の図面のようなもので、Googleにどの部屋があるかを示すものだとすれば、 robots.txtは「立ち入り禁止区域」の標識のようなもので、Googleにどの部屋が立ち入り禁止であるかを知らせるものです。
技術的に言うと、robots.txtはウェブサイトのルートディレクトリにある小さなテキストファイルです(例: https://example.com/robots.txt )。このファイルには、Googlebotなどの検索エンジンボットに何をすべきかを指示するルールが含まれています。
ブラウザのアドレスバーにten-mien.com/robots.txt robots.txt」と入力すると、どのウェブサイトのrobots.txtファイルも表示できます。
💡重要:robots.txtはあくまで丁寧なリクエストであり、絶対的なアクセス禁止ではありません。Googlebotのような信頼できるボットはこれに従いますが、悪意のあるボット(スパム、スクレイパーなど)は無視する可能性があります。真のセキュリティが必要な場合は、パスワードやファイアウォールを使用してください。robots.txtに頼らないでください。
このファイルを一から作成する必要はありません。しかし、一目で理解できるように、簡単なrobots.txtファイルの例を以下に示します。
User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xml各行の説明:User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xml
| 現在 | 意味 |
|---|---|
User-agent: * | すべてのボット(Google、Bingなど)に適用されます。 |
Disallow: /admin/ | ボットが/admin/ディレクトリにアクセスできないようにします。 |
Disallow: /thanh-toan/ | ボットが決済ページにアクセスできないようにします。 |
Disallow: /staging/ | ステージング環境へのボットの侵入を禁止してください。 |
Allow: / | 残りの部分はボットにクロールさせましょう。 |
Sitemap: https://... | サイトマップの場所をボットに知らせる。 |
ブログ、サービスページ、管理画面を備えたビジネスウェブサイトに適した、より複雑な例を以下に示します。
# Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml📝# Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml
開発者向け注記:キャラクター
パス内のワイルドカード`/ ?utm_?utm_パラメータを含むすべてのURLをブロックすることを意味します。パスの末尾にある`$文字は、URLの末尾を正確に一致させるために使用されます。たとえば、Disallow: /*.pdf$はすべてのPDFファイルをブロックします。
---
robots.txtの役割を理解するために、Googleが検索結果でウェブサイトをランク付けするために使用するプロセスを振り返ってみましょう。
Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng)robots.txtは最初のステップであるクロールで動作します。Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng)
Googlebotはウェブサイト上のページをクロールする前に、まずrobots.txtファイルを確認します。URLがDisallowとしてリストされている場合、Googlebotはそのページをスキップし、クロールもコンテンツの読み取りも行いません。
Googlebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếmrobots.txtとサイトマップ:互いに補完し合う関係。Googlebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếm
| ファイル | 役割 |
|---|---|
| サイトマップ | 「これは、Googleに知ってもらいたいページの一覧です。」 |
| Robots.txt | 「これらは、Googleにクロールしてほしくないページです。」 |
これら2つのファイルは競合するものではなく、連携して機能します。サイトマップはサイトへの経路を示し、robots.txtは境界線を設定します。これらを正しく組み合わせることで、Googleがウェブサイト上で何を見て何を無視するかを制御できます。
管理ページ、CMSバックエンドページ、ステージングページ、テストページなど、これらのページはGoogle検索結果に表示されるべきではありません。robots.txtファイルでGoogleに「ここへはアクセスしないでください」と指示しています。
Disallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/2. 「クロール予算」を無駄にしないようにしましょう。Disallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/
Googleは無期限にクロールするわけではありません。各ウェブサイトには「クロール予算」と呼ばれる、Googlebotが1回の訪問でクロールするページ数が設定されています。ウェブサイトに重要度の低いページ(内部検索ページ、フィルタページ、ページネーションページなど)が多い場合、Googlebotは重要なサービスページやブログ記事ではなく、これらのページのクロールに時間を費やしてしまう可能性があります。
Disallow: /search? Disallow: /tag/ Disallow: /page/💡 クロールバジェットは、主に大規模なウェブサイト(数千ページ)にとって重要です。小規模なビジネスサイトは通常それほど心配する必要はありませんが、robots.txt をクリーンに保つことは良い習慣です。Disallow: /search? Disallow: /tag/ Disallow: /page/
ウェブサイトに同じコンテンツにリンクする複数のURLが存在する場合(例えば、トラッキングパラメータ?utm_source=facebook URLや、印刷版の?print=true含むURLなど)、これらの重複するURLをブロックできます。
Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print=4. サイトマップへの道順Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print=
Robots.txtは、Googlebotがウェブサイトを最初にチェックする場所です。ここにサイトマップを配置することで、Googleがサイトをより早く見つけられるようになります。たとえまだSearch Consoleに送信していなくても効果があります。
企業はいつrobots.txtに注意を払うべきでしょうか? Sitemap: https://example.com/sitemap.xmlrobots.txt を編集する必要は必ずしもありません。しかし、このファイルを確認することが必須となる場合もあります。
これは最も重要な局面です。開発チームがステージング中にGoogleが未完成バージョンをインデックスしないようにするために追加したDisallow: / 」という行を削除し忘れたため、多くのウェブサイトがクロールから完全にブロックされています。
本番稼働時のテスト:
| カテゴリ | 確認方法 |
|---|---|
| robots.txt ファイルは存在します。 | ブラウザでhttps://ten-mien.com/robots.txtを開いてください。 |
| ウェブサイト全体をブロックしないでください。 | Disallow: / |
| サイトマップが宣言されました。 | 以下の行が存在することを確認してくださいSitemap: https://ten-mien.com/sitemap.xml |
| 重要なページはブロックされていません。 | サービスページ、ブログ、または連絡先情報がDisallow |
既にサイトマップを作成し、Search Consoleにも送信済みであるにもかかわらず、Googleがインデックス登録しない場合は、まずrobots.txtファイルを確認してください。
ウェブサイトにアカウント管理ページ、会員専用エリア、または内部ページが含まれている場合は、robots.txt ファイルを更新してこれらのエリアへのアクセスをブロックしてください。
各プラットフォーム(WordPress、Webflow、カスタムコード)はそれぞれ異なるURL構造を生成します。移行時に、古いrobots.txtファイルが誤って新しいページをブロックしたり、ブロックすべきページを見落としたりする可能性があります。
Google Search Consoleには、robots.txtによってブロックされているページを示すインデックスレポートが用意されています。重要なページがブロックされている場合は、すぐにrobots.txtファイルを修正する必要があります。
症状: Googleにページがインデックスされない。Search Consoleで多数のページが「robots.txtによってブロックされています」と表示される。
理由: robots.txt ファイルの内容:
User-agent: Disallow: /この2行は「すべてのボットによるページへのアクセスをブロックする」という意味です。これは、開発者がステージング環境でこのルールを設定し、本番環境に移行する前に削除し忘れた場合によく発生します。User-agent: Disallow: /
解決策:変更:
User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xmlDisallow:User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xml
(コロンの後に何もない場合)=すべてのクロールを許可します。
⚠️これは新規ビジネスウェブサイトで最もよく見られるエラーです。修正後、Googleが再度クロールするまでに数日から数週間かかる場合があります。処理を早めるには、Search Consoleからサイトマップを再送信してください。
---
症状:ウェブサイトはブラウザ上では正常に表示されますが、Search Consoleの「URL検査」ツールを使用すると、Googleがページのレイアウトが壊れているか、空白になっていることを検出します。
理由: robots.txtがCSSとJSを含むフォルダをブロックしています。
Disallow: /wp-content/ Disallow: /wp-includes/Googleはページの見た目を理解するためにCSSとJavaScriptを読み取る必要があります(これを「レンダリング」と呼びます)。これがブロックされると、Googleはページをレンダリングできず、コンテンツを理解できないため、ランキングに影響が出ます。Disallow: /wp-content/ Disallow: /wp-includes/
解決方法:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/📝User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/
開発者向け注意: 2014年以降、Googleはrobots.txtでCSS、JS、画像をブロックすることを明確に推奨していません。Googlebotはページを正しくレンダリングするためにこれらのリソースを必要とします。Googleがページをどのようにレンダリングするかを確認するには、Search ConsoleのURL検査ツールを使用してください。
症状:サイトマップに記載されているにもかかわらず、サービスページ、製品ページ、またはブログ記事がGoogle検索結果に表示されない。
理由: robots.txt のルールが広すぎる。例:
この線はブロックするだけでなくDisallow: /dich-vu /dich-vu/だけでなく、 /dich-vu-thiet-ke-web/ 、 /dich-vu-seo/ 、および/dich-vuで始まるすべての URL も含まれます。
解決策:パスの末尾にスラッシュ/を追加して、特定のディレクトリをブロックします。
許可しない: /dich-vu-noi-bo/
または、 Allowを使用して必要なページを保護してください。
Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/📝Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/
開発者向け注意:
AllowとDisallowの順序は影響します。Googlebotは最も具体的なルール(最も具体的なパス)を使用します。長さが同じ場合は、AllowDisallowよりも優先されます。デプロイする前に、必ずSearch Consoleのロボットテストツールを使用してテストしてください。
症状: ten-mien.com/robots.txtと入力すると、404 エラーが返されます。
理由:ウェブサイトは手動で構築されたため、開発者がこのファイルを作成しませんでした。または、デプロイ中に誤ってファイルが削除された可能性があります。
影響:エラー1ほど深刻ではない。robots.txtがない場合、Googleはデフォルトで全てをクロールする。しかし、これは次のことを意味する。
解決策:ルートディレクトリにrobots.txtファイルを作成します。最小限の内容:
User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml---User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml
症状: Disallowを使用してページをブロックしたにもかかわらず、そのページがコンテンツスニペットなしでもGoogleに表示されてしまう。
理由: robots.txtはクロールをブロックしますが、インデックス登録はブロックしません。ページが既にインデックス登録されている場合、または他のウェブサイトからバックリンクされている場合、Googleは検索結果にそのURLを残す可能性がありますが、コンテンツは表示されません。
正しい修正方法:
| ターゲット | 使用するもの |
|---|---|
| Googleに私のサイトをクロールしてほしくない。 | robots.txtでDisallow |
| Googleにコンテンツをインデックス登録(表示)されたくない。 | カードHTMLで |
| 両方ともいらない。 | HTMLではnoindex使用してください(robots.txtではブロックしないでください)。 |
⚠️ よくある誤解ですが、robots.txt でクロールをブロックし、さらに HTML で
noindexを設定した場合、Google はそのページをクロールしないため noindex タグを認識せず、ページがインデックス登録される可能性があります。解決策は、HTML でnoindex使用し、robots.txt でそのページのDisallowルールを削除することです。
以下は、ほとんどの中小企業向けウェブサイトに適したrobots.txtファイルのサンプルです。
# ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml📝# ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml
開発者向け注意: robots.txt ファイルはルートドメイン(
https://example.com/robots.txt)に配置する必要があります/blog/robots.txtやその他のサブディレクトリには配置しないでください。各サブドメインには独自の robots.txt ファイルが必要です(例えば、blog.example.com/robots.txtrobots.txt はexample.com/robots.txtとは別です)。
アドレスバーにhttps://ten-mien-cua-ban.com/robots.txtと入力してください。ファイルの内容がテキスト形式で表示されます。404エラーが表示された場合は、そのウェブサイトにrobots.txtファイルが存在しないことを意味します。
Search Console →ページ(またはインデックス作成)→ 「robots.txt によってブロックされています」という項目を探します。このリストに重要なページが含まれている場合は、robots.txt をすぐに編集する必要があります。
💡 robots.txt は少なくとも四半期に一度、またはウェブサイトに大きな変更(ページの追加、構造の変更、別のプラットフォームへの移行など)があった際には必ず確認してください。
| ✅ ブロックするべきです。 | ❌ ブロックしないでください |
|---|---|
管理ページ( /admin/ 、 /wp-admin/ ) | ホームページ、サービスページ、お問い合わせページ |
| ステージング/テストページ | ブログ記事、記事 |
内部検索ページ( /search? ) | CSSファイルとJavaScriptファイル |
トラッキングパラメータを含むURL( ?utm_ 、? ?fbclid= ) | 画像(Google画像検索もトラフィック増加につながる) |
| ショッピングカート、チェックアウト、個人アカウントページ | サイトマップ |
| 重複コンテンツページ(フィルタリング、ソート、ページネーション) | よくある質問ページ、事例紹介 |
---
Robots.txtとサイトマップの違いは何ですか?
サイトマップは「これはGoogleに知ってほしいページです」と指示し、robots.txtは「これはGoogleにクロールしてほしくないページです」と指示します。この2つのファイルは互いに補完し合い、サイトマップはページへの道順を示し、robots.txtはクロール範囲を制限する役割を果たします。
robots.txtファイルがなくても、Googleはウェブサイトをクロールできますか?
はい。robots.txtファイルがない場合、Googleはデフォルトで全てのページをクロールします。つまり、あなたが望まないページもクロールしてしまうのです。だからこそ、このファイルを用意しておく必要があるのです。
WordPressを使っているのですが、robots.txtファイルはどこにありますか?
WordPressは自動的に仮想的なrobots.txtファイルを作成します。YoastやRank MathなどのSEOプラグインを使用している場合は、サーバーにアクセスすることなく、プラグイン内でrobots.txtファイルを直接編集できます。
robots.txtファイルはウェブサイトの速度に影響しますか?
いいえ。このファイルはわずか数KBのサイズです。ページの読み込み速度には影響しません。
robots.txtを使ってそのサイトをブロックしたのに、なぜまだGoogleで上位表示されるのですか?
robots.txtはクロールをブロックするだけで、インデックス登録はブロックしません。ページをGoogleから完全に削除したい場合は、タグを使用してください。 HTML で記述し、robots.txt でそのページをブロックしないでください(Google が noindex タグを読み取れるように)。
robots.txtファイルを編集した後、Googleがそれを更新するまでどれくらい時間がかかりますか?
Googleは通常、robots.txtを24~48時間以内にチェックします。より早くチェックするようGoogleにリクエストするには、Search Console → 設定 → クロールにアクセスしてください。
robots.txtは小さなファイルで、通常は数行しかありませんが、Googleがあなたのウェブサイトを見つけるかどうかに直接影響します。
覚えておくべきこと:
robots.txtは、SEOに影響を与える多くの技術的要因の1つにすぎません。「自分のウェブサイトは正しく設定されているのだろうか?」と疑問に思うなら、その答えは使用しているプラットフォームにあります。
GTG CRMは、標準的なrobots.txtファイル、自動サイトマップ、そしてGoogleに対応した技術構造を備えたウェブサイトの作成を支援します。個々のファイルやコード行を編集する必要はありません。











