Robots.txtとは？企業向けガイド

サイトマップを作成し、Googleに送信して、ウェブサイトがインデックスされ始めたとします。ところが、ある日、管理ページ、内部決済ページ、またはウェブサイトのステージングページもGoogleの検索結果に表示されていることに気づきます。顧客が会社名を入力すると、未完成のテストページが表示されてしまうのです。

あるいはその逆で、新しいブログ記事を公開して2週間待っても、Googleの検索結果に表示されない。技術チームに問い合わせると、「robots.txtファイルがGoogleによるウェブサイト全体のクロールをブロックしている」と言われる。

どちらの状況も、ほとんどのウェブ管理者が注意を払わない小さなファイル、 robots.txtに関係しています。

この記事では、robots.txtとは何か、どのように機能するのか、いつ編集する必要があるのか、そして企業が避けるべきよくある間違いについて、すべて分かりやすい言葉と具体的な例を交えて解説します。

Robots.txtとは何か？ウェブ管理者向けの解説。

サイトマップが建物の図面のようなもので、Googleにどの部屋があるかを示すものだとすれば、 robots.txtは「立ち入り禁止区域」の標識のようなもので、Googleにどの部屋が立ち入り禁止であるかを知らせるものです。

技術的に言うと、robots.txtはウェブサイトのルートディレクトリにある小さなテキストファイルです（例： https://example.com/robots.txt ）。このファイルには、Googlebotなどの検索エンジンボットに何をすべきかを指示するルールが含まれています。

どのページがクロール対象として許可されていますか？
どのページがクロール対象外ですか？
サイトマップはどこにありますか？

ブラウザのアドレスバーにten-mien.com/robots.txt robots.txt」と入力すると、どのウェブサイトのrobots.txtファイルも表示できます。

💡重要：robots.txtはあくまで丁寧なリクエストであり、絶対的なアクセス禁止ではありません。Googlebotのような信頼できるボットはこれに従いますが、悪意のあるボット（スパム、スクレイパーなど）は無視する可能性があります。真のセキュリティが必要な場合は、パスワードやファイアウォールを使用してください。robots.txtに頼らないでください。

robots.txtファイルはどのような内容ですか？

このファイルを一から作成する必要はありません。しかし、一目で理解できるように、簡単なrobots.txtファイルの例を以下に示します。

 User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xml

各行の説明：

現在	意味
`User-agent: *`	すべてのボット（Google、Bingなど）に適用されます。
`Disallow: /admin/`	ボットが`/admin/`ディレクトリにアクセスできないようにします。
`Disallow: /thanh-toan/`	ボットがチェックアウトページにアクセスできないようにします。
`Disallow: /staging/`	ステージング環境へのボットの侵入を禁止してください。
`Allow: /`	残りの部分はボットにクロールさせましょう。
`Sitemap: https://...`	サイトマップの場所をボットに知らせる。

ブログ、サービスページ、管理画面を備えたビジネスウェブサイトに適した、より複雑な例を以下に示します。

 # Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml

📝開発者向け注記:パス内の「`」文字はワイルドカードです。`/ ?utm_` は、`?utm_` パラメータを含むすべての URL をブロックすることを意味します。パスの末尾にある `$` 文字は、URL の完全一致に使用されます。例: `Disallow: /*.pdf$` は、すべての PDF ファイルをブロックします。

SEOプロセスにおいて、robots.txtはどのように機能するのでしょうか？

robots.txtの役割を理解するために、Googleが検索結果でウェブサイトをランク付けするために使用するプロセスを振り返ってみましょう。

 Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng)

robots.txtは最初のステップであるクロールで動作します。

Googlebotはウェブサイト上のページをクロールする前に、まずrobots.txtファイルを確認します。URLがDisallowとしてリストされている場合、Googlebotはそのページをスキップし、クロールもコンテンツの読み取りも行いません。

 Googlebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếm

robots.txtとサイトマップ：互いに補完し合う関係。

ファイル	役割
サイトマップ	「これは、Googleに知ってもらいたいページの一覧です。」
Robots.txt	「これらは、Googleにクロールしてほしくないページです。」

これら2つのファイルは競合するものではなく、連携して機能します。サイトマップはサイトへの経路を示し、robots.txtは境界線を設定します。これらを正しく組み合わせることで、Googleがウェブサイト上で何を見て何を無視するかを制御できます。

robots.txtは何のために使われるのか？よくある4つのシナリオ。

1. 管理ページと内部ページをGoogleから非表示にする。

管理ページ、CMSバックエンドページ、ステージングページ、テストページなど、これらのページはGoogle検索結果に表示されるべきではありません。robots.txtはGoogleに対し「ここにはアクセスしないでください」と指示しています。

 Disallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/

2. 「クロール予算」を無駄にしないようにしましょう。

Googleは無期限にクロールするわけではありません。各ウェブサイトには「クロール予算」と呼ばれる、Googlebotが1回の訪問でクロールするページ数が設定されています。ウェブサイトに重要度の低いページ（内部検索ページ、フィルタページ、ページネーションページなど）が多い場合、Googlebotは重要なサービスページやブログ記事ではなく、これらのページのクロールに時間を費やしてしまう可能性があります。

 Disallow: /search? Disallow: /tag/ Disallow: /page/

💡 クロールバジェットは、主に大規模なウェブサイト（数千ページ）にとって重要です。小規模なビジネスサイトは通常それほど心配する必要はありませんが、robots.txt をクリーンに保つことは良い習慣です。

3. 重複コンテンツをブロックする

ウェブサイトに同じコンテンツにリンクする複数のURLが存在する場合（例えば、トラッキングパラメータ?utm_source=facebook URLや、印刷版の?print=true含むURLなど）、これらの重複するURLをブロックできます。

 Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print=

4. サイトマップへの道順

Robots.txtは、Googlebotがウェブサイトを最初にチェックする場所です。ここにサイトマップを配置することで、Googleがサイトをより早く見つけられるようになります。たとえまだSearch Consoleに送信していなくても効果があります。

 Sitemap: https://example.com/sitemap.xml

企業はいつrobots.txtに注意を払うべきでしょうか？

robots.txt を編集する必要は必ずしもありません。しかし、このファイルを確認することが必須となる場合もあります。

新しいウェブサイトが公開されたら

これは最も重要な局面です。開発チームがステージング中にGoogleが未完成バージョンをインデックスしないようにするために追加したDisallow: / 」という行を削除し忘れたため、多くのウェブサイトがクロールから完全にブロックされています。

本番稼働時のテスト：

カテゴリ	確認方法
robots.txt ファイルは存在します。	ブラウザで`https://ten-mien.com/robots.txt`を開いてください。
ウェブサイト全体をブロックしないでください。	`Disallow: /`
サイトマップが宣言されました。	以下の行が存在することを確認してください`Sitemap: https://ten-mien.com/sitemap.xml`
重要なページはブロックされていません。	サービスページ、ブログ、または連絡先情報が`Disallow`

✅ 数週間経ってもウェブサイトがGoogleにインデックスされない場合

既にサイトマップを作成し、Search Consoleにも送信済みであるにもかかわらず、Googleがインデックス登録しない場合は、まずrobots.txtファイルを確認してください。

非表示にする領域を追加する場合（メンバーページ、内部ページなど）

ウェブサイトにアカウント管理ページ、会員専用エリア、または内部ページが含まれている場合は、robots.txt ファイルを更新してこれらのエリアへのアクセスをブロックしてください。

ウェブサイトのプラットフォームを変更したり、デザインをリニューアルしたりする場合

各プラットフォーム（WordPress、Webflow、カスタムコード）はそれぞれ異なるURL構造を生成します。移行時に、古いrobots.txtファイルが誤って新しいページをブロックしたり、ブロックすべきページを見落としたりする可能性があります。

Search Console が「robots.txt によってブロックされました」というエラーを報告する場合

Google Search Consoleには、robots.txtによってブロックされているページを示すインデックスレポートが用意されています。重要なページがブロックされている場合は、すぐにrobots.txtファイルを修正する必要があります。

robots.txtでよくある5つのエラーとその修正方法。

エラー1：ウェブサイト全体をブロックする - 最も深刻なエラー。

症状： Googleにページがインデックスされない。Search Consoleで多数のページが「robots.txtによってブロックされています」と表示される。

理由： robots.txt ファイルの内容：

 User-agent: Disallow: /

この2行は「すべてのボットによるページへのアクセスをブロックする」という意味です。これは、開発者がステージング中にこのルールを設定し、本番環境に移行する前に削除するのを忘れた場合によく発生します。

解決策：変更：

 User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xml

Disallow: (コロンの後に何も指定しない場合) = すべてのクロールを許可します。

⚠️これは新規ビジネスウェブサイトで最もよく見られるエラーです。修正後、Googleが再度クロールするまでに数日から数週間かかる場合があります。処理を早めるには、Search Consoleからサイトマップを再送信してください。

エラー2：CSSとJavaScriptのブロック

症状：ウェブサイトはブラウザ上では正常に表示されますが、Search Consoleの「URL検査」ツールを使用すると、Googleがページのレイアウトが壊れているか、空白になっていることを検出します。

理由： robots.txtがCSSとJSを含むフォルダをブロックしています。

 Disallow: /wp-content/ Disallow: /wp-includes/

Googleはページの見た目を理解するためにCSSとJavaScriptを読み取る必要があります（これを「レンダリング」と呼びます）。これがブロックされると、Googleはページをレンダリングできず、コンテンツを理解できないため、ランキングに影響が出ます。

解決方法：

 User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/

📝開発者向け注意： 2014年以降、Googleはrobots.txtでCSS、JS、画像をブロックしないことを明確に推奨しています。Googlebotはページを正しくレンダリングするためにこれらのリソースを必要とします。Search ConsoleのURL検査ツールを使用して、Googleがページをどのようにレンダリングするかを確認してください。

エラー3：誤って重要なページをブロックしてしまいました。

症状：サイトマップには記載されているにもかかわらず、サービスページ、製品ページ、またはブログ記事がGoogle検索結果に表示されない。

理由： robots.txt のルールが広範すぎる。例：

 Disallow: /dich-vu

この行は/dich-vu/だけでなく、 /dich-vu-thiet-ke-web/ 、 /dich-vu-seo/ 、および/dich-vuで始まるすべての URL もブロックします。

解決策：パスの末尾にスラッシュ/を追加して、特定のディレクトリをブロックします。

許可しない: /dich-vu-noi-bo/

または、 Allowを使用して必要なページを保護してください。

 Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/

📝開発者向け注意: `Allow` と `Disallow` の順序は影響します。Googlebot は最も具体的なルール (最も具体的なパス) を使用します。長さが同じ場合は `Allow` が `Disallow` より優先されます。デプロイする前に、必ず Search Console の [Robots Testing Tool](https://support.google.com/webmasters/answer/6062598) を使用してテストしてください。

エラー4：robots.txtファイルが見つかりません

症状： ten-mien.com/robots.txtと入力すると、404 エラーが返されます。

理由：ウェブサイトは手動で構築されたため、開発者がこのファイルを作成しませんでした。または、デプロイ中に誤ってファイルが削除された可能性があります。

影響：エラー1ほど深刻ではない。robots.txtがない場合、Googleはデフォルトで全てをクロールする。しかし、これは次のことを意味する。

Googleは、管理ページ、テストページ、および内部ページをクロールします。
robots.txt を使ってユーザーをサイトマップに誘導する方法はありません。
基本的な制御機能の欠如

解決策：ルートディレクトリにrobots.txtファイルを作成します。最小限の内容：

 User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml

エラー5：robots.txtを使用してGoogleからページを非表示にしようとしています（目的の誤解）。

症状： Disallowを使用してページをブロックしたにもかかわらず、そのページがコンテンツスニペットなしでもGoogleに表示されてしまう。

理由： robots.txtはクロールをブロックしますが、インデックス登録はブロックしません。ページが既にインデックス登録されている場合、または他のウェブサイトからバックリンクされている場合、Googleは検索結果にそのURLを残す可能性がありますが、コンテンツは表示されません。

正しい修正方法：

ターゲット	使用するもの
Googleに私のサイトをクロールしてほしくない。	robots.txtで`Disallow`
Googleにコンテンツをインデックス登録（表示）されたくない。	カードHTMLで
両方ともいらない。	HTMLでは`noindex`使用してください（robots.txtではブロックしないでください）。

⚠️ よくある誤解ですが、robots.txt でクロールをブロックし、HTML で `noindex` タグを使用すると、Google はそのページをクロールしないため、noindex タグを認識せず、ページがインデックスされる可能性があります。解決策は、HTML で `noindex` タグを使用し、robots.txt でそのページの `Disallow` ルールを削除することです。

ビジネスウェブサイト向けのrobots.txtテンプレート

以下は、ほとんどの中小企業向けウェブサイトに適したrobots.txtファイルのサンプルです。

 # ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml

📝開発者向け注意: robots.txt ファイルはルートドメイン (`https://example.com/robots.txt`) に配置する必要があります。`/blog/robots.txt` やその他のサブディレクトリには配置しないでください。各サブドメインには独自の robots.txt ファイルが必要です (たとえば、`blog.example.com/robots.txt` は `example.com/robots.txt` とは別です)。

ウェブサイトのrobots.txtファイルを確認する方法

方法1：ブラウザで直接確認する。

アドレスバーにhttps://ten-mien-cua-ban.com/robots.txtと入力してください。ファイルの内容がテキスト形式で表示されます。404エラーが表示された場合は、そのウェブサイトにrobots.txtファイルが存在しないことを意味します。

方法2：Googleサーチコンソールを使用する

Google Search Consoleにログインする
設定→クローリング→ robots.txtに移動してください。
Googleが読み込んでいるrobots.txtファイルを確認してください。
該当のURLがブロックされていないか確認してください。

方法3：インデックス作成レポートを確認する

Search Console →ページ（またはインデックス作成）→ 「robots.txt によってブロックされています」という項目を探します。このリストに重要なページが含まれている場合は、robots.txt をすぐに編集する必要があります。

💡 robots.txt は少なくとも四半期に一度、またはウェブサイトに大きな変更（ページの追加、構造の変更、別のプラットフォームへの移行など）があった際には必ず確認してください。

要約：robots.txtでブロックすべきものとブロックすべきでないものは何ですか？

✅ ブロックするべきです。	❌ ブロックしないでください
管理ページ（ `/admin/` 、 `/wp-admin/` ）	ホームページ、サービスページ、お問い合わせページ
ステージング/テストページ	ブログ記事、記事
内部検索ページ（ `/search?` ）	CSSファイルとJavaScriptファイル
トラッキングパラメータを含むURL（ `?utm_` 、? `?fbclid=` ）	画像（Google画像検索もトラフィック増加につながる）
ショッピングカート、チェックアウト、個人アカウントページ	サイトマップ
重複コンテンツページ（フィルタリング、ソート、ページネーション）	よくある質問ページ、事例紹介

robots.txtに関するよくある質問

Robots.txtとサイトマップの違いは何ですか？

サイトマップは「これはGoogleに知ってほしいページです」と指示し、robots.txtは「これはGoogleにクロールしてほしくないページです」と指示します。この2つのファイルは互いに補完し合い、サイトマップはページへの道順を示し、robots.txtはクロール範囲を制限する役割を果たします。

robots.txtファイルがなくても、Googleはウェブサイトをクロールできますか？

はい。robots.txtファイルがない場合、Googleはデフォルトで全てのページをクロールします。つまり、あなたが望まないページもクロールしてしまうのです。だからこそ、このファイルを用意しておく必要があるのです。

WordPressを使っているのですが、robots.txtファイルはどこにありますか？

WordPressは自動的に仮想的なrobots.txtファイルを作成します。YoastやRank MathなどのSEOプラグインを使用している場合は、サーバーにアクセスすることなく、プラグイン内でrobots.txtファイルを直接編集できます。

robots.txtファイルはウェブサイトの速度に影響しますか？

いいえ。このファイルはわずか数KBのサイズです。ページの読み込み速度には影響しません。

robots.txtを使ってそのサイトをブロックしたのに、なぜまだGoogleで上位表示されるのですか？

robots.txtはクロールをブロックするだけで、インデックス登録はブロックしません。ページをGoogleから完全に削除したい場合は、タグを使用してください。 HTML で記述し、robots.txt でそのページをブロックしないでください(Google が noindex タグを読み取れるように)。

robots.txtファイルを編集した後、Googleがそれを更新するまでどれくらい時間がかかりますか？

Googleは通常、robots.txtを24～48時間以内にチェックします。より早くチェックするようGoogleにリクエストするには、Search Console → 設定 → クロールにアクセスしてください。

結論する

robots.txtは小さなファイルで、通常は数行しかありませんが、Googleがあなたのウェブサイトを見つけるかどうかに直接影響します。

覚えておくべきこと：

robots.txtは「制限区域」を示す標識のようなもので、Googleに対してどのページをクロールしてはいけないかを指示します。
ウェブサイトが公開されたらすぐに確認してください。ウェブサイト全体がブロックされるエラーは、最も一般的で深刻なエラーです。
robots.txt を使用して Google からページを隠さないでください。クロールはブロックされますが、インデックス登録はブロックされません。
CSSとJSは常に許可してください。Googleがページをレンダリングしてコンテンツを理解する必要があるためです。
これをサイトマップとサーチコンソールと組み合わせることで、 Googleがウェブサイトをクロールしてインデックスする方法を完全に制御できるようになります。