Robots.txt란 무엇일까요? 기업을 위한 가이드

사이트맵을 만들고 구글에 제출해서 웹사이트 색인 작업이 시작됐습니다. 그런데 어느 날 관리자 페이지, 내부 결제 페이지, 또는 웹사이트 스테이징 페이지까지 구글 검색 결과에 나타나는 것을 발견했습니다. 고객들이 회사 이름을 입력하면 미완성 테스트 페이지가 표시되는 것입니다.

또는 그 반대로, 새 블로그 게시물을 올리고 2주를 기다렸는데도 구글 검색 결과에 나타나지 않는 경우가 있습니다. 기술팀에 문의했더니 "robots.txt 파일 때문에 구글이 웹사이트 전체를 크롤링하지 못하고 있습니다."라는 답변을 받았습니다.

두 상황 모두 웹 관리자들이 거의 신경 쓰지 않는 작은 파일인 robots.txt와 관련이 있습니다.

이 글에서는 robots.txt가 무엇인지, 어떻게 작동하는지, 언제 수정해야 하는지, 그리고 기업에서 피해야 할 일반적인 실수들을 쉽고 실용적인 예시와 함께 설명합니다.

Robots.txt란 무엇일까요? 웹 관리자를 위한 설명입니다.

사이트맵이 건물의 도면과 같아서 구글에게 어떤 방들이 있는지 보여주는 것이라면, robots.txt는 "출입 금지 구역" 표지판과 같아서 구글에게 어떤 방 에 접근하면 안 되는지 알려주는 것입니다.

기술적인 용어로 설명하자면, robots.txt는 웹사이트의 루트 디렉터리에 있는 작은 텍스트 파일입니다(예: https://example.com/robots.txt ). 이 파일에는 Googlebot과 같은 검색 엔진 봇에게 수행해야 할 작업을 알려주는 규칙이 포함되어 있습니다.

크롤링이 허용되는 페이지는 무엇인가요?
크롤링이 허용되지 않는 페이지는 무엇인가요?
사이트맵은 어디에 있나요?

웹 브라우저에 ten-mien.com/robots.txt 입력하면 모든 웹사이트의 robots.txt 파일을 볼 수 있습니다.

💡 중요: robots.txt는 단순한 요청 일 뿐 절대적인 차단 조치가 아닙니다. Googlebot과 같은 신뢰할 수 있는 봇은 이를 준수하지만, 악성 봇(스팸, 스크래퍼)은 무시할 수 있습니다. 진정한 보안이 필요하다면 비밀번호나 방화벽을 사용하세요. robots.txt에만 의존하지 마십시오.

robots.txt 파일은 어떻게 생겼나요?

이 파일을 처음부터 작성할 필요는 없습니다. 하지만 한눈에 이해하기 쉽도록 간단한 robots.txt 파일을 예시로 보여드리겠습니다.

 User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xml

각 줄에 대한 설명:

현재의	의미
`User-agent: *`	모든 봇(구글, 빙 등)에 적용됩니다.
`Disallow: /admin/`	봇이 `/admin/` 디렉토리에 접근하지 못하도록 차단하세요.
`Disallow: /thanh-toan/`	봇이 결제 페이지에 접근하는 것을 차단하세요.
`Disallow: /staging/`	봇이 스테이징 환경에 접근하지 못하도록 하세요.
`Allow: /`	나머지 부분은 봇이 크롤링하도록 두세요.
`Sitemap: https://...`	봇에게 사이트맵의 위치를 알려주세요.

다음은 블로그, 서비스 페이지 및 관리자 영역을 갖춘 비즈니스 웹사이트에 적합한 좀 더 복잡한 예입니다.

 # Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml

📝 개발자 참고: 경로의 ` ` 문자는 와일드카드입니다. `/ ?utm_`는 `?utm_` 매개변수를 포함하는 모든 URL을 차단합니다. 경로 끝의 `$` 문자는 URL과 정확히 일치하는 항목을 차단하는 데 사용됩니다. 예를 들어, `Disallow: /*.pdf$`는 모든 PDF 파일을 차단합니다.

Robots.txt는 SEO 과정에서 어떤 역할을 하나요?

robots.txt의 역할을 이해하기 위해 구글이 검색 결과에서 웹사이트 순위를 매기는 과정을 살펴보겠습니다.

 Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng)

Robots.txt는 첫 번째 단계인 크롤링에서 작동합니다.

Googlebot은 웹사이트의 페이지를 크롤링하기 전에 먼저 robots.txt 파일을 확인합니다 . URL이 Disallow 으로 표시되어 있으면 Googlebot은 해당 페이지를 건너뛰고 콘텐츠를 읽지 않습니다.

 Googlebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếm

Robots.txt와 사이트맵: 서로 보완적인 관계.

파일	역할
사이트맵	"이것은 제가 구글에 알리고 싶은 페이지 목록입니다."
로봇.txt	"이 페이지들은 구글이 크롤링 하지 않도록 하고 싶은 페이지들입니다."

이 두 파일은 충돌하지 않고 서로 협력합니다. 사이트맵은 지침을 제공하고, robots.txt는 검색 엔진 최적화(SEO)를 위한 기준을 설정합니다. 이 두 파일을 올바르게 조합하면 구글이 웹사이트에서 무엇을 보고 무엇을 무시할지 제어할 수 있습니다.

Robots.txt는 무엇에 사용될까요? 일반적인 4가지 시나리오를 살펴보세요.

1. 관리자 페이지와 내부 페이지를 구글 검색 결과에서 숨깁니다.

관리자 페이지, CMS 백엔드 페이지, 스테이징 페이지, 테스트 페이지 등은 모두 구글 검색 결과에 나타나서는 안 됩니다. Robots.txt 파일은 구글에게 "이곳에 접근하지 마세요"라고 알려줍니다.

 Disallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/

2. "크롤링 예산"을 낭비하지 마세요.

구글은 무한정 크롤링을 하지 않습니다. 각 웹사이트에는 "크롤링 예산"이 있는데, 이는 구글봇이 방문할 때마다 크롤링할 페이지 수를 의미합니다. 웹사이트에 중요하지 않은 페이지(내부 검색 페이지, 필터 페이지, 페이지네이션 페이지 등)가 많으면 구글봇은 중요한 서비스 페이지나 블로그 게시물 대신 이러한 페이지를 크롤링하는 데 시간을 더 많이 할애할 수 있습니다.

 Disallow: /search? Disallow: /tag/ Disallow: /page/

💡 크롤링 예산은 주로 대규모 웹사이트(수천 페이지)에 중요합니다. 소규모 비즈니스 웹사이트는 일반적으로 크게 신경 쓸 필요는 없지만, robots.txt 파일을 깔끔하게 유지하는 것은 여전히 좋은 습관입니다.

3. 중복 콘텐츠 차단

웹사이트에 동일한 콘텐츠로 연결되는 URL이 여러 개 있는 경우(예: 추적 매개변수 ?utm_source=facebook 포함된 URL 또는 인쇄 버전 ?print=true 포함된 URL) 이러한 중복 URL을 차단할 수 있습니다.

 Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print=

4. 사이트맵으로 가는 길

robots.txt는 Googlebot이 웹사이트를 확인할 때 가장 먼저 살펴보는 파일입니다. 사이트맵을 robots.txt에 추가하면 Google이 웹사이트를 더 빠르게 찾을 수 있습니다. Google Search Console에 사이트맵을 제출하지 않았더라도 마찬가지입니다.

 Sitemap: https://example.com/sitemap.xml

기업은 언제 robots.txt 파일에 주의를 기울여야 할까요?

robots.txt 파일을 항상 수정할 필요는 없습니다. 하지만 이 파일을 확인하는 것이 필수적인 경우가 있습니다.

새 웹사이트가 공개되면

지금이 가장 중요한 순간입니다. 개발팀이 Disallow: / "라는 줄을 삭제하는 것을 잊어버려서 많은 웹사이트가 크롤링에서 완전히 차단되었습니다. 이 줄은 구글이 미완성 버전을 색인화하지 못하도록 스테이징 단계에서 추가된 것입니다.

실제 서비스 출시 시 테스트 예정:

범주	확인 방법
robots.txt 파일이 존재합니다.	브라우저에서 `https://ten-mien.com/robots.txt` 여세요.
웹사이트 전체를 차단하지 마세요.	`Disallow: /`
사이트맵이 선언되었습니다.	다음 줄이 있는지 확인하십시오 `Sitemap: https://ten-mien.com/sitemap.xml`
중요 페이지는 차단되지 않습니다.	서비스 페이지, 블로그 또는 연락처 정보가 '허용 안 `Disallow`

✅ 웹사이트가 몇 주가 지나도 구글에 색인되지 않는 경우

이미 사이트맵을 생성하고 검색 콘솔에 제출했는데도 Google이 여전히 색인을 생성하지 않는다면, robots.txt 파일을 먼저 확인해 보세요.

숨길 영역을 추가할 때 (회원 페이지, 내부 페이지 등)

웹사이트에 계정 관리 페이지, 회원 영역 또는 내부 페이지가 포함되어 있는 경우, robots.txt 파일을 업데이트하여 이러한 영역을 차단하십시오.

웹사이트 플랫폼을 변경하거나 재설계할 때

각 플랫폼(WordPress, Webflow, 사용자 정의 코드)은 서로 다른 URL 구조를 생성합니다. 마이그레이션 과정에서 기존 robots.txt 파일이 새 페이지를 잘못 차단하거나 차단해야 할 페이지를 누락할 수 있습니다.

검색 콘솔에서 "robots.txt에 의해 차단됨" 오류가 표시되는 경우

Google 검색 콘솔은 robots.txt 파일에 의해 차단된 페이지를 보여주는 색인 생성 보고서를 제공합니다. 중요한 페이지가 차단된 것을 발견했다면 즉시 해당 파일을 수정해야 합니다.

robots.txt에서 흔히 발생하는 5가지 오류와 해결 방법.

오류 1: 웹사이트 전체 차단 - 가장 심각한 오류입니다.

증상: Google에서 페이지가 전혀 색인되지 않습니다. 검색 콘솔에서 여러 페이지가 "robots.txt에 의해 차단됨"으로 표시됩니다.

이유: robots.txt 파일에 다음 내용이 포함되어 있습니다.

 User-agent: Disallow: /

이 두 줄은 "모든 봇이 모든 페이지에 접근하지 못하도록 차단"하는 것을 의미합니다. 개발자가 스테이징 환경에서 이 규칙을 설정하고 실제 운영 환경으로 배포하기 전에 제거하는 것을 잊어버리는 경우에 종종 발생합니다.

해결 방법: 다음과 같이 변경하세요.

 User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xml

Disallow: (콜론 뒤에 아무것도 없음) = 모든 크롤링을 허용합니다.

⚠️ 이는 신규 비즈니스 웹사이트에서 가장 흔하게 발견되는 오류입니다. 이 오류를 수정하더라도 Google이 다시 크롤링하는 데 며칠에서 몇 주가 걸릴 수 있습니다. 검색 콘솔을 통해 사이트맵을 다시 제출하면 크롤링 속도를 높일 수 있습니다.

오류 2: CSS 및 JavaScript 차단

증상: 웹사이트는 브라우저에서 정상적으로 표시되지만, 검색 콘솔의 "URL 검사" 도구를 사용하면 Google에서 페이지 레이아웃이 깨졌거나 비어 있는 것으로 감지합니다.

이유: Robots.txt 파일이 CSS 및 JS 파일이 포함된 폴더의 접근을 차단하고 있습니다.

 Disallow: /wp-content/ Disallow: /wp-includes/

구글은 페이지의 모양을 이해하기 위해 CSS와 JavaScript를 읽어야 합니다(이를 "렌더링"이라고 합니다). 만약 이것이 차단되면 구글은 페이지를 렌더링할 수 없게 되고, 콘텐츠를 이해하지 못하게 되어 검색 순위에 영향을 미칩니다.

해결 방법:

 User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/

📝 개발자 참고: Google은 2014년부터 robots.txt 파일에서 CSS, JavaScript 및 이미지를 차단하지 말 것을 명확히 권장해 왔습니다. Googlebot은 페이지를 올바르게 렌더링하기 위해 이러한 리소스가 필요합니다. 검색 콘솔의 URL 검사 도구를 사용하여 Google이 페이지를 어떻게 렌더링하는지 확인하세요.

오류 3: 중요한 페이지를 실수로 차단했습니다.

증상: 사이트맵에는 서비스 페이지, 제품 페이지 또는 블로그 게시물이 포함되어 있음에도 불구하고 Google 검색 결과에 나타나지 않습니다.

이유: robots.txt 파일의 규칙이 너무 포괄적입니다. 예를 들면 다음과 같습니다.

 Disallow: /dich-vu

이 줄은 /dich-vu/ 뿐만 아니라 /dich-vu-thiet-ke-web/ , /dich-vu-seo/ 및 /dich-vu 로 시작하는 모든 URL을 차단합니다.

해결 방법: 특정 디렉토리를 차단하려면 경로 끝에 슬래시 / 를 추가하세요.

금지: /dich-vu-noi-bo/

또는 Allow 사용하여 필요한 페이지를 보호하세요.

 Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/

📝 개발자 참고: `허용`과 `차단` 규칙의 순서는 중요합니다. Googlebot은 가장 구체적인 규칙(가장 구체적인 경로)을 사용합니다. 두 규칙의 길이가 같을 경우 `허용`이 `차단`보다 우선합니다. 배포하기 전에 항상 검색 콘솔의 [로봇 테스트 도구](https://support.google.com/webmasters/answer/6062598)를 사용하여 테스트하십시오.

오류 4: robots.txt 파일이 없습니다

증상: ten-mien.com/robots.txt 입력하면 404 오류가 발생합니다.

이유: 웹사이트가 수동으로 구축되었으며 개발자가 이 파일을 생성하지 않았거나, 배포 중에 실수로 파일이 삭제되었습니다.

영향: 오류 1만큼 심각하지는 않습니다. robots.txt 파일이 없으면 Google은 기본적으로 모든 것을 크롤링합니다. 하지만 이는 다음과 같은 의미입니다.

구글은 관리자 페이지, 테스트 페이지 및 내부 페이지를 크롤링합니다.
robots.txt를 통해 사용자를 사이트맵으로 안내할 방법이 없습니다.
기본 제어 기능 부족

해결 방법: 루트 디렉터리에 robots.txt 파일을 생성합니다. 최소 내용:

 User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml

오류 5: robots.txt를 사용하여 Google 검색 결과에서 페이지를 숨기는 행위(목적 오해)

증상: Disallow 사용하여 페이지를 차단했지만, 해당 페이지가 콘텐츠 스니펫 없이도 Google 검색 결과에 계속 표시됩니다.

이유: robots.txt 파일은 크롤링을 차단 하지만 색인 생성은 차단 하지 않습니다. 페이지가 이미 색인되었거나 다른 웹사이트에서 해당 페이지로 연결되는 백링크가 있는 경우, Google은 검색 결과에 해당 URL을 유지할 수 있습니다. 다만 콘텐츠는 표시되지 않을 뿐입니다.

올바른 해결 방법:

목표	무엇을 사용해야 할까요?
저는 구글이 제 사이트를 크롤링하는 것을 원하지 않습니다.	robots.txt에서 `Disallow`
Google이 내 콘텐츠를 색인화(표시)하지 않도록 하려면 어떻게 해야 할까요?	카드 HTML에서
둘 다 원하지 않아요.	HTML에서 `noindex` 사용하세요 (그리고 `robots.txt`에서 차단 하지 마세요 ).

⚠️ 가장 흔한 오해는 다음과 같습니다. 크롤링을 차단(robots.txt)하고 HTML에 `noindex` 태그를 사용하면 Google은 해당 페이지를 크롤링하지 않으므로 `noindex` 태그를 인식하지 못하고 페이지가 여전히 색인될 수 있습니다. 해결책은 HTML에 `noindex` 태그를 사용하고 robots.txt에서 해당 페이지에 대한 `Disallow` 규칙을 제거하는 것입니다 .

비즈니스 웹사이트용 robots.txt 템플릿

다음은 대부분의 중소기업 웹사이트에 적합한 robots.txt 파일의 예시입니다.

 # ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml

📝 개발자 참고: robots.txt 파일은 루트 도메인(예: `https://example.com/robots.txt`)에 있어야 합니다. `/blog/robots.txt` 또는 다른 하위 디렉터리에 있으면 안 됩니다. 각 서브도메인마다 별도의 robots.txt 파일이 필요합니다(예: `blog.example.com/robots.txt`는 `example.com/robots.txt`와 별개입니다).

웹사이트의 robots.txt 파일을 확인하는 방법

방법 1: 브라우저에서 직접 확인합니다.

주소창에 https://ten-mien-cua-ban.com/robots.txt 입력하세요. 그러면 파일 내용이 텍스트 형식으로 표시됩니다. 404 오류가 표시되면 해당 웹사이트에 robots.txt 파일이 없다는 뜻입니다.

방법 2: Google 검색 콘솔 사용

Google 검색 콘솔에 로그인하세요
설정 → 크롤링 → robots.txt 로 이동하세요.
구글이 읽고 있는 robots.txt 파일을 확인해 보세요.
특정 URL이 차단되었는지 확인하십시오.

방법 3: 인덱싱 보고서에서 확인

검색 콘솔 → 페이지 (또는 색인 ) → "robots.txt에 의해 차단됨" 항목을 찾으세요. 이 목록에 중요한 페이지가 있다면 robots.txt 파일을 즉시 수정해야 합니다.

💡 robots.txt 파일은 최소한 분기별로 또는 웹사이트에 주요 변경 사항(페이지 추가, 구조 변경, 다른 플랫폼으로 이전 등)이 발생할 때마다 확인해야 합니다.

요약: Robots.txt에서 차단해야 할 항목과 차단하지 말아야 할 항목은 무엇일까요?

✅ 차단해야 합니다.	❌ 차단하지 마세요
관리자 페이지( `/admin/` , `/wp-admin/` )	홈페이지, 서비스 페이지, 연락처 페이지
스테이징/테스트 페이지	블로그 게시물, 기사
내부 검색 페이지( `/search?` )	CSS 및 JavaScript 파일
추적 매개변수( `?utm_` , `?fbclid=` )가 포함된 URL	이미지 (구글 이미지 검색도 트래픽 유입에 도움이 됩니다)
장바구니, 결제, 개인 계정 페이지	사이트맵
콘텐츠 페이지 중복 (필터, 정렬, 페이지네이션)	FAQ 페이지, 사례 연구

robots.txt에 대한 자주 묻는 질문

Robots.txt와 사이트맵의 차이점은 무엇인가요?

사이트맵은 "이 페이지는 구글이 알 수 있도록 하려는 페이지입니다."라고 말하고, robots.txt는 "이 페이지는 구글이 크롤링하지 못하도록 하려는 페이지입니다."라고 말합니다. 이 두 파일은 서로를 보완하는데, 사이트맵은 방향을 제시하고 robots.txt는 크롤링 금지 영역을 설정합니다.

robots.txt 파일이 없어도 구글이 웹사이트를 크롤링할 수 있나요?

네. robots.txt 파일이 없으면 Google은 기본적으로 원하지 않는 페이지를 포함하여 모든 페이지를 크롤링합니다. इसीलिए 이 파일을 만들어야 합니다.

저는 워드프레스를 사용하는데, robots.txt 파일은 어디에 있나요?

WordPress는 자동으로 가상 robots.txt 파일을 생성합니다. Yoast나 Rank Math와 같은 SEO 플러그인을 사용하는 경우, 서버에 접근하지 않고도 플러그인 내에서 robots.txt 파일을 직접 편집할 수 있습니다.

robots.txt 파일이 웹사이트 속도에 영향을 미치나요?

아니요. 이 파일은 크기가 몇 KB에 불과해서 페이지 로딩 속도에 영향을 미치지 않습니다.

robots.txt 파일을 이용해 해당 사이트를 차단했는데도 왜 여전히 구글 검색 결과에 나오는 거죠?

robots.txt는 크롤링만 차단할 뿐, 색인 생성은 차단하지 않습니다. 구글 검색 결과에서 페이지를 완전히 제외하려면 `<script>` 태그를 사용하세요. HTML에서 해당 페이지를 차단하지 마세요. 그리고 robots.txt 파일에서 해당 페이지를 차단 하지 마세요 (그래야 Google이 noindex 태그를 읽을 수 있습니다).

robots.txt 파일을 수정한 후 구글이 업데이트하는 데 얼마나 걸릴까요?

Google은 일반적으로 24~48시간 이내에 robots.txt 파일을 확인합니다. Google 검색 콘솔 → 설정 → 크롤링으로 이동하여 Google에 더 빠른 확인을 요청할 수 있습니다.

끝내다

Robots.txt는 보통 몇 줄에 불과한 작은 파일이지만, 구글이 웹사이트를 찾을 수 있는지 여부에 직접적인 영향을 미칩니다.

유의사항:

Robots.txt는 "제한 구역" 표시입니다 . 즉, 구글에게 어떤 페이지를 크롤링해서는 안 되는지 알려줍니다.
웹사이트가 오픈되면 즉시 확인하세요 . 웹사이트 전체를 차단하는 오류가 가장 흔하고 심각한 오류입니다.
robots.txt 파일을 사용하여 구글 검색 결과에 페이지가 나타나지 않도록 하지 마세요 . robots.txt는 크롤링을 차단할 뿐 색인 생성을 막지는 않습니다.
CSS와 JavaScript는 항상 허용해야 합니다 . Google은 콘텐츠를 이해하기 위해 페이지를 렌더링해야 합니다.
사이트맵 및 검색 콘솔과 함께 사용하면 Google이 웹사이트를 크롤링하고 색인화하는 방식을 완벽하게 제어할 수 있습니다.