ทินห์ ดินห์
532 ยอดดู
สารบัญ
คุณมีแผนผังเว็บไซต์ (sitemap) แล้ว คุณได้ส่งแผนผังเว็บไซต์ให้ Google แล้ว และเว็บไซต์ของคุณเริ่มได้รับการจัดทำดัชนีแล้ว แต่แล้ววันหนึ่ง คุณก็พบว่าหน้าผู้ดูแลระบบ หน้าชำระเงินภายใน หรือหน้าทดสอบเว็บไซต์ ก็ปรากฏบน Google ด้วยเช่นกัน ลูกค้าพิมพ์ชื่อบริษัทของคุณและเห็นหน้าทดสอบที่ยังไม่เสร็จสมบูรณ์
หรือในทางกลับกัน: คุณเผยแพร่บทความใหม่ในบล็อก รอสองสัปดาห์ แล้วบทความนั้นก็ยังไม่ปรากฏบน Google คุณถามทีมเทคนิค และพวกเขาบอกว่า "ไฟล์ robots.txt กำลังบล็อกไม่ให้ Google รวบรวมข้อมูลเว็บไซต์ทั้งหมด"
ทั้งสองกรณีเกี่ยวข้องกับไฟล์ขนาดเล็กที่ผู้ดูแลระบบเว็บไซต์ส่วนใหญ่ไม่ค่อยให้ความสนใจ นั่นคือไฟล์ robots.txt
บทความนี้จะอธิบายว่า robots.txt คืออะไร ทำงานอย่างไร เมื่อใดที่คุณต้องแก้ไข และข้อผิดพลาดทั่วไปที่ธุรกิจควรหลีกเลี่ยง ทั้งหมดนี้ด้วยภาษาที่เข้าใจง่ายและตัวอย่างที่เป็นรูปธรรม
ถ้า แผนผังเว็บไซต์เปรียบเสมือนแผนผังอาคาร ที่แสดงให้ Google เห็นว่ามีห้องอะไรบ้าง ไฟล์ robots.txt ก็เปรียบเสมือนป้าย "พื้นที่หวงห้าม" ที่บอก Google ว่าห้องไหนบ้าง ที่เข้าถึงไม่ได้
ในเชิงเทคนิคแล้ว robots.txt คือไฟล์ข้อความขนาดเล็กที่อยู่ในไดเร็กทอรีหลักของเว็บไซต์ (ตัวอย่างเช่น: https://example.com/robots.txt ) ไฟล์นี้ประกอบด้วยกฎที่บอกบอทของเครื่องมือค้นหา เช่น Googlebot ว่าควรทำอะไร
คุณสามารถดูไฟล์ robots.txt ของเว็บไซต์ใดก็ได้โดยพิมพ์: ten-mien.com/robots.txt ในเบราว์เซอร์ของคุณ
💡 สำคัญ: robots.txt เป็นเพียง คำขออย่างสุภาพ ไม่ใช่การห้ามโดยเด็ดขาด บอทที่น่าเชื่อถืออย่าง Googlebot จะปฏิบัติตาม แต่บอทที่เป็นอันตราย (สแปม, สแครปเปอร์) อาจไม่สนใจ หากคุณต้องการความปลอดภัยที่แท้จริง ให้ใช้รหัสผ่านหรือไฟร์วอลล์ – อย่าพึ่งพา robots.txt เพียงอย่างเดียว
คุณไม่จำเป็นต้องเขียนไฟล์นี้ขึ้นมาใหม่ทั้งหมด แต่เพื่อให้เข้าใจได้ง่าย ๆ นี่คือไฟล์ robots.txt อย่างง่าย ๆ:
User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xmlคำอธิบายสำหรับแต่ละบรรทัด:User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xml
| ปัจจุบัน | ความหมาย |
|---|---|
User-agent: * | ใช้ได้กับบอททุกประเภท (Google, Bing ฯลฯ) |
Disallow: /admin/ | ป้องกันไม่ให้บอทเข้าถึงไดเร็กทอรี /admin/ |
Disallow: /thanh-toan/ | ป้องกันไม่ให้บอทเข้าถึงหน้าชำระเงิน |
Disallow: /staging/ | ห้ามอนุญาตให้บอทเข้าสู่สภาพแวดล้อมการทดสอบ |
Allow: / | ปล่อยให้บอททำการรวบรวมข้อมูลส่วนที่เหลือ |
Sitemap: https://... | แสดงตำแหน่งที่ตั้งของแผนผังเว็บไซต์ให้บอททราบ |
ต่อไปนี้เป็นตัวอย่างที่ซับซ้อนกว่า เหมาะสำหรับเว็บไซต์ธุรกิจที่มีบล็อก หน้าบริการ และพื้นที่ผู้ดูแลระบบ:
# Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml📝# Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml
หมายเหตุสำหรับนักพัฒนา: ตัวละคร
สัญลักษณ์ตัวแทน `/ ?utm_ในพาธหมายถึงการบล็อก URL ทั้งหมดที่มีพารามิเตอร์?utm_อักขระ `$ที่อยู่ท้ายพาธใช้เพื่อจับคู่กับส่วนท้ายของ URL อย่างแม่นยำ ตัวอย่างเช่นDisallow: /*.pdf$จะบล็อกไฟล์ PDF ทั้งหมด
---
เพื่อให้เข้าใจบทบาทของ robots.txt เรามาลองย้อนกลับไปดูขั้นตอนที่ Google ใช้ในการจัดอันดับเว็บไซต์ในผลการค้นหา:
Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng)ไฟล์ Robots.txt ทำงานในขั้นตอนแรก คือ การรวบรวมข้อมูล (Crawl)Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng)
ก่อนที่ Googlebot จะเริ่มทำการรวบรวมข้อมูลหน้าเว็บใดๆ บนเว็บไซต์ของคุณ มัน จะตรวจสอบไฟล์ robots.txt ก่อน หาก URL ใดถูกระบุว่า Disallow Googlebot จะข้ามหน้านั้นไป—ไม่มีการรวบรวมข้อมูลเพิ่มเติมหรืออ่านเนื้อหาใดๆ
Googlebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếmไฟล์ Robots.txt และแผนผังเว็บไซต์: ส่วนประกอบที่เสริมซึ่งกันและกันGooglebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếm
| ไฟล์ | บทบาท |
|---|---|
| แผนผังเว็บไซต์ | "นี่คือรายชื่อหน้าเว็บที่ฉัน ต้องการ ให้ Google รับรู้" |
| หุ่นยนต์.txt | "นี่คือหน้าเว็บที่ฉัน ไม่ต้องการ ให้ Google เข้ามาเก็บข้อมูล" |
ไฟล์ทั้งสองนี้ไม่ขัดแย้งกัน แต่ทำงานร่วมกันได้ แผนผังเว็บไซต์ (sitemap) ให้คำแนะนำ ในขณะที่ robots.txt กำหนดขอบเขตการเข้าถึง เมื่อรวมกันอย่างถูกต้อง คุณจะควบคุมได้ว่า Google จะเห็นอะไรและไม่สนใจอะไรในเว็บไซต์ของคุณ
หน้าผู้ดูแลระบบ, หน้าแบ็กเอนด์ CMS, หน้าทดสอบระบบ, หน้าทดสอบ - หน้าเหล่านี้ไม่ควรปรากฏในผลการค้นหาของ Google ไฟล์ Robots.txt บอก Google ว่า: "อย่าเข้าชมหน้านี้"
Disallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/2. หลีกเลี่ยงการสิ้นเปลือง "งบประมาณการรวบรวมข้อมูล" ของคุณDisallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/
Google ไม่ได้ทำการรวบรวมข้อมูลไปเรื่อยๆ อย่างไม่มีที่สิ้นสุด แต่ละเว็บไซต์มี "งบประมาณการรวบรวมข้อมูล" ซึ่งก็คือจำนวนหน้าที่ Googlebot จะรวบรวมข้อมูลในแต่ละครั้ง หากเว็บไซต์มีหน้าเว็บที่ไม่สำคัญจำนวนมาก (เช่น หน้าค้นหาภายใน หน้าตัวกรอง หน้าการแบ่งหน้า) Googlebot อาจจะยุ่งอยู่กับการรวบรวมข้อมูลหน้าเหล่านั้นแทนที่จะเป็นหน้าบริการที่สำคัญหรือบทความในบล็อก
Disallow: /search? Disallow: /tag/ Disallow: /page/💡 งบประมาณการรวบรวมข้อมูล (Crawl budget) มีความสำคัญอย่างยิ่งสำหรับเว็บไซต์ขนาดใหญ่ (หลายพันหน้า) เว็บไซต์ธุรกิจขนาดเล็กมักไม่จำเป็นต้องกังวลมากนัก แต่การดูแลไฟล์ robots.txt ให้สะอาดอยู่เสมอถือเป็นนิสัยที่ดีDisallow: /search? Disallow: /tag/ Disallow: /page/
หากเว็บไซต์มี URL หลายรายการที่นำไปสู่เนื้อหาเดียวกัน (ตัวอย่างเช่น URL ที่มีพารามิเตอร์การติดตาม ?utm_source=facebook หรือเวอร์ชันสำหรับพิมพ์ ?print=true ) คุณสามารถบล็อก URL ที่ซ้ำกันเหล่านี้ได้:
Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print=4. วิธีการเข้าถึงแผนผังเว็บไซต์Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print=
ไฟล์ Robots.txt คือที่แรกที่ Googlebot ตรวจสอบเมื่อค้นหาเว็บไซต์ การวางแผนผังเว็บไซต์ (sitemap) ไว้ในไฟล์นี้จะช่วยให้ Google ค้นหาเว็บไซต์ของคุณได้เร็วขึ้น แม้ว่าคุณจะยังไม่ได้ส่งแผนผังเว็บไซต์ไปยัง Search Console ก็ตาม
ธุรกิจควรให้ความสนใจกับไฟล์ robots.txt เมื่อใด? Sitemap: https://example.com/sitemap.xmlคุณไม่จำเป็นต้องแก้ไขไฟล์ robots.txt เสมอไป แต่มีบางกรณีที่การตรวจสอบไฟล์นี้เป็น สิ่งจำเป็น :
นี่คือช่วงเวลาที่สำคัญที่สุด เว็บไซต์หลายแห่งถูกบล็อกไม่ให้ Google รวบรวมข้อมูลได้เลย เพราะทีมพัฒนาลืมลบบรรทัด Disallow: / " ออกไป ซึ่งเป็นบรรทัดที่พวกเขาใส่ไว้ในระหว่างขั้นตอนการทดสอบ เพื่อป้องกันไม่ให้ Google จัดทำดัชนีเวอร์ชันที่ยังไม่เสร็จสมบูรณ์
ทดสอบเมื่อเปิดใช้งานจริง:
| หมวดหมู่ | วิธีการตรวจสอบ |
|---|---|
| ไฟล์ robots.txt มีอยู่จริง | เปิดไฟล์ https://ten-mien.com/robots.txt ในเบราว์เซอร์ของคุณ |
| อย่าบล็อกเว็บไซต์ทั้งหมด | ตรวจสอบให้แน่ใจว่าไม่มี Disallow: / |
| แผนผังเว็บไซต์ได้รับการประกาศแล้ว | ตรวจสอบให้แน่ใจว่ามีบรรทัดต่อไปนี้อยู่ Sitemap: https://ten-mien.com/sitemap.xml |
| หน้าเว็บสำคัญจะไม่ถูกบล็อก | ตรวจสอบว่าหน้าบริการ บล็อก หรือข้อมูลติดต่อไม่ได้อยู่ในส่วน Disallow |
หากคุณมีแผนผังเว็บไซต์ (sitemap) อยู่แล้ว และได้ส่งไปยัง Search Console แล้ว แต่ Google ยังคงไม่จัดทำดัชนีเว็บไซต์ของคุณ ไฟล์ robots.txt คือสิ่งแรกที่ควรตรวจสอบ
หากเว็บไซต์ของคุณมีหน้าจัดการบัญชี พื้นที่สำหรับสมาชิก หรือหน้าภายใน โปรดอัปเดตไฟล์ robots.txt เพื่อบล็อกพื้นที่เหล่านั้น
แต่ละแพลตฟอร์ม (WordPress, Webflow, โค้ดที่เขียนเอง) สร้างโครงสร้าง URL ที่แตกต่างกัน เมื่อทำการย้ายข้อมูล ไฟล์ robots.txt เก่าอาจบล็อกหน้าเว็บใหม่โดยไม่ได้ตั้งใจ หรืออาจพลาดหน้าเว็บที่จำเป็นต้องบล็อก
Google Search Console มีรายงาน การจัดทำดัชนี ที่แสดงให้เห็นว่าหน้าเว็บใดบ้างที่ถูกบล็อกโดยไฟล์ robots.txt หากคุณพบว่าหน้าเว็บสำคัญถูกบล็อก คุณควรแก้ไขไฟล์นั้นทันที
อาการ: Google ไม่จัดทำดัชนีหน้าเว็บใดๆ เลย Search Console รายงานว่ามีหลายหน้าที่ "ถูกบล็อกโดย robots.txt"
เหตุผล: ไฟล์ robots.txt มีเนื้อหาดังนี้:
User-agent: Disallow: /สองบรรทัดนี้หมายความว่า: "บล็อกบอททั้งหมดไม่ให้เข้าถึงทุกหน้า" ปัญหานี้มักเกิดขึ้นเมื่อนักพัฒนาตั้งค่ากฎนี้ในระหว่างขั้นตอนการทดสอบและลืมลบออกก่อนที่จะใช้งานจริงUser-agent: Disallow: /
วิธีแก้ปัญหา: เปลี่ยนเป็น:
User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xmlDisallow:User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xml
(ไม่มีเครื่องหมายโคลอนหลัง) = อนุญาตให้คลานได้ทั้งหมด
⚠️ นี่คือข้อผิดพลาดอันดับ 1 ที่เราพบบ่อยในเว็บไซต์ธุรกิจใหม่ หลังจากแก้ไขแล้ว Google อาจใช้เวลาหลายวันถึงหลายสัปดาห์ในการตรวจสอบเว็บไซต์อีกครั้ง ส่งแผนผังเว็บไซต์ของคุณอีกครั้งผ่าน Search Console เพื่อเร่งกระบวนการ
---
อาการ: เว็บไซต์แสดงผลปกติในเบราว์เซอร์ แต่เมื่อใช้เครื่องมือ "ตรวจสอบ URL" ใน Search Console Google ตรวจพบว่าหน้าเว็บมีเค้าโครงผิดปกติหรือว่างเปล่า
สาเหตุ: ไฟล์ Robots.txt บล็อกโฟลเดอร์ที่มีไฟล์ CSS และ JS อยู่:
Disallow: /wp-content/ Disallow: /wp-includes/Google จำเป็นต้องอ่านไฟล์ CSS และ JS เพื่อทำความเข้าใจว่าหน้าเว็บมีลักษณะอย่างไร (เรียกว่า "การแสดงผล") หากส่วนนี้ถูกบล็อก Google จะไม่สามารถแสดงผลหน้าเว็บได้ → ไม่เข้าใจเนื้อหา → ส่งผลต่ออันดับการค้นหาDisallow: /wp-content/ Disallow: /wp-includes/
วิธีแก้ไข:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/📝User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/
หมายเหตุสำหรับนักพัฒนา: ตั้งแต่ปี 2014 Google ได้แนะนำอย่างชัดเจน ว่าไม่ควรบล็อก CSS, JS และรูปภาพ ใน robots.txt เนื่องจาก Googlebot จำเป็นต้องใช้ทรัพยากรเหล่านี้ในการแสดงผลหน้าเว็บอย่างถูกต้อง โปรดใช้เครื่องมือตรวจสอบ URL ใน Search Console เพื่อตรวจสอบว่า Google แสดงผลหน้าเว็บของคุณอย่างไร
อาการ: หน้าบริการ หน้าสินค้า หรือบทความในบล็อกไม่ปรากฏในผลการค้นหาของ Google แม้ว่าจะระบุไว้ในแผนผังเว็บไซต์แล้วก็ตาม
เหตุผล: กฎในไฟล์ robots.txt กว้างเกินไป ตัวอย่างเช่น:
เส้นนี้ไม่ได้ปิดกั้นเพียงแค่ Disallow: /dich-vu รวมถึง /dich-vu/ และ /dich-vu-thiet-ke-web/ , /dich-vu-seo/ และ URL ใดๆ ที่ขึ้นต้นด้วย /dich-vu ด้วย
วิธีแก้ปัญหา: เพิ่มเครื่องหมายทับ / ที่ท้ายเส้นทางเพื่อบล็อกไดเร็กทอรีที่ต้องการโดยตรง:
Disllow: /dich-vu-noi-bo/
หรือใช้ Allow เพื่อปกป้องหน้าเว็บที่จำเป็น:
Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/📝Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/
หมายเหตุสำหรับนักพัฒนา: ลำดับของ
AllowและDisallowมีผลกระทบ Googlebot จะใช้กฎที่เฉพาะเจาะจงที่สุด (เส้นทางที่เฉพาะเจาะจงที่สุด) หากมีความยาวเท่ากันAllowจะมีลำดับความสำคัญเหนือกว่าDisallowควรทดสอบโดยใช้ เครื่องมือทดสอบ Robots Testing Tool ใน Search Console ก่อนใช้งานจริงเสมอ
อาการ: เมื่อพิมพ์ ten-mien.com/robots.txt จะแสดงข้อผิดพลาด 404
เหตุผล: เว็บไซต์นี้สร้างขึ้นด้วยตนเอง และนักพัฒนาไม่ได้สร้างไฟล์นี้ หรือไฟล์นี้ถูกลบโดยไม่ได้ตั้งใจระหว่างการติดตั้งใช้งาน
ผลกระทบ: ไม่ร้ายแรงเท่าข้อผิดพลาดที่ 1 - หากไม่มีไฟล์ robots.txt Google จะทำการรวบรวมข้อมูลทุกอย่างโดยอัตโนมัติ แต่หมายความว่า:
วิธีแก้ปัญหา: สร้างไฟล์ robots.txt ในไดเร็กทอรีหลัก เนื้อหาขั้นต่ำ:
User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml---User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml
อาการ: คุณบล็อกหน้าเว็บโดยใช้ Disallow แต่หน้าเว็บนั้นยังคงปรากฏบน Google แม้ว่าจะไม่มีตัวอย่างเนื้อหาใดๆ ก็ตาม
เหตุผล: ไฟล์ Robots.txt บล็อก การรวบรวมข้อมูล (crawling) แต่ไม่ บล็อกการจัดทำดัชนี (indexing ) หากหน้าเว็บนั้นได้รับการจัดทำดัชนีแล้ว หรือมีลิงก์ย้อนกลับจากเว็บไซต์อื่นชี้มายังหน้าเว็บนั้น Google อาจยังคงแสดง URL นั้นในผลการค้นหา แต่จะไม่แสดงเนื้อหา
วิธีแก้ไขที่ถูกต้อง:
| เป้า | จะใช้อะไรดี |
|---|---|
| ฉันไม่ต้องการให้ Google เข้ามาตรวจสอบเว็บไซต์ของฉัน | Disallow ในไฟล์ robots.txt |
| ไม่ต้องการอนุญาตให้ Google จัดทำดัชนี (แสดงผล) เนื้อหาของคุณ | การ์ด ใน HTML |
| ฉันไม่ต้องการทั้งสองอย่าง | ใช้ noindex ใน HTML (และ อย่า บล็อกใน robots.txt) |
⚠️ นี่คือความเข้าใจผิดที่พบบ่อยที่สุด: หากคุณบล็อกการรวบรวมข้อมูล (robots.txt) และตั้ง
noindex(HTML) ด้วย Google จะไม่เห็น แท็ก noindex เพราะจะไม่รวบรวมข้อมูลหน้านั้น — และหน้านั้นอาจยังคงถูกจัดทำดัชนีอยู่ วิธีแก้ไข: ใช้noindexใน HTML และ ลบ กฎDisallowสำหรับหน้านั้นใน robots.txt
ด้านล่างนี้คือตัวอย่างไฟล์ robots.txt ที่เหมาะสมสำหรับเว็บไซต์ธุรกิจขนาดกลางและขนาดย่อมส่วนใหญ่:
# ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml📝# ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml
หมายเหตุสำหรับนักพัฒนา: ไฟล์ robots.txt ต้องอยู่ในโดเมนหลัก —
https://example.com/robots.txtไม่ใช่/blog/robots.txtหรือไดเร็กทอรีย่อยอื่นๆ แต่ละโดเมนย่อยต้องมีไฟล์ robots.txt ของตัวเอง (ตัวอย่างเช่นblog.example.com/robots.txtแยกจากexample.com/robots.txt)
พิมพ์ https://ten-mien-cua-ban.com/robots.txt ลงในแถบที่อยู่ คุณจะเห็นเนื้อหาของไฟล์ในรูปแบบข้อความ หากคุณเห็นข้อผิดพลาด 404 แสดงว่าเว็บไซต์นั้นไม่มีไฟล์ robots.txt
ใน Search Console → Pages (หรือ Indexing ) → ค้นหารายการ "Blocked by robots.txt" หากมีหน้าเว็บสำคัญอยู่ในรายการนี้ คุณต้องแก้ไข robots.txt ทันที
💡 คุณควรตรวจสอบไฟล์ robots.txt อย่างน้อยทุกไตรมาส หรือทุกครั้งที่เว็บไซต์ของคุณมีการเปลี่ยนแปลงครั้งใหญ่ (เช่น การเพิ่มหน้าเว็บ การเปลี่ยนโครงสร้าง การย้ายไปยังแพลตฟอร์มอื่น)
| ✅ คุณควรบล็อกมัน | ❌ ห้ามบล็อก |
|---|---|
หน้าผู้ดูแลระบบ ( /admin/ , /wp-admin/ ) | หน้าหลัก, หน้าบริการ, หน้าติดต่อเรา |
| หน้าทดสอบ/จัดเตรียม | บทความในบล็อก |
หน้าค้นหาภายใน ( /search? ) | ไฟล์ CSS และ JavaScript |
URL ที่มีพารามิเตอร์การติดตาม ( ?utm_ , ?fbclid= ) | รูปภาพ (Google Images ก็ช่วยเพิ่มปริมาณการเข้าชมเว็บไซต์เช่นกัน) |
| ตะกร้าสินค้า, ขั้นตอนการชำระเงิน, หน้าบัญชีส่วนตัว | แผนผังเว็บไซต์ |
| หน้าที่มีเนื้อหาซ้ำกัน (ตัวกรอง, การจัดเรียง, การแบ่งหน้า) | หน้าคำถามที่พบบ่อย, กรณีศึกษา |
---
Robots.txt กับ sitemap ต่างกันอย่างไร?
ไฟล์ Sitemap บอกว่า "นี่คือหน้าเว็บที่ฉันต้องการให้ Google รู้จัก" ส่วนไฟล์ Robots.txt บอกว่า "นี่คือหน้าเว็บที่ฉันไม่ต้องการให้ Google เข้ามาเก็บข้อมูล" ไฟล์ทั้งสองนี้เสริมซึ่งกันและกัน — Sitemap ให้คำแนะนำ ส่วน Robots.txt กำหนดขอบเขตการเข้าถึง
หากไม่มีไฟล์ robots.txt Google ยังสามารถรวบรวมข้อมูลเว็บไซต์ได้หรือไม่?
ใช่แล้ว หากไม่มีไฟล์ robots.txt Google จะทำการรวบรวมข้อมูลทุกหน้าเว็บโดยอัตโนมัติ รวมถึงหน้าเว็บที่คุณไม่ต้องการด้วย นั่นเป็นเหตุผลที่คุณควรมีไฟล์นี้
ฉันใช้ WordPress ไฟล์ robots.txt อยู่ที่ไหน?
WordPress จะสร้างไฟล์ robots.txt เสมือนขึ้นมาโดยอัตโนมัติ หากคุณใช้ปลั๊กอิน SEO เช่น Yoast หรือ Rank Math คุณสามารถแก้ไขไฟล์ robots.txt ได้โดยตรงภายในปลั๊กอินโดยไม่ต้องเข้าถึงเซิร์ฟเวอร์
ไฟล์ robots.txt มีผลต่อความเร็วของเว็บไซต์หรือไม่?
ไม่ ไฟล์นี้มีขนาดเพียงไม่กี่กิโลไบต์เท่านั้น ไม่มีผลต่อความเร็วในการโหลดหน้าเว็บ
ฉันบล็อกเว็บไซต์นั้นโดยใช้ robots.txt แล้ว ทำไมมันยังคงติดอันดับใน Google อยู่ล่ะ?
เนื่องจาก robots.txt บล็อกเฉพาะการรวบรวมข้อมูล ไม่ใช่การจัดทำดัชนี หากคุณต้องการให้หน้าเว็บหายไปจาก Google อย่างสมบูรณ์ ให้ใช้แท็ก <br> ในไฟล์ HTML - และ อย่า บล็อกหน้านั้นในไฟล์ robots.txt (เพื่อให้ Google สามารถอ่านแท็ก noindex ได้)
หลังจากแก้ไขไฟล์ robots.txt แล้ว Google จะใช้เวลานานแค่ไหนในการอัปเดต?
โดยปกติ Google จะตรวจสอบไฟล์ robots.txt ของคุณภายใน 24-48 ชั่วโมง คุณสามารถไปที่ Search Console → การตั้งค่า → การรวบรวมข้อมูล เพื่อขอให้ Google ตรวจสอบเร็วกว่านั้นได้
ไฟล์ Robots.txt มีขนาดเล็ก โดยปกติจะมีเพียงไม่กี่บรรทัด แต่มีผลโดยตรงต่อการที่ Google จะค้นพบเว็บไซต์ของคุณหรือไม่
สิ่งที่ควรจำ:
ไฟล์ Robots.txt เป็นเพียงหนึ่งในปัจจัยทางเทคนิคมากมายที่ส่งผลต่อ SEO หากคุณสงสัยว่า "เว็บไซต์ของฉันตั้งค่าถูกต้องแล้วหรือยัง?" คำตอบนั้นขึ้นอยู่กับแพลตฟอร์มที่คุณใช้
GTG CRM ช่วยคุณสร้างเว็บไซต์ด้วยไฟล์ robots.txt มาตรฐาน แผนผังเว็บไซต์อัตโนมัติ และโครงสร้างทางเทคนิคที่พร้อมสำหรับ Google – คุณไม่ต้องกังวลกับการแก้ไขแต่ละไฟล์หรือโค้ดแต่ละบรรทัด











