Robots.txt คืออะไร? ธุรกิจควรให้ความสำคัญกับมันเมื่อใด?

Robots.txt คืออะไร และเมื่อใดที่ธุรกิจควรให้ความสำคัญกับไฟล์นี้?

คุณมีแผนผังเว็บไซต์ (sitemap) แล้ว คุณได้ส่งแผนผังเว็บไซต์ให้ Google แล้ว และเว็บไซต์ของคุณเริ่มได้รับการจัดทำดัชนีแล้ว แต่แล้ววันหนึ่ง คุณก็พบว่าหน้าผู้ดูแลระบบ หน้าชำระเงินภายใน หรือหน้าทดสอบเว็บไซต์ ก็ปรากฏบน Google ด้วยเช่นกัน ลูกค้าพิมพ์ชื่อบริษัทของคุณและเห็นหน้าทดสอบที่ยังไม่เสร็จสมบูรณ์

หรือในทางกลับกัน: คุณเผยแพร่บทความใหม่ในบล็อก รอสองสัปดาห์ แล้วบทความนั้นก็ยังไม่ปรากฏบน Google คุณถามทีมเทคนิค และพวกเขาบอกว่า "ไฟล์ robots.txt กำลังบล็อกไม่ให้ Google รวบรวมข้อมูลเว็บไซต์ทั้งหมด"

ทั้งสองกรณีเกี่ยวข้องกับไฟล์ขนาดเล็กที่ผู้ดูแลระบบเว็บไซต์ส่วนใหญ่ไม่ค่อยให้ความสนใจ นั่นคือไฟล์ robots.txt

บทความนี้จะอธิบายว่า robots.txt คืออะไร ทำงานอย่างไร เมื่อใดที่คุณต้องแก้ไข และข้อผิดพลาดทั่วไปที่ธุรกิจควรหลีกเลี่ยง ทั้งหมดนี้ด้วยภาษาที่เข้าใจง่ายและตัวอย่างที่เป็นรูปธรรม

Robots.txt คืออะไร? คำอธิบายสำหรับผู้ดูแลระบบเว็บไซต์

ถ้า แผนผังเว็บไซต์เปรียบเสมือนแผนผังอาคาร ที่แสดงให้ Google เห็นว่ามีห้องอะไรบ้าง ไฟล์ robots.txt ก็เปรียบเสมือนป้าย "พื้นที่หวงห้าม" ที่บอก Google ว่าห้องไหนบ้าง ที่เข้าถึงไม่ได้

ในเชิงเทคนิคแล้ว robots.txt คือไฟล์ข้อความขนาดเล็กที่อยู่ในไดเร็กทอรีหลักของเว็บไซต์ (ตัวอย่างเช่น: https://example.com/robots.txt ) ไฟล์นี้ประกอบด้วยกฎที่บอกบอทของเครื่องมือค้นหา เช่น Googlebot ว่าควรทำอะไร

อนุญาต ให้มีการรวบรวมข้อมูลจากหน้าเว็บใดบ้าง?
หน้าเว็บใดบ้าง ที่ไม่ได้รับอนุญาต ให้ถูกรวบรวมข้อมูล?
แผนผังเว็บไซต์อยู่ที่ไหน?

คุณสามารถดูไฟล์ robots.txt ของเว็บไซต์ใดก็ได้โดยพิมพ์: ten-mien.com/robots.txt ในเบราว์เซอร์ของคุณ

💡 สำคัญ: robots.txt เป็นเพียง คำขออย่างสุภาพ ไม่ใช่การห้ามโดยเด็ดขาด บอทที่น่าเชื่อถืออย่าง Googlebot จะปฏิบัติตาม แต่บอทที่เป็นอันตราย (สแปม, สแครปเปอร์) อาจไม่สนใจ หากคุณต้องการความปลอดภัยที่แท้จริง ให้ใช้รหัสผ่านหรือไฟร์วอลล์ – อย่าพึ่งพา robots.txt เพียงอย่างเดียว

ไฟล์ robots.txt มีลักษณะอย่างไร?

คุณไม่จำเป็นต้องเขียนไฟล์นี้ขึ้นมาใหม่ทั้งหมด แต่เพื่อให้เข้าใจได้ง่าย ๆ นี่คือไฟล์ robots.txt อย่างง่าย ๆ:

 User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xml คำอธิบายสำหรับแต่ละบรรทัด: User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xml

ปัจจุบัน	ความหมาย
`User-agent: *`	ใช้ได้กับบอททุกประเภท (Google, Bing ฯลฯ)
`Disallow: /admin/`	ป้องกันไม่ให้บอทเข้าถึงไดเร็กทอรี `/admin/`
`Disallow: /thanh-toan/`	ป้องกันไม่ให้บอทเข้าถึงหน้าชำระเงิน
`Disallow: /staging/`	ห้ามอนุญาตให้บอทเข้าสู่สภาพแวดล้อมการทดสอบ
`Allow: /`	ปล่อยให้บอททำการรวบรวมข้อมูลส่วนที่เหลือ
`Sitemap: https://...`	แสดงตำแหน่งที่ตั้งของแผนผังเว็บไซต์ให้บอททราบ

ต่อไปนี้เป็นตัวอย่างที่ซับซ้อนกว่า เหมาะสำหรับเว็บไซต์ธุรกิจที่มีบล็อก หน้าบริการ และพื้นที่ผู้ดูแลระบบ:

 # Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml 📝 # Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml

หมายเหตุสำหรับนักพัฒนา: ตัวละคร สัญลักษณ์ตัวแทน ` / ?utm_ ในพาธหมายถึงการบล็อก URL ทั้งหมดที่มีพารามิเตอร์ ?utm_ อักขระ ` $ ที่อยู่ท้ายพาธใช้เพื่อจับคู่กับส่วนท้ายของ URL อย่างแม่นยำ ตัวอย่างเช่น Disallow: /*.pdf$ จะบล็อกไฟล์ PDF ทั้งหมด

---

Robots.txt ทำงานอย่างไรในกระบวนการ SEO?

เพื่อให้เข้าใจบทบาทของ robots.txt เรามาลองย้อนกลับไปดูขั้นตอนที่ Google ใช้ในการจัดอันดับเว็บไซต์ในผลการค้นหา:

 Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng) ไฟล์ Robots.txt ทำงานในขั้นตอนแรก คือ การรวบรวมข้อมูล (Crawl) Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng)

ก่อนที่ Googlebot จะเริ่มทำการรวบรวมข้อมูลหน้าเว็บใดๆ บนเว็บไซต์ของคุณ มัน จะตรวจสอบไฟล์ robots.txt ก่อน หาก URL ใดถูกระบุว่า Disallow Googlebot จะข้ามหน้านั้นไป—ไม่มีการรวบรวมข้อมูลเพิ่มเติมหรืออ่านเนื้อหาใดๆ

 Googlebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếm ไฟล์ Robots.txt และแผนผังเว็บไซต์: ส่วนประกอบที่เสริมซึ่งกันและกัน Googlebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếm

ไฟล์	บทบาท
แผนผังเว็บไซต์	"นี่คือรายชื่อหน้าเว็บที่ฉัน ต้องการ ให้ Google รับรู้"
หุ่นยนต์.txt	"นี่คือหน้าเว็บที่ฉัน ไม่ต้องการ ให้ Google เข้ามาเก็บข้อมูล"

ไฟล์ทั้งสองนี้ไม่ขัดแย้งกัน แต่ทำงานร่วมกันได้ แผนผังเว็บไซต์ (sitemap) ให้คำแนะนำ ในขณะที่ robots.txt กำหนดขอบเขตการเข้าถึง เมื่อรวมกันอย่างถูกต้อง คุณจะควบคุมได้ว่า Google จะเห็นอะไรและไม่สนใจอะไรในเว็บไซต์ของคุณ

ไฟล์ Robots.txt ใช้ทำอะไรบ้าง? 4 สถานการณ์ทั่วไป

1. ซ่อนหน้าผู้ดูแลระบบและหน้าภายในจาก Google

หน้าผู้ดูแลระบบ, หน้าแบ็กเอนด์ CMS, หน้าทดสอบระบบ, หน้าทดสอบ - หน้าเหล่านี้ไม่ควรปรากฏในผลการค้นหาของ Google ไฟล์ Robots.txt บอก Google ว่า: "อย่าเข้าชมหน้านี้"

 Disallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/ 2. หลีกเลี่ยงการสิ้นเปลือง "งบประมาณการรวบรวมข้อมูล" ของคุณ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/

Google ไม่ได้ทำการรวบรวมข้อมูลไปเรื่อยๆ อย่างไม่มีที่สิ้นสุด แต่ละเว็บไซต์มี "งบประมาณการรวบรวมข้อมูล" ซึ่งก็คือจำนวนหน้าที่ Googlebot จะรวบรวมข้อมูลในแต่ละครั้ง หากเว็บไซต์มีหน้าเว็บที่ไม่สำคัญจำนวนมาก (เช่น หน้าค้นหาภายใน หน้าตัวกรอง หน้าการแบ่งหน้า) Googlebot อาจจะยุ่งอยู่กับการรวบรวมข้อมูลหน้าเหล่านั้นแทนที่จะเป็นหน้าบริการที่สำคัญหรือบทความในบล็อก

 Disallow: /search? Disallow: /tag/ Disallow: /page/ 💡 งบประมาณการรวบรวมข้อมูล (Crawl budget) มีความสำคัญอย่างยิ่งสำหรับเว็บไซต์ขนาดใหญ่ (หลายพันหน้า) เว็บไซต์ธุรกิจขนาดเล็กมักไม่จำเป็นต้องกังวลมากนัก แต่การดูแลไฟล์ robots.txt ให้สะอาดอยู่เสมอถือเป็นนิสัยที่ดี Disallow: /search? Disallow: /tag/ Disallow: /page/

3. บล็อกเนื้อหาที่ซ้ำกัน

หากเว็บไซต์มี URL หลายรายการที่นำไปสู่เนื้อหาเดียวกัน (ตัวอย่างเช่น URL ที่มีพารามิเตอร์การติดตาม ?utm_source=facebook หรือเวอร์ชันสำหรับพิมพ์ ?print=true ) คุณสามารถบล็อก URL ที่ซ้ำกันเหล่านี้ได้:

 Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print= 4. วิธีการเข้าถึงแผนผังเว็บไซต์ Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print=

ไฟล์ Robots.txt คือที่แรกที่ Googlebot ตรวจสอบเมื่อค้นหาเว็บไซต์ การวางแผนผังเว็บไซต์ (sitemap) ไว้ในไฟล์นี้จะช่วยให้ Google ค้นหาเว็บไซต์ของคุณได้เร็วขึ้น แม้ว่าคุณจะยังไม่ได้ส่งแผนผังเว็บไซต์ไปยัง Search Console ก็ตาม

 ธุรกิจควรให้ความสนใจกับไฟล์ robots.txt เมื่อใด? Sitemap: https://example.com/sitemap.xml

คุณไม่จำเป็นต้องแก้ไขไฟล์ robots.txt เสมอไป แต่มีบางกรณีที่การตรวจสอบไฟล์นี้เป็น สิ่งจำเป็น :

เมื่อเว็บไซต์ใหม่เปิดใช้งาน

นี่คือช่วงเวลาที่สำคัญที่สุด เว็บไซต์หลายแห่งถูกบล็อกไม่ให้ Google รวบรวมข้อมูลได้เลย เพราะทีมพัฒนาลืมลบบรรทัด Disallow: / " ออกไป ซึ่งเป็นบรรทัดที่พวกเขาใส่ไว้ในระหว่างขั้นตอนการทดสอบ เพื่อป้องกันไม่ให้ Google จัดทำดัชนีเวอร์ชันที่ยังไม่เสร็จสมบูรณ์

ทดสอบเมื่อเปิดใช้งานจริง:

หมวดหมู่	วิธีการตรวจสอบ
ไฟล์ robots.txt มีอยู่จริง	เปิดไฟล์ `https://ten-mien.com/robots.txt` ในเบราว์เซอร์ของคุณ
อย่าบล็อกเว็บไซต์ทั้งหมด	ตรวจสอบให้แน่ใจว่าไม่มี `Disallow: /`
แผนผังเว็บไซต์ได้รับการประกาศแล้ว	ตรวจสอบให้แน่ใจว่ามีบรรทัดต่อไปนี้อยู่ `Sitemap: https://ten-mien.com/sitemap.xml`
หน้าเว็บสำคัญจะไม่ถูกบล็อก	ตรวจสอบว่าหน้าบริการ บล็อก หรือข้อมูลติดต่อไม่ได้อยู่ในส่วน `Disallow`

✅ เมื่อเว็บไซต์ไม่ได้รับการจัดทำดัชนีโดย Google หลังจากผ่านไปหลายสัปดาห์

หากคุณมีแผนผังเว็บไซต์ (sitemap) อยู่แล้ว และได้ส่งไปยัง Search Console แล้ว แต่ Google ยังคงไม่จัดทำดัชนีเว็บไซต์ของคุณ ไฟล์ robots.txt คือสิ่งแรกที่ควรตรวจสอบ

เมื่อเพิ่มพื้นที่ที่จะซ่อน (หน้าสมาชิก, หน้าภายใน)

หากเว็บไซต์ของคุณมีหน้าจัดการบัญชี พื้นที่สำหรับสมาชิก หรือหน้าภายใน โปรดอัปเดตไฟล์ robots.txt เพื่อบล็อกพื้นที่เหล่านั้น

เมื่อเปลี่ยนแพลตฟอร์มเว็บไซต์หรือออกแบบเว็บไซต์ใหม่

แต่ละแพลตฟอร์ม (WordPress, Webflow, โค้ดที่เขียนเอง) สร้างโครงสร้าง URL ที่แตกต่างกัน เมื่อทำการย้ายข้อมูล ไฟล์ robots.txt เก่าอาจบล็อกหน้าเว็บใหม่โดยไม่ได้ตั้งใจ หรืออาจพลาดหน้าเว็บที่จำเป็นต้องบล็อก

เมื่อ Search Console รายงานข้อผิดพลาด "ถูกบล็อกโดย robots.txt"

Google Search Console มีรายงาน การจัดทำดัชนี ที่แสดงให้เห็นว่าหน้าเว็บใดบ้างที่ถูกบล็อกโดยไฟล์ robots.txt หากคุณพบว่าหน้าเว็บสำคัญถูกบล็อก คุณควรแก้ไขไฟล์นั้นทันที

5 ข้อผิดพลาดทั่วไปของไฟล์ robots.txt และวิธีแก้ไข

ข้อผิดพลาดที่ 1: บล็อกเว็บไซต์ทั้งหมด - ข้อผิดพลาดที่ร้ายแรงที่สุด

อาการ: Google ไม่จัดทำดัชนีหน้าเว็บใดๆ เลย Search Console รายงานว่ามีหลายหน้าที่ "ถูกบล็อกโดย robots.txt"

เหตุผล: ไฟล์ robots.txt มีเนื้อหาดังนี้:

 User-agent: Disallow: / สองบรรทัดนี้หมายความว่า: "บล็อกบอททั้งหมดไม่ให้เข้าถึงทุกหน้า" ปัญหานี้มักเกิดขึ้นเมื่อนักพัฒนาตั้งค่ากฎนี้ในระหว่างขั้นตอนการทดสอบและลืมลบออกก่อนที่จะใช้งานจริง User-agent: Disallow: /

วิธีแก้ปัญหา: เปลี่ยนเป็น:

 User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xml Disallow: User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xml

(ไม่มีเครื่องหมายโคลอนหลัง) = อนุญาตให้คลานได้ทั้งหมด

⚠️ นี่คือข้อผิดพลาดอันดับ 1 ที่เราพบบ่อยในเว็บไซต์ธุรกิจใหม่ หลังจากแก้ไขแล้ว Google อาจใช้เวลาหลายวันถึงหลายสัปดาห์ในการตรวจสอบเว็บไซต์อีกครั้ง ส่งแผนผังเว็บไซต์ของคุณอีกครั้งผ่าน Search Console เพื่อเร่งกระบวนการ

---

ข้อผิดพลาด 2: การบล็อก CSS และ JavaScript

อาการ: เว็บไซต์แสดงผลปกติในเบราว์เซอร์ แต่เมื่อใช้เครื่องมือ "ตรวจสอบ URL" ใน Search Console Google ตรวจพบว่าหน้าเว็บมีเค้าโครงผิดปกติหรือว่างเปล่า

สาเหตุ: ไฟล์ Robots.txt บล็อกโฟลเดอร์ที่มีไฟล์ CSS และ JS อยู่:

 Disallow: /wp-content/ Disallow: /wp-includes/ Google จำเป็นต้องอ่านไฟล์ CSS และ JS เพื่อทำความเข้าใจว่าหน้าเว็บมีลักษณะอย่างไร (เรียกว่า "การแสดงผล") หากส่วนนี้ถูกบล็อก Google จะไม่สามารถแสดงผลหน้าเว็บได้ → ไม่เข้าใจเนื้อหา → ส่งผลต่ออันดับการค้นหา Disallow: /wp-content/ Disallow: /wp-includes/

วิธีแก้ไข:

 User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/ 📝 User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/

หมายเหตุสำหรับนักพัฒนา: ตั้งแต่ปี 2014 Google ได้แนะนำอย่างชัดเจน ว่าไม่ควรบล็อก CSS, JS และรูปภาพ ใน robots.txt เนื่องจาก Googlebot จำเป็นต้องใช้ทรัพยากรเหล่านี้ในการแสดงผลหน้าเว็บอย่างถูกต้อง โปรดใช้เครื่องมือตรวจสอบ URL ใน Search Console เพื่อตรวจสอบว่า Google แสดงผลหน้าเว็บของคุณอย่างไร

ข้อผิดพลาดที่ 3: บล็อกหน้าเว็บสำคัญโดยไม่ได้ตั้งใจ

อาการ: หน้าบริการ หน้าสินค้า หรือบทความในบล็อกไม่ปรากฏในผลการค้นหาของ Google แม้ว่าจะระบุไว้ในแผนผังเว็บไซต์แล้วก็ตาม

เหตุผล: กฎในไฟล์ robots.txt กว้างเกินไป ตัวอย่างเช่น:

 เส้นนี้ไม่ได้ปิดกั้นเพียงแค่ Disallow: /dich-vu

รวมถึง /dich-vu/ และ /dich-vu-thiet-ke-web/ , /dich-vu-seo/ และ URL ใดๆ ที่ขึ้นต้นด้วย /dich-vu ด้วย

วิธีแก้ปัญหา: เพิ่มเครื่องหมายทับ / ที่ท้ายเส้นทางเพื่อบล็อกไดเร็กทอรีที่ต้องการโดยตรง:

Disllow: /dich-vu-noi-bo/

หรือใช้ Allow เพื่อปกป้องหน้าเว็บที่จำเป็น:

 Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/ 📝 Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/

หมายเหตุสำหรับนักพัฒนา: ลำดับของ Allow และ Disallow มีผลกระทบ Googlebot จะใช้กฎที่เฉพาะเจาะจงที่สุด (เส้นทางที่เฉพาะเจาะจงที่สุด) หากมีความยาวเท่ากัน Allow จะมีลำดับความสำคัญเหนือกว่า Disallow ควรทดสอบโดยใช้ เครื่องมือทดสอบ Robots Testing Tool ใน Search Console ก่อนใช้งานจริงเสมอ

ข้อผิดพลาด 4: ไม่มีไฟล์ robots.txt

อาการ: เมื่อพิมพ์ ten-mien.com/robots.txt จะแสดงข้อผิดพลาด 404

เหตุผล: เว็บไซต์นี้สร้างขึ้นด้วยตนเอง และนักพัฒนาไม่ได้สร้างไฟล์นี้ หรือไฟล์นี้ถูกลบโดยไม่ได้ตั้งใจระหว่างการติดตั้งใช้งาน

ผลกระทบ: ไม่ร้ายแรงเท่าข้อผิดพลาดที่ 1 - หากไม่มีไฟล์ robots.txt Google จะทำการรวบรวมข้อมูลทุกอย่างโดยอัตโนมัติ แต่หมายความว่า:

Google จะทำการรวบรวมข้อมูลหน้าผู้ดูแลระบบ หน้าทดสอบ และหน้าภายในต่างๆ
คุณไม่มีวิธีที่จะนำผู้ใช้ไปยังแผนผังเว็บไซต์ผ่านไฟล์ robots.txt
ขาดการควบคุมขั้นพื้นฐาน

วิธีแก้ปัญหา: สร้างไฟล์ robots.txt ในไดเร็กทอรีหลัก เนื้อหาขั้นต่ำ:

 User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml --- User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml

ข้อผิดพลาด 5: การใช้ robots.txt เพื่อซ่อนหน้าเว็บจาก Google (เข้าใจผิดเกี่ยวกับวัตถุประสงค์)

อาการ: คุณบล็อกหน้าเว็บโดยใช้ Disallow แต่หน้าเว็บนั้นยังคงปรากฏบน Google แม้ว่าจะไม่มีตัวอย่างเนื้อหาใดๆ ก็ตาม

เหตุผล: ไฟล์ Robots.txt บล็อก การรวบรวมข้อมูล (crawling) แต่ไม่ บล็อกการจัดทำดัชนี (indexing ) หากหน้าเว็บนั้นได้รับการจัดทำดัชนีแล้ว หรือมีลิงก์ย้อนกลับจากเว็บไซต์อื่นชี้มายังหน้าเว็บนั้น Google อาจยังคงแสดง URL นั้นในผลการค้นหา แต่จะไม่แสดงเนื้อหา

วิธีแก้ไขที่ถูกต้อง:

เป้า	จะใช้อะไรดี
ฉันไม่ต้องการให้ Google เข้ามาตรวจสอบเว็บไซต์ของฉัน	`Disallow` ในไฟล์ robots.txt
ไม่ต้องการอนุญาตให้ Google จัดทำดัชนี (แสดงผล) เนื้อหาของคุณ	การ์ด ใน HTML
ฉันไม่ต้องการทั้งสองอย่าง	ใช้ `noindex` ใน HTML (และ อย่า บล็อกใน robots.txt)

⚠️ นี่คือความเข้าใจผิดที่พบบ่อยที่สุด: หากคุณบล็อกการรวบรวมข้อมูล (robots.txt) และตั้ง noindex (HTML) ด้วย Google จะไม่เห็น แท็ก noindex เพราะจะไม่รวบรวมข้อมูลหน้านั้น — และหน้านั้นอาจยังคงถูกจัดทำดัชนีอยู่ วิธีแก้ไข: ใช้ noindex ใน HTML และ ลบ กฎ Disallow สำหรับหน้านั้นใน robots.txt

เทมเพลต Robots.txt สำหรับเว็บไซต์ธุรกิจ

ด้านล่างนี้คือตัวอย่างไฟล์ robots.txt ที่เหมาะสมสำหรับเว็บไซต์ธุรกิจขนาดกลางและขนาดย่อมส่วนใหญ่:

 # ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml 📝 # ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml

หมายเหตุสำหรับนักพัฒนา: ไฟล์ robots.txt ต้องอยู่ในโดเมนหลัก — https://example.com/robots.txt ไม่ใช่ /blog/robots.txt หรือไดเร็กทอรีย่อยอื่นๆ แต่ละโดเมนย่อยต้องมีไฟล์ robots.txt ของตัวเอง (ตัวอย่างเช่น blog.example.com/robots.txt แยกจาก example.com/robots.txt )

วิธีตรวจสอบไฟล์ robots.txt ของเว็บไซต์ของคุณ

วิธีที่ 1: ตรวจสอบโดยตรงในเบราว์เซอร์

พิมพ์ https://ten-mien-cua-ban.com/robots.txt ลงในแถบที่อยู่ คุณจะเห็นเนื้อหาของไฟล์ในรูปแบบข้อความ หากคุณเห็นข้อผิดพลาด 404 แสดงว่าเว็บไซต์นั้นไม่มีไฟล์ robots.txt

วิธีที่ 2: การใช้ Google Search Console

เข้า สู่ระบบ Google Search Console
ไปที่ การตั้งค่า → การรวบรวมข้อมูล → robots.txt
ตรวจสอบไฟล์ robots.txt ที่ Google กำลังอ่านอยู่
ตรวจสอบว่า URL ดังกล่าวถูกบล็อกหรือไม่

วิธีที่ 3: ตรวจสอบในรายงานการจัดทำดัชนี

ใน Search Console → Pages (หรือ Indexing ) → ค้นหารายการ "Blocked by robots.txt" หากมีหน้าเว็บสำคัญอยู่ในรายการนี้ คุณต้องแก้ไข robots.txt ทันที

💡 คุณควรตรวจสอบไฟล์ robots.txt อย่างน้อยทุกไตรมาส หรือทุกครั้งที่เว็บไซต์ของคุณมีการเปลี่ยนแปลงครั้งใหญ่ (เช่น การเพิ่มหน้าเว็บ การเปลี่ยนโครงสร้าง การย้ายไปยังแพลตฟอร์มอื่น)

สรุป: อะไรบ้างที่ควรและไม่ควรถูกบล็อกในไฟล์ Robots.txt?

✅ คุณควรบล็อกมัน	❌ ห้ามบล็อก
หน้าผู้ดูแลระบบ ( `/admin/` , `/wp-admin/` )	หน้าหลัก, หน้าบริการ, หน้าติดต่อเรา
หน้าทดสอบ/จัดเตรียม	บทความในบล็อก
หน้าค้นหาภายใน ( `/search?` )	ไฟล์ CSS และ JavaScript
URL ที่มีพารามิเตอร์การติดตาม ( `?utm_` , `?fbclid=` )	รูปภาพ (Google Images ก็ช่วยเพิ่มปริมาณการเข้าชมเว็บไซต์เช่นกัน)
ตะกร้าสินค้า, ขั้นตอนการชำระเงิน, หน้าบัญชีส่วนตัว	แผนผังเว็บไซต์
หน้าที่มีเนื้อหาซ้ำกัน (ตัวกรอง, การจัดเรียง, การแบ่งหน้า)	หน้าคำถามที่พบบ่อย, กรณีศึกษา

---

คำถามที่พบบ่อยเกี่ยวกับ robots.txt

Robots.txt กับ sitemap ต่างกันอย่างไร?

ไฟล์ Sitemap บอกว่า "นี่คือหน้าเว็บที่ฉันต้องการให้ Google รู้จัก" ส่วนไฟล์ Robots.txt บอกว่า "นี่คือหน้าเว็บที่ฉันไม่ต้องการให้ Google เข้ามาเก็บข้อมูล" ไฟล์ทั้งสองนี้เสริมซึ่งกันและกัน — Sitemap ให้คำแนะนำ ส่วน Robots.txt กำหนดขอบเขตการเข้าถึง

หากไม่มีไฟล์ robots.txt Google ยังสามารถรวบรวมข้อมูลเว็บไซต์ได้หรือไม่?

ใช่แล้ว หากไม่มีไฟล์ robots.txt Google จะทำการรวบรวมข้อมูลทุกหน้าเว็บโดยอัตโนมัติ รวมถึงหน้าเว็บที่คุณไม่ต้องการด้วย นั่นเป็นเหตุผลที่คุณควรมีไฟล์นี้

ฉันใช้ WordPress ไฟล์ robots.txt อยู่ที่ไหน?

WordPress จะสร้างไฟล์ robots.txt เสมือนขึ้นมาโดยอัตโนมัติ หากคุณใช้ปลั๊กอิน SEO เช่น Yoast หรือ Rank Math คุณสามารถแก้ไขไฟล์ robots.txt ได้โดยตรงภายในปลั๊กอินโดยไม่ต้องเข้าถึงเซิร์ฟเวอร์

ไฟล์ robots.txt มีผลต่อความเร็วของเว็บไซต์หรือไม่?

ไม่ ไฟล์นี้มีขนาดเพียงไม่กี่กิโลไบต์เท่านั้น ไม่มีผลต่อความเร็วในการโหลดหน้าเว็บ

ฉันบล็อกเว็บไซต์นั้นโดยใช้ robots.txt แล้ว ทำไมมันยังคงติดอันดับใน Google อยู่ล่ะ?

เนื่องจาก robots.txt บล็อกเฉพาะการรวบรวมข้อมูล ไม่ใช่การจัดทำดัชนี หากคุณต้องการให้หน้าเว็บหายไปจาก Google อย่างสมบูรณ์ ให้ใช้แท็ก <br> ในไฟล์ HTML - และ อย่า บล็อกหน้านั้นในไฟล์ robots.txt (เพื่อให้ Google สามารถอ่านแท็ก noindex ได้)

หลังจากแก้ไขไฟล์ robots.txt แล้ว Google จะใช้เวลานานแค่ไหนในการอัปเดต?

โดยปกติ Google จะตรวจสอบไฟล์ robots.txt ของคุณภายใน 24-48 ชั่วโมง คุณสามารถไปที่ Search Console → การตั้งค่า → การรวบรวมข้อมูล เพื่อขอให้ Google ตรวจสอบเร็วกว่านั้นได้

สรุป

ไฟล์ Robots.txt มีขนาดเล็ก โดยปกติจะมีเพียงไม่กี่บรรทัด แต่มีผลโดยตรงต่อการที่ Google จะค้นพบเว็บไซต์ของคุณหรือไม่

สิ่งที่ควรจำ:

ไฟล์ Robots.txt เปรียบเสมือนป้าย "พื้นที่หวงห้าม" ซึ่งจะบอก Google ว่าไม่ควรทำการรวบรวมข้อมูลหน้าเว็บใดบ้าง
ตรวจสอบทันทีเมื่อเว็บไซต์เปิดใช้งาน : ข้อผิดพลาดที่ทำให้เว็บไซต์หยุดทำงานทั้งหมดเป็นข้อผิดพลาดที่พบบ่อยและร้ายแรงที่สุด
อย่าใช้ robots.txt เพื่อซ่อนหน้าเว็บจาก Google เพราะมันจะบล็อกการรวบรวมข้อมูล แต่จะไม่บล็อกการจัดทำดัชนี
ควรอนุญาตให้ใช้ CSS และ JS เสมอ : Google จำเป็นต้องแสดงผลหน้าเว็บเพื่อทำความเข้าใจเนื้อหา
เมื่อนำสิ่งนี้ไปใช้ร่วมกับแผนผังเว็บไซต์ (sitemap) และ Search Console คุณจะสามารถควบคุมได้อย่างสมบูรณ์แบบว่า Google จะทำการรวบรวมข้อมูลและจัดทำดัชนีเว็บไซต์ของคุณอย่างไร

ตรวจสอบแพลตฟอร์มเว็บไซต์ของคุณ

ไฟล์ Robots.txt เป็นเพียงหนึ่งในปัจจัยทางเทคนิคมากมายที่ส่งผลต่อ SEO หากคุณสงสัยว่า "เว็บไซต์ของฉันตั้งค่าถูกต้องแล้วหรือยัง?" คำตอบนั้นขึ้นอยู่กับแพลตฟอร์มที่คุณใช้

GTG CRM ช่วยคุณสร้างเว็บไซต์ด้วยไฟล์ robots.txt มาตรฐาน แผนผังเว็บไซต์อัตโนมัติ และโครงสร้างทางเทคนิคที่พร้อมสำหรับ Google – คุณไม่ต้องกังวลกับการแก้ไขแต่ละไฟล์หรือโค้ดแต่ละบรรทัด

🚀 สร้างเว็บไซต์ที่ปรับแต่ง SEO ได้อย่างดีเยี่ยมด้วย GTG CRM