Thinh Dinh
532 penayangan
Daftar Isi
Anda memiliki sitemap, telah mengirimkannya ke Google, dan situs web Anda mulai diindeks. Namun suatu hari, Anda menemukan bahwa halaman admin, halaman pembayaran internal, atau halaman staging situs web juga muncul di Google. Pelanggan mengetikkan nama perusahaan Anda dan melihat halaman uji coba yang belum selesai.
Atau sebaliknya: Anda menerbitkan postingan blog baru, menunggu dua minggu, dan postingan tersebut masih belum muncul di Google. Anda bertanya kepada tim teknis, dan mereka mengatakan, "File robots.txt menghalangi Google untuk merayapi seluruh situs web."
Kedua situasi tersebut melibatkan sebuah file kecil yang jarang diperhatikan oleh administrator web: robots.txt .
Artikel ini akan menjelaskan apa itu robots.txt, bagaimana cara kerjanya, kapan Anda perlu mengeditnya, dan kesalahan umum yang harus dihindari oleh bisnis—semuanya dalam bahasa yang sederhana, dengan contoh-contoh praktis.
Jika sitemap diibaratkan diagram bangunan – yang menunjukkan kepada Google ruangan mana saja yang ada di sana – maka robots.txt diibaratkan tanda "Area Terbatas" – yang memberi tahu Google ruangan mana yang dilarang diakses .
Secara teknis: robots.txt adalah file teks kecil yang terletak di direktori utama sebuah situs web (misalnya: https://example.com/robots.txt ). File ini berisi aturan yang memberi tahu bot mesin pencari – seperti Googlebot – apa yang harus dilakukan.
Anda dapat melihat file robots.txt dari situs web mana pun dengan mengetik: ten-mien.com/robots.txt di browser Anda.
💡 Penting: robots.txt hanyalah permintaan sopan , bukan larangan mutlak. Bot terpercaya seperti Googlebot akan mematuhinya, tetapi bot jahat (spam, scraper) mungkin mengabaikannya. Jika Anda membutuhkan keamanan nyata, gunakan kata sandi atau firewall – jangan mengandalkan robots.txt.
Anda tidak perlu membuat file ini dari awal. Namun, untuk memahaminya secara sekilas, berikut adalah contoh sederhana file robots.txt:
User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xmlPenjelasan untuk setiap baris:
| Saat ini | Arti |
|---|---|
User-agent: * | Berlaku untuk semua bot (Google, Bing, dll.) |
Disallow: /admin/ | Mencegah bot mengakses direktori /admin/ . |
Disallow: /thanh-toan/ | Cegah bot mengakses halaman pembayaran. |
Disallow: /staging/ | Jangan izinkan bot masuk ke lingkungan staging. |
Allow: / | Biarkan bot merayapi sisanya. |
Sitemap: https://... | Tunjukkan kepada bot lokasi sitemap. |
Berikut contoh yang lebih kompleks – cocok untuk situs web bisnis dengan blog, halaman layanan, dan area admin:
# Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml📝 Catatan untuk pengembang: Karakter ` ` dalam jalur adalah wildcard — `/ ?utm_` berarti memblokir semua URL yang berisi parameter `?utm_`. Karakter `$` di akhir jalur digunakan untuk pencocokan URL yang tepat. Misalnya: `Disallow: /*.pdf$` akan memblokir semua file PDF.
Untuk memahami peran robots.txt, mari kita lihat kembali proses yang digunakan Google untuk memberi peringkat situs web dalam hasil pencarian:
Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng)Robots.txt beroperasi pada langkah pertama - Merayap (Crawl).
Sebelum Googlebot mulai merayapi halaman apa pun di situs web Anda, ia akan memeriksa file robots.txt Anda terlebih dahulu . Jika URL tercantum sebagai Disallow , Googlebot akan melewati halaman tersebut—tidak merayapi, tidak membaca kontennya.
Googlebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếm| Mengajukan | Peran |
|---|---|
| Peta Situs | "Ini adalah daftar halaman yang ingin saya beri tahukan kepada Google." |
| Robots.txt | "Ini adalah halaman-halaman yang tidak ingin saya indeks oleh Google." |
Kedua file ini tidak bertentangan—mereka bekerja sama. Sitemap memberikan petunjuk, sementara robots.txt menetapkan batasan. Jika digabungkan dengan benar, Anda dapat mengontrol apa yang dilihat dan diabaikan Google di situs web Anda.
Halaman admin, halaman backend CMS, halaman staging, halaman pengujian - tidak satu pun dari ini yang seharusnya muncul di hasil pencarian Google. Robots.txt memberi tahu Google: "Jangan masuk ke sini."
Disallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/Google tidak melakukan crawling tanpa batas. Setiap situs web memiliki "anggaran crawling"—jumlah halaman yang akan di-crawl oleh Googlebot pada setiap kunjungan. Jika sebuah situs web memiliki banyak halaman yang tidak penting (halaman pencarian internal, halaman filter, halaman pagination), Googlebot mungkin akan sibuk melakukan crawling halaman-halaman tersebut alih-alih halaman layanan penting atau postingan blog.
Disallow: /search? Disallow: /tag/ Disallow: /page/💡 Anggaran perayapan (crawl budget) sangat penting terutama untuk situs web besar (ribuan halaman). Situs web bisnis kecil biasanya tidak perlu terlalu khawatir, tetapi menjaga file robots.txt tetap bersih adalah kebiasaan yang baik.
Jika sebuah situs web memiliki beberapa URL yang mengarah ke konten yang sama (misalnya, URL dengan parameter pelacakan ?utm_source=facebook , atau versi cetak ?print=true ), Anda dapat memblokir URL duplikat ini:
Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print=Robots.txt adalah tempat pertama yang diperiksa Googlebot terkait sebuah situs web. Menempatkan sitemap Anda di sini membantu Google menemukannya lebih cepat – bahkan jika Anda belum mengirimkannya ke Search Console.
Sitemap: https://example.com/sitemap.xmlAnda tidak selalu perlu mengedit robots.txt. Tetapi ada kalanya memeriksa file ini wajib dilakukan :
Ini adalah momen paling kritis. Banyak situs web sepenuhnya diblokir dari pengindeksan karena tim pengembang lupa menghapus baris Disallow: / " - baris yang mereka tempatkan selama tahap pengujian untuk mencegah Google mengindeks versi yang belum selesai.
Lakukan pengujian saat akan ditayangkan:
| Kategori | Cara memeriksa |
|---|---|
| File robots.txt ada. | Buka https://ten-mien.com/robots.txt di browser Anda. |
| Jangan memblokir seluruh situs web. | Pastikan TIDAK ada Disallow: / |
| Sitemap telah dideklarasikan. | Pastikan baris berikut ada Sitemap: https://ten-mien.com/sitemap.xml |
| Halaman-halaman penting tidak diblokir. | Periksa apakah halaman layanan, blog, atau informasi kontak tidak termasuk dalam Disallow |
Jika Anda sudah memiliki sitemap, telah mengirimkannya ke Search Console, tetapi Google masih belum mengindeksnya, file robots.txt adalah hal pertama yang perlu diperiksa.
Jika situs web Anda menyertakan halaman manajemen akun, area anggota, atau halaman internal, harap perbarui file robots.txt Anda untuk memblokir area-area tersebut.
Setiap platform (WordPress, Webflow, kode kustom) membuat struktur URL yang berbeda. Saat migrasi, file robots.txt lama mungkin secara keliru memblokir halaman baru atau melewatkan halaman yang perlu diblokir.
Google Search Console menyediakan laporan pengindeksan yang menunjukkan halaman mana yang diblokir oleh robots.txt. Jika Anda melihat halaman penting diblokir, sudah saatnya untuk segera memperbaiki file tersebut.
Gejala: Tidak ada halaman yang diindeks oleh Google. Search Console melaporkan banyak halaman sebagai "Diblokir oleh robots.txt".
Alasan: File robots.txt berisi:
User-agent: Disallow: /Kedua baris ini berarti: "Blokir semua bot agar tidak dapat mengakses halaman mana pun." Ini sering terjadi ketika pengembang menetapkan aturan ini selama tahap pengujian dan lupa menghapusnya sebelum dirilis.
Solusi: Ubah menjadi:
User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xml Disallow: (tidak ada apa pun setelah titik dua) = mengizinkan semua merayap.
⚠️ Ini adalah kesalahan nomor 1 yang sering kami temukan di situs web bisnis baru. Setelah memperbaikinya, Google mungkin membutuhkan waktu beberapa hari hingga beberapa minggu untuk merayapi situs tersebut lagi. Kirim ulang sitemap Anda melalui Search Console untuk mempercepat prosesnya.
Gejala: Situs web ditampilkan secara normal di browser, tetapi saat menggunakan alat "Inspeksi URL" di Search Console, Google mendeteksi bahwa halaman tersebut memiliki tata letak yang rusak atau kosong.
Alasan: Robots.txt memblokir folder yang berisi CSS dan JS:
Disallow: /wp-content/ Disallow: /wp-includes/Google perlu membaca CSS dan JS untuk memahami tampilan suatu halaman (disebut "rendering"). Jika proses ini diblokir, Google tidak dapat merender halaman tersebut → Google tidak memahami kontennya → yang berdampak pada peringkat.
Cara memperbaikinya:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/📝 Catatan untuk pengembang: Sejak 2014, Google telah dengan jelas merekomendasikan untuk tidak memblokir CSS, JS, dan gambar di robots.txt. Googlebot membutuhkan sumber daya ini untuk merender halaman dengan benar. Gunakan alat Inspeksi URL di Search Console untuk memeriksa bagaimana Google merender halaman Anda.
Gejala: Halaman layanan, halaman produk, atau postingan blog tidak muncul di hasil pencarian Google - meskipun tercantum dalam peta situs (sitemap).
Alasan: Aturan di robots.txt terlalu luas. Misalnya:
Disallow: /dich-vu Baris ini memblokir tidak hanya /dich-vu/ tetapi juga /dich-vu-thiet-ke-web/ , /dich-vu-seo/ , dan URL apa pun yang diawali dengan /dich-vu .
Solusi: Tambahkan garis miring / di akhir jalur untuk memblokir direktori yang tepat:
Dilarang: /dich-vu-noi-bo/
Atau gunakan Allow untuk melindungi halaman yang diperlukan:
Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/📝 Catatan untuk pengembang: Urutan `Allow` dan `Disallow` berpengaruh. Googlebot menggunakan aturan yang paling spesifik (jalur yang paling spesifik). Jika panjangnya sama, `Allow` akan diutamakan daripada `Disallow`. Selalu uji menggunakan [Robots Testing Tool](https://support.google.com/webmasters/answer/6062598) di Search Console sebelum melakukan deployment.
Gejala: Mengetik ten-mien.com/robots.txt → menghasilkan kesalahan 404.
Alasan: Situs web dibangun secara manual dan pengembang tidak membuat file ini. Atau file tersebut terhapus secara tidak sengaja selama proses deployment.
Dampak: Tidak seserius kesalahan 1 - tanpa robots.txt, Google akan merayapi semuanya secara default. Namun ini berarti:
Solusi: Buat file robots.txt di direktori root. Konten minimum:
User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml Gejala: Anda memblokir halaman menggunakan Disallow , tetapi halaman tersebut masih muncul di Google – bahkan tanpa cuplikan konten apa pun.
Alasannya: Robots.txt memblokir perayapan , tetapi tidak pengindeksan . Jika halaman tersebut telah diindeks, atau memiliki tautan balik dari situs web lain yang mengarah ke sana, Google mungkin akan tetap menampilkan URL tersebut dalam hasil pencarian – hanya saja kontennya tidak akan ditampilkan.
Cara yang benar untuk memperbaikinya:
| Target | Apa yang harus digunakan |
|---|---|
| Saya tidak ingin Google merayapi situs saya. | Disallow di robots.txt |
| Tidak ingin Google mengindeks (menampilkan) konten Anda. | Kartu dalam HTML |
| Aku tidak menginginkan keduanya. | Gunakan noindex di HTML (dan jangan blokir di robots.txt). |
⚠️ Ini adalah kesalahpahaman yang paling umum: Jika Anda memblokir perayapan (robots.txt) dan menggunakan `noindex` (HTML), Google tidak akan melihat tag noindex karena tidak akan merayapi halaman tersebut — dan halaman tersebut mungkin masih diindeks. Solusinya: gunakan `noindex` di HTML dan hapus aturan `Disallow` untuk halaman tersebut di robots.txt.
Berikut adalah contoh file robots.txt yang sesuai untuk sebagian besar situs web bisnis UKM:
# ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml📝 Catatan untuk pengembang: File robots.txt harus terletak di domain utama — `https://example.com/robots.txt`. Bukan `/blog/robots.txt` atau subdirektori lainnya. Setiap subdomain membutuhkan robots.txt-nya sendiri (misalnya, `blog.example.com/robots.txt` terpisah dari `example.com/robots.txt`).
Ketik https://ten-mien-cua-ban.com/robots.txt ke bilah alamat. Anda akan melihat isi file dalam format teks. Jika Anda melihat kesalahan 404, itu berarti situs web tersebut tidak memiliki file robots.txt.
Di Search Console → Halaman (atau Pengindeksan ) → Temukan entri "Diblokir oleh robots.txt" . Jika ada halaman penting dalam daftar ini, Anda perlu segera mengedit robots.txt.
💡 Anda harus memeriksa file robots.txt setidaknya setiap tiga bulan sekali atau setiap kali situs web Anda mengalami perubahan besar (menambahkan halaman, mengubah struktur, bermigrasi ke platform lain).
| ✅ Anda harus memblokirnya. | ❌ JANGAN blokir |
|---|---|
Halaman admin ( /admin/ , /wp-admin/ ) | Halaman beranda, halaman layanan, halaman kontak |
| Halaman persiapan/pengujian | Posting blog, artikel |
Halaman pencarian internal ( /search? ) | File CSS dan JavaScript |
URL dengan parameter pelacakan ( ?utm_ , ?fbclid= ) | Gambar (Google Images juga mendatangkan trafik) |
| Keranjang belanja, proses pembayaran, halaman akun pribadi | Peta Situs |
| Halaman konten duplikat (filter, sortir, penomoran halaman) | Halaman FAQ, studi kasus |
Apa perbedaan antara Robots.txt dan sitemap?
Sitemap menyatakan, "Ini adalah halaman yang ingin saya beri tahu kepada Google." Robots.txt menyatakan, "Ini adalah halaman yang tidak ingin saya diindeks oleh Google." Kedua file tersebut saling melengkapi — sitemap memberikan arahan, robots.txt menetapkan batasan.
Tanpa file robots.txt, apakah Google masih dapat merayapi sebuah situs web?
Ya. Tanpa file robots.txt, Google akan merayapi semua halaman secara default—termasuk halaman yang tidak Anda inginkan. Itulah mengapa Anda harus memiliki file ini.
Saya menggunakan WordPress, di mana letak file robots.txt?
WordPress secara otomatis membuat file robots.txt virtual. Jika Anda menggunakan plugin SEO seperti Yoast atau Rank Math, Anda dapat mengedit file robots.txt langsung di dalam plugin tanpa mengakses server.
Apakah file robots.txt memengaruhi kecepatan situs web?
Tidak. File ini hanya berukuran beberapa KB. Ini tidak memengaruhi kecepatan pemuatan halaman.
Saya sudah memblokir situs tersebut menggunakan robots.txt, jadi mengapa situs itu masih muncul di peringkat Google?
Karena robots.txt hanya memblokir perayapan, bukan pengindeksan. Jika Anda ingin halaman tersebut hilang sepenuhnya dari Google, gunakan tag tersebut. dalam HTML - dan jangan blokir halaman tersebut di robots.txt (agar Google dapat membaca tag noindex).
Setelah mengedit file robots.txt, berapa lama waktu yang dibutuhkan Google untuk memperbaruinya?
Google biasanya memeriksa file robots.txt Anda dalam waktu 24-48 jam. Anda dapat membuka Search Console → Pengaturan → Perayapan untuk meminta Google memeriksanya lebih cepat.
Robots.txt adalah file kecil—biasanya hanya beberapa baris—tetapi file ini secara langsung memengaruhi apakah Google menemukan situs web Anda atau tidak.
Hal-hal yang perlu diingat:
Robots.txt hanyalah salah satu dari banyak faktor teknis yang memengaruhi SEO. Jika Anda bertanya-tanya, "Apakah situs web saya sudah diatur dengan benar?" - jawabannya terletak pada platform yang Anda gunakan.
GTG CRM membantu Anda membuat situs web dengan file robots.txt standar, peta situs otomatis, dan struktur teknis yang siap untuk Google – Anda tidak perlu khawatir mengedit setiap file atau baris kode.











