ثينه دينه
532 المشاهدات
جدول المحتويات
لديك خريطة موقع، وقد أرسلتها إلى جوجل، وبدأ موقعك الإلكتروني في الظهور في نتائج البحث. ولكن في أحد الأيام، تكتشف أن صفحة الإدارة، أو صفحة الدفع الداخلية، أو حتى صفحة الاختبار التجريبية لموقعك، تظهر على جوجل. يكتب العملاء اسم شركتك فيظهر لهم صفحة الاختبار غير المكتملة.
أو على العكس: تنشر مقالاً جديداً على مدونتك، وتنتظر أسبوعين، ولا يزال غير ظاهر على جوجل. تسأل الفريق التقني، فيقولون: "ملف robots.txt يمنع جوجل من فهرسة الموقع الإلكتروني بالكامل".
كلا الحالتين تتضمنان ملفًا صغيرًا لا يوليه سوى عدد قليل من مديري المواقع الإلكترونية اهتمامًا: robots.txt .
ستشرح هذه المقالة ماهية ملف robots.txt، وكيفية عمله، ومتى تحتاج إلى تعديله، والأخطاء الشائعة التي يجب على الشركات تجنبها - كل ذلك بلغة بسيطة، مع أمثلة عملية.
إذا كانت خريطة الموقع تشبه مخطط المبنى - حيث تُظهر لجوجل الغرف الموجودة - فإن ملف robots.txt يشبه علامة "المناطق المحظورة" - حيث يُخبر جوجل بالغرف المحظورة .
من الناحية التقنية: ملف robots.txt هو ملف نصي صغير موجود في المجلد الرئيسي لموقع الويب (على سبيل المثال: https://example.com/robots.txt ). يحتوي هذا الملف على قواعد تُخبر برامج زحف محركات البحث - مثل Googlebot - بما يجب عليها فعله.
يمكنك عرض ملف robots.txt لأي موقع ويب عن طريق كتابة: ten-mien.com/robots.txt في متصفحك.
💡 هام: ملف robots.txt مجرد طلب مهذب ، وليس حظرًا مطلقًا. ستلتزم به برامج الروبوت الموثوقة مثل Googlebot، لكن برامج الروبوت الخبيثة (البريد العشوائي، وبرامج استخراج البيانات) قد تتجاهله. إذا كنت بحاجة إلى أمان حقيقي، فاستخدم كلمة مرور أو جدار حماية - لا تعتمد على ملف robots.txt.
لستَ بحاجةٍ لكتابة هذا الملف من الصفر. ولكن لفهمه بسرعة، إليك ملف robots.txt بسيط:
User-agent: * Disallow: /admin/ Disallow: /thanh-toan/ Disallow: /staging/ Allow: / Sitemap: https://example.com/sitemap.xmlشرح لكل سطر:
| حاضِر | معنى |
|---|---|
User-agent: * | ينطبق على جميع برامج الروبوت (جوجل، بينج، إلخ). |
Disallow: /admin/ | منع البرامج الآلية من الوصول إلى دليل /admin/ . |
Disallow: /thanh-toan/ | منع البرامج الآلية من الوصول إلى صفحة الدفع. |
Disallow: /staging/ | لا تسمح بدخول البرامج الآلية إلى بيئة الاختبار. |
Allow: / | دع الروبوت يكمل عملية الزحف المتبقية. |
Sitemap: https://... | أظهر للبرامج الآلية مكان وجود خريطة الموقع. |
إليك مثال أكثر تعقيدًا - مناسب لموقع ويب تجاري يحتوي على مدونة وصفحات خدمات ومنطقة إدارة:
# Cho phép tất cả bot crawl nội dung công khai User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search? Disallow: /*?ref= Disallow: /*?utm_ # Cho phép Googlebot crawl CSS và JS (cần thiết để render trang) User-agent: Googlebot Allow: /wp-content/uploads/ Allow: /wp-includes/ Sitemap: https://example.com/sitemap.xml📝 ملاحظة للمطورين: تُستخدم الأحرف ` ` في المسار كأحرف بدل — `/ ?utm_` تعني حظر جميع عناوين URL التي تحتوي على المعامل `?utm_`. تُستخدم الأحرف `$` في نهاية المسار للمطابقة التامة لعنوان URL. على سبيل المثال: `Disallow: /*.pdf$` سيحظر جميع ملفات PDF.
لفهم دور ملف robots.txt، دعونا نلقي نظرة على العملية التي تستخدمها جوجل لترتيب مواقع الويب في نتائج البحث:
Crawl → Index → Rank (Quét) (Lưu) (Xếp hạng)يعمل ملف Robots.txt في الخطوة الأولى - الزحف.
قبل أن يبدأ برنامج Googlebot بفهرسة أي صفحة على موقعك الإلكتروني، يتحقق أولاً من ملف robots.txt . إذا كان عنوان URL مدرجًا على أنه Disallow ، فسيتجاهل Googlebot تلك الصفحة - لن يتم فهرستها، ولن يتم قراءة محتواها.
Googlebot muốn crawl https://example.com/admin/settings → Kiểm tra robots.txt → Thấy Disallow: /admin/ → Bỏ qua, không crawl Googlebot muốn crawl https://example.com/dich-vu/ → Kiểm tra robots.txt → Không bị chặn → Crawl bình thường → Index → Có thể lên kết quả tìm kiếm| ملف | دور |
|---|---|
| خريطة الموقع | "هذه قائمة بالصفحات التي أريد أن تعرفها جوجل." |
| ملف Robots.txt | "هذه هي الصفحات التي لا أريد أن يقوم جوجل بفهرستها." |
لا يتعارض هذان الملفان، بل يعملان معًا. يوفر ملف خريطة الموقع التوجيهات، بينما يحدد ملف robots.txt حدود الوصول. وباستخدامهما معًا بشكل صحيح، يمكنك التحكم فيما يراه جوجل ويتجاهله على موقعك الإلكتروني.
صفحة الإدارة، صفحة الواجهة الخلفية لنظام إدارة المحتوى، صفحة بيئة الاختبار، صفحة التجربة - لا ينبغي أن تظهر أي من هذه الصفحات في نتائج بحث جوجل. ملف Robots.txt يُخبر جوجل: "لا تزور هذه الصفحة".
Disallow: /admin/ Disallow: /wp-admin/ Disallow: /staging/لا يقوم جوجل بالزحف إلى ما لا نهاية. لكل موقع إلكتروني "ميزانية زحف" - أي عدد الصفحات التي سيزحف إليها برنامج جوجل بوت في كل زيارة. إذا كان الموقع يحتوي على العديد من الصفحات غير المهمة (صفحات البحث الداخلية، وصفحات التصفية، وصفحات الترقيم)، فقد ينشغل جوجل بوت بالزحف إلى هذه الصفحات بدلاً من صفحات الخدمات المهمة أو منشورات المدونة.
Disallow: /search? Disallow: /tag/ Disallow: /page/💡 تُعدّ ميزانية الزحف مهمة بشكل أساسي للمواقع الإلكترونية الكبيرة (التي تضم آلاف الصفحات). أما مواقع الشركات الصغيرة، فلا تحتاج عادةً إلى القلق كثيرًا، ولكن من المستحسن الحفاظ على ملف robots.txt نظيفًا.
إذا كان لموقع ويب عناوين URL متعددة تؤدي إلى نفس المحتوى (على سبيل المثال، عنوان URL يحتوي على معلمة التتبع ?utm_source=facebook ، أو نسخة للطباعة ?print=true )، فيمكنك حظر عناوين URL المكررة هذه:
Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?print=يُعد ملف Robots.txt أول مكان يتحقق منه برنامج Googlebot عند فحص موقع ويب. يساعد وضع خريطة موقعك هنا جوجل في العثور عليها بشكل أسرع، حتى لو لم تكن قد أرسلتها إلى Search Console بعد.
Sitemap: https://example.com/sitemap.xmlليس من الضروري دائمًا تعديل ملف robots.txt، ولكن هناك أوقات يكون فيها التحقق من هذا الملف إلزاميًا .
هذه هي اللحظة الأكثر حساسية. العديد من المواقع الإلكترونية محظورة تمامًا من الزحف لأن فريق التطوير نسي إزالة السطر Disallow: / " - وهو سطر وضعوه أثناء مرحلة الاختبار لمنع جوجل من فهرسة النسخة غير المكتملة.
اختبار عند بدء التشغيل الفعلي:
| فئة | كيفية التحقق |
|---|---|
| ملف robots.txt موجود. | افتح الرابط https://ten-mien.com/robots.txt في متصفحك. |
| لا تقم بحظر مواقع الويب بأكملها. | تأكد من عدم وجود أي Disallow: / |
| تم الإعلان عن خريطة الموقع. | تأكد من وجود السطر التالي Sitemap: https://ten-mien.com/sitemap.xml |
| الصفحات المهمة غير محظورة. | تحقق مما إذا كانت صفحة الخدمة أو المدونة أو معلومات الاتصال غير مدرجة في Disallow |
إذا كان لديك بالفعل خريطة موقع، وقمت بإرسالها إلى Search Console، ولكن جوجل لا يزال لا يقوم بفهرستها، فإن ملف robots.txt هو أول ما يجب التحقق منه.
إذا كان موقعك الإلكتروني يتضمن صفحات إدارة الحسابات أو مناطق الأعضاء أو الصفحات الداخلية، فيرجى تحديث ملف robots.txt الخاص بك لحظر هذه المناطق.
تُنشئ كل منصة (ووردبريس، ويب فلو، أو كود مخصص) بنية عناوين URL مختلفة. عند الترحيل، قد يحظر ملف robots.txt القديم الصفحة الجديدة عن طريق الخطأ أو يغفل صفحات أخرى يجب حظرها.
توفر أداة مشرفي المواقع من جوجل تقريرًا عن الفهرسة يُظهر الصفحات التي يحظرها ملف robots.txt. إذا لاحظتَ حظر صفحة مهمة، فعليك إصلاح الملف فورًا.
العرض: لا يتم فهرسة أي صفحات بواسطة جوجل. تشير وحدة تحكم البحث إلى أن العديد من الصفحات "محظورة بواسطة ملف robots.txt".
السبب: يحتوي ملف robots.txt على ما يلي:
User-agent: Disallow: /هذان السطران يعنيان: "حظر وصول جميع برامج الروبوت إلى أي صفحة". يحدث هذا غالبًا عندما يقوم المطورون بتعيين هذه القاعدة أثناء مرحلة الاختبار وينسون إزالتها قبل إطلاق الموقع.
الحل: التغيير إلى:
User-agent: * Disallow: Sitemap: https://ten-mien.com/sitemap.xml Disallow: (لا شيء بعد النقطتين) = يسمح بالزحف على الكل.
⚠️ هذا هو الخطأ الأكثر شيوعًا الذي نلاحظه في مواقع الشركات الجديدة. بعد إصلاحه، قد يستغرق جوجل من عدة أيام إلى عدة أسابيع لفهرسة الموقع مرة أخرى. أعد إرسال خريطة موقعك عبر Search Console لتسريع العملية.
العرض: يتم عرض الموقع الإلكتروني بشكل طبيعي في المتصفح، ولكن عند استخدام أداة "فحص عنوان URL" في Search Console، يكتشف Google أن الصفحة بها تخطيط معطل أو فارغة.
السبب: ملف Robots.txt يحجب المجلد الذي يحتوي على ملفات CSS و JS:
Disallow: /wp-content/ Disallow: /wp-includes/يحتاج جوجل إلى قراءة ملفات CSS وJS لفهم شكل الصفحة (وهي عملية تُسمى "العرض"). إذا تم حظر هذه العملية، فلن يتمكن جوجل من عرض الصفحة، وبالتالي لن يفهم محتواها، مما يؤثر على ترتيبها في نتائج البحث.
كيفية إصلاحها:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Allow: /wp-content/ Allow: /wp-includes/📝 ملاحظة للمطورين: منذ عام ٢٠١٤، أوصت جوجل صراحةً بعدم حظر ملفات CSS وJS والصور في ملف robots.txt. يحتاج برنامج Googlebot إلى هذه الموارد لعرض الصفحات بشكل صحيح. استخدم أداة فحص عناوين URL في Search Console للتحقق من كيفية عرض جوجل لصفحتك.
العرض: لا تظهر صفحات الخدمة أو صفحات المنتجات أو منشورات المدونة في نتائج بحث جوجل - على الرغم من أنها مدرجة في خريطة الموقع.
السبب: القاعدة في ملف robots.txt عامة جدًا. على سبيل المثال:
Disallow: /dich-vu لا يحظر هذا السطر /dich-vu/ فحسب، بل يحظر أيضًا /dich-vu-thiet-ke-web/ و /dich-vu-seo/ وأي عنوان URL يبدأ بـ /dich-vu .
الحل: أضف شرطة مائلة / في نهاية المسار لحجب الدليل المحدد:
ممنوع: /dich-vu-noi-bo/
أو استخدم Allow لحماية الصفحات الضرورية:
Disallow: /dich-vu-noi-bo/ Allow: /dich-vu/ Allow: /dich-vu-thiet-ke-web/📝 ملاحظة للمطورين: يؤثر ترتيب "السماح" و"المنع" على النتائج. يستخدم Googlebot القاعدة الأكثر تحديدًا (المسار الأكثر تحديدًا). إذا كان طولهما متساويًا، فإن "السماح" له الأولوية على "المنع". يُرجى دائمًا الاختبار باستخدام أداة اختبار الروبوتات في Search Console قبل النشر.
العرض: كتابة ten-mien.com/robots.txt → يؤدي إلى ظهور خطأ 404.
السبب: تم إنشاء الموقع الإلكتروني يدويًا ولم يقم المطور بإنشاء هذا الملف. أو تم حذف الملف عن طريق الخطأ أثناء النشر.
التأثير: ليس بنفس خطورة الخطأ الأول - فبدون ملف robots.txt، يقوم جوجل بفهرسة كل شيء افتراضيًا. ولكن هذا يعني:
الحل: أنشئ ملف robots.txt في المجلد الرئيسي. الحد الأدنى للمحتوى:
User-agent: * Disallow: /admin/ Disallow: /search? Sitemap: https://ten-mien.com/sitemap.xml العرض: تقوم بحظر صفحة باستخدام Disallow ، ولكن هذه الصفحة لا تزال تظهر على جوجل - حتى بدون أي مقتطفات من المحتوى.
السبب: يمنع ملف robots.txt الزحف ، لكنه لا يمنع الفهرسة . إذا كانت الصفحة مفهرسة بالفعل، أو تحتوي على روابط خلفية من مواقع أخرى تشير إليها، فقد يحتفظ جوجل بعنوان URL في نتائج البحث، لكنه لن يعرض المحتوى.
الطريقة الصحيحة لإصلاحها:
| هدف | ما الذي يجب استخدامه |
|---|---|
| لا أريد أن يقوم جوجل بفهرسة موقعي. | Disallow في ملف robots.txt |
| لا تريد أن يقوم جوجل بفهرسة (عرض) محتواك. | بطاقة في لغة HTML |
| لا أريد كليهما. | استخدم noindex في HTML ( ولا تقم بحظرها في ملف robots.txt). |
⚠️ هذا هو سوء الفهم الأكثر شيوعًا: إذا قمتَ بحظر الزحف (في ملف robots.txt) واستخدمتَ خاصية `noindex` (في HTML)، فلن يرى جوجل وسم `noindex` لأنه لن يزحف إلى تلك الصفحة، وقد تظل الصفحة مفهرسة. الحل: استخدم خاصية `noindex` في HTML، واحذف قاعدة `Disallow` لتلك الصفحة في ملف robots.txt.
فيما يلي نموذج لملف robots.txt مناسب لمعظم مواقع الشركات الصغيرة والمتوسطة:
# ============================================= # Robots.txt cho website doanh nghiệp # Cập nhật: 2026-04-20 # ============================================= # Áp dụng cho tất cả bot User-agent: * # Chặn khu vực quản trị và nội bộ Disallow: /admin/ Disallow: /wp-admin/ Disallow: /dashboard/ Disallow: /staging/ # Chặn trang tìm kiếm nội bộ (tránh lãng phí crawl budget) Disallow: /search? Disallow: /*?s= # Chặn URL có tham số tracking (tránh nội dung trùng lặp) Disallow: /*?utm_ Disallow: /*?ref= Disallow: /*?fbclid= # Chặn trang giỏ hàng / thanh toán (nếu có) Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # Cho phép CSS, JS, hình ảnh (Google cần để render trang) Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-includes/ # Chỉ đường đến sitemap Sitemap: https://ten-mien.com/sitemap.xml📝 ملاحظة للمطورين: يجب أن يكون ملف robots.txt موجودًا في النطاق الرئيسي — `https://example.com/robots.txt`. وليس في `/blog/robots.txt` أو أي مجلد فرعي آخر. يحتاج كل نطاق فرعي إلى ملف robots.txt خاص به (على سبيل المثال، `blog.example.com/robots.txt` منفصل عن `example.com/robots.txt`).
اكتب https://ten-mien-cua-ban.com/robots.txt في شريط العناوين. ستظهر لك محتويات الملف بصيغة نصية. إذا ظهر لك خطأ 404، فهذا يعني أن الموقع لا يحتوي على ملف robots.txt.
في Search Console → الصفحات (أو الفهرسة ) → ابحث عن الإدخال "محظور بواسطة robots.txt" . إذا كانت هناك صفحات مهمة في هذه القائمة، فيجب عليك تعديل ملف robots.txt فورًا.
💡 يجب عليك التحقق من ملف robots.txt الخاص بك على الأقل كل ثلاثة أشهر أو كلما خضع موقعك الإلكتروني لتغييرات كبيرة (إضافة صفحات، تغيير الهيكل، الانتقال إلى منصة مختلفة).
| ✅ يجب عليك حظره. | ❌ لا تقم بالحظر |
|---|---|
صفحة الإدارة ( /admin/ ، /wp-admin/ ) | الصفحة الرئيسية، صفحة الخدمات، صفحة الاتصال |
| صفحة تجريبية/اختبارية | منشور مدونة، مقال |
صفحة البحث الداخلي ( /search? ) | ملفات CSS و JavaScript |
عنوان URL مع معلمات التتبع ( ?utm_ , ?fbclid= ) | الصور (تساهم صور جوجل أيضاً في زيادة عدد الزيارات) |
| سلة التسوق، صفحة الدفع، صفحة الحساب الشخصي | خريطة الموقع |
| صفحات المحتوى المكررة (التصفية، الفرز، الترقيم) | صفحة الأسئلة الشائعة، دراسة حالة |
ما الفرق بين ملف Robots.txt وخريطة الموقع؟
يقول ملف Sitemap: "هذه هي الصفحة التي أريد أن يعرفها جوجل". ويقول ملف Robots.txt: "هذه هي الصفحة التي لا أريد أن يزحف إليها جوجل". يكمل الملفان بعضهما البعض - يوفر ملف Sitemap التوجيهات، بينما يحدد ملف Robots.txt الحاجز.
هل لا يزال بإمكان جوجل الزحف إلى موقع ويب بدون ملف robots.txt؟
نعم. بدون ملف robots.txt، سيقوم جوجل بفهرسة جميع الصفحات افتراضيًا، بما في ذلك الصفحات التي لا تريدها. لهذا السبب يجب أن يكون لديك هذا الملف.
أستخدم ووردبريس، أين يوجد ملف robots.txt؟
يقوم ووردبريس تلقائيًا بإنشاء ملف robots.txt افتراضي. إذا كنت تستخدم إضافة لتحسين محركات البحث مثل Yoast أو Rank Math، فيمكنك تعديل ملف robots.txt مباشرةً من داخل الإضافة دون الحاجة إلى الوصول إلى الخادم.
هل يؤثر ملف robots.txt على سرعة الموقع الإلكتروني؟
لا، حجم هذا الملف بضعة كيلوبايتات فقط. ولا يؤثر على سرعة تحميل الصفحة.
لقد حظرت الموقع باستخدام ملف robots.txt، فلماذا لا يزال يظهر في نتائج بحث جوجل؟
لأن ملف robots.txt يمنع الزحف فقط، وليس الفهرسة. إذا كنت تريد اختفاء الصفحة تمامًا من جوجل، فاستخدم الوسم. في لغة HTML - ولا تقم بحظر تلك الصفحة في ملف robots.txt (حتى تتمكن جوجل من قراءة علامة noindex).
بعد تعديل ملف robots.txt، كم من الوقت سيستغرق تحديث جوجل؟
عادةً ما تفحص جوجل ملف robots.txt الخاص بك خلال 24-48 ساعة. يمكنك الانتقال إلى Search Console ← الإعدادات ← الزحف لطلب فحص جوجل له في وقت أقرب.
ملف Robots.txt هو ملف صغير - عادةً ما يتكون من بضعة أسطر فقط - ولكنه يؤثر بشكل مباشر على ما إذا كان جوجل سيجد موقعك الإلكتروني أم لا.
أمور يجب تذكرها:
ملف Robots.txt ليس سوى عامل تقني واحد من بين العديد من العوامل التي تؤثر على تحسين محركات البحث. إذا كنت تتساءل: "هل موقعي الإلكتروني مُهيأ بشكل صحيح؟"، فالإجابة تكمن في المنصة التي تستخدمها.
يساعدك نظام إدارة علاقات العملاء GTG CRM في إنشاء موقع ويب باستخدام ملف robots.txt قياسي، وخريطة موقع تلقائية، وهيكل تقني جاهز لمحركات البحث مثل جوجل - لست بحاجة إلى القلق بشأن تعديل كل ملف أو سطر من التعليمات البرمجية.











