فایل Robots.txt چیست و چه کاربردی در سئوی سایت دارد؟
۰۱ آذر ۱۴۰۰

فایل  robots.txtچیست؟

ازموارد فنی سئو تکنیکال که برای بهینه کردن ایندکس صفحات سایت به کار میرود استفاده از فایل robots.txt است. Robots.txt یک فایل متنی است که برای هدایت ربات های موتور جستجو برای نحوه خزیدن و ایندکس صفحات وب سایت استفاده می شود. از آنجا که فایل robots.txt ربات های جستجو را در مورد نحوه خزیدن صفحات مختلف وب سایت شما راهنمایی می کند، دانستن نحوه استفاده و تنظیم این فایل بسیار مهم است. برای جلوگیری از ایندکس شدن صفحات می توان از روش های دیگر مانند تگ noindex استفاده کرد اما زمانی که بخواهید یک دسته از صفحات ایندکس نشوند، نمی توانید برای هر کدام از صفحات به صورت جداگانه از تگ noindex استفاده کنید. در اینجا robots.txt به کمک شما می آید.

اگر یک فایل robots.txt نادرست تنظیم شده باشد ، می تواند باعث اشتباه در ایندکس شدن صفحات سایت شود. بنابراین، هر بار که یک کمپین SEO جدید را شروع می کنید، فایل robots.txt خود را با ابزار نوشتاری روبات های Google بررسی کنید.

 

دلایل استفاده از فایل robots.txt چیست؟

 

1. با استفاده از این فایل می‌توان دسترسی موتورهای جستجو را مدیریت کرد

محدود کردن دسترسی خزندگان موتورهای جستجو به صفحات، فایل‌ها و محتوای انتخابی سایت‌ها رایج‌ترین دلیل استفاده از فایل robots.txt است.

اگر برای شما این سؤال پیش آمده باشد که چرا باید بعضی از صفحات یا فایل‌ها را ایندکس نکنیم، در پاسخ به این سوال باید گفت که در بسیاری از موارد، ایندکس شدن و معرفی شدن یک صفحه یا فایل از یک سایت در موتورهای جستجو می‌تواند نتایج نامناسبی به همراه داشته باشد.

به عنوان مثال شاید یک وب‌مستر قصد انتشار مطلبی خاص را داشته باشد که مخاطبین آن مطلب نیز افرادی خاص و منتخب هستند. این مطلب ممکن است از لحاظ بعضی شرایطی، برخی از قوانین موتورهای جستجو را نقض کند و یا شامل محتوایی باشد که امکان معرفی آن به صورت عمومی وجود نداشته باشد. در این صورت می‌توان با کمک فایل Robots.txt دسترسی موتورهای جستجو به این صفحات یا فایل‌ها را محدود کرد.

از بارزترین مثال‌ها در این زمینه، سایت‌های اشتراک فایل غیرقانونی از جمله سایت‌های تورنت هستند. خیلی از این سایت‌ها اجازه دسترسی به محتوای داخلشان را به ربات‌های موتورهای جستجو نمی‌دهند و به جای آن جستجوگر داخلی خودشان را به کاربران پیشنهاد می‌کنند. چون اگر محتوای این سایت‌ها توسط ربات‌ها شناسایی شوند، این سایت‌ها به خاطر ارائه محتوای غیرقانونی نه تنها رتبه و جایگاه خود را در موتورهای جستجو از دست می‌دهند، بلکه مسائل مربوط به حقوق کپی‌رایت و مسائلی از این قبیل نیز گریبان‌گیرشان خواهد شد.

2. عدم استفاده از فایل robots.txt می‌تواند به افت عملکرد بهینه سایت دامن بزند

وب‌سایت‌های فعال به ویژه وب‌سایت‌های پربازدید و بزرگ، روزانه هزاران بار توسط ربات‌های گوناگون از سمت موتورهای جستجو مورد بازدید و بررسی قرار می‌گیرند. هر ربات یا به اصطلاح خزنده (Crawler) طی یک فرآیند دومرحله‌ای (بررسی و سپس ایندکس) اقدام به جمع‌آوری اطلاعات از سایت‌ها می‌کند. این فرآیند شامل بررسی تمام بخش‌های سایت شما است. حالا فرض کنید به صورت روزانه صدها یا هزاران ربات شروع به بررسی و جمع‌آوری اطلاعات از سایت شما می‌کنند و در این صورت، عملکرد بهینه سایت شما و سرعت بارگذاری اطلاعات آن برای مرورگرها تحت‌الشعاع قرار خواهد گرفت.

بدیهی‌ست که رفت و آمد این حجم از ربات‌ها می‌تواند تا حد قابل توجهی بازدهی کلی سایت را با شرایط نامناسبی همراه کند. البته اگرچه این موضوع برای سایت‌هایی که بازدید کمتری دارند بسیار کمتر به چشم می‌آید اما برای سایت‌های پربازدید که به خودی خود باید روزانه ترافیک بازدید از سمت هزاران کاربر را هندل کنند، اضافه شدن ترافیک زیاد این ربات‌ها نیز ممکن است دردسرساز باشد.

در این مواقع اغلب وب‌مسترها به راحتی و با استفاده از robots.txt دسترسی ربات‌های موتورهای جستجو را به بخش‌های مختلف و مشخص شده‌ای که اهمیت چندانی برای سئو و کسب رتبه در موتورهای جستجو ندارند را محدود می‌کنند. در این حالت نه تنها سرور سایت با ترافیک سبک‌تری فعالیت خواهد کرد، بلکه مراحل بررسی و جمع‌آوری اطلاعات و سپس ایندکس کردن آن‌ها توسط ربات‌ها نیز به مقدار بسیار زیادی سریع‌تر خواهد شد.

 

3. استفاده از فایل robots.txt می‌تواند در مدیریت لینک‌ها کاربردی باشد

از دیگر مزایای استفاده از robots.txt امکان مدیریت لینک‌ها و آدرس صفحات (URL) است. در بحث سئو مسئله‌ای با عنوان مخفی‌سازی آدرس صفحات یا URL Cloacking وجود دارد. این بحث درواقع نوعی تکنیک سئو برای پنهان کردن آدرس صفحات از دید کاربران و یا موتورهای جستجو است. با کمک robots.txt می‌توان این مدل لینک‌ها را مدیریت کرده و آدرس آن‌ها را پنهان کرد.

بیشترین کاربرد این مورد در استفاده از لینک‌های مربوط به بحث "سیستم همکاری در فروش" یا "Affiliate Marketing" می‌باشد. در این حالت، شما می‌توانید لینک‌های ایجاد شده در سیستم Affiliate که با عنوان Affiliate Links شناخته می‌شوند را مدیریت کرده و آدرس آن‌ها را مخفی کنید تا کاربران به نوعی مجبور به کلیک روی آن‌ها شوند.

توجه کنید که این تکنیک فقط باید توسط افراد حرفه‌ای انجام شود. چراکه URL Cloacking یکی از تکنیک‌های سئوی کلاه سیاه است و در صورتی که به درستی آن را پیاده‌سازی نکنید، متهم به نقض قوانین موتورهای جستجو شده و شامل جریمه‌های گوگل خواهید شد.

فایل Robots.txt چیست و چه کاربردی در سئوی سایت دارد؟

 

آیا فایل robots.txt برای سئو مهم است؟

 

این فایل به چند دلیل دارای اهمیت است:

۱- مدیریت ترافیک ربات‌ها به وبسایت

مدیریت ترافیک ربات‌ها از این جهت اهمیت دارد که سرور میزبان وبسایت شما برای پردازش و بارگذاری صفحات برای ربات‌ها مشغول نشود. از طرف دیگر، اکثر سرورها یا میزبان‌های وبسایت از نظر پنهای باند و ترافیک محدودیت دارند؛ به همین دلیل مصرف ترافیک برای ربات‌ها مقرون به صرفه نیست.

۲- جلوگیری از نمایش صفحات یا فایل‌ها در نتایج جستجوی گوگل

اگر در فایل Robots دستور دهید که ربات‌های گوگل اجازه دسترسی به صفحاتی را ندارند، این صفحات کلاً بررسی نمی‌شوند اما هیچ تضمینی وجود ندراد که این صفحه در نتایج جستجوی گوگل ظاهر نشود.  امکان دارد ربات‌ها از طریق لینک‌هایی که به همان صفحه داده شده‌اند و کمک گرفتن از همان انکر تکست لینک، صفحه را ایندکس کنند. در حال حاضر بهترین راه برای حذف صفحه‌ای از نتایج جستجو، اضافه کردن دستور noindex در قسمت head صفحه‌ها است. اگر از وردپرس استفاده می‌کنید افزونه‌هایی برای این کار وجود دارد و در غیر اینصورت باید از طراحی وبسایت خود بخواهید که امکاناتی برای افزودن این کد‌ها یا دستورات در قسمت هد هر صفحه فراهم کند.

۳- مدیریت Crawl Budget

هرچه تعداد صفحات وبسایت شما بیشتر باشد، ربات‌های موتور جستجو زمان بیشتری برای خزیدن و ایندکس کردن صفحات نیاز دارد. همین زمان طولانی، روی رتبه سایت‌تان در نتایج جستجو، تاثیر منفی خواهد گذاشت.

 

فایل robots.txt چگونه کار می کند؟

فایل robots.txt یک فایل متنی با ساختاری ساده است. نحوه عملکرد این فایل با کمک دستورات پیش‌فرض و ادغام کردن کلمات کلیدی از پیش تعیین شده است. از جمله مهم‌ترین و رایج‌ترین این دستورات مواردی مثل User-agent ، Disallow ، Allow ، Crawl-delay و Sitemap می‌باشند که در ادامه به صورت جداگانه هریک از این موارد را با جزئیات آن‌ها شرح می‌دهیم.

User-agent: این دستور برای مشخص کردن ربات‌ها و خرندگانی است که امکان دسترسی به بخش‌های سایت را داشته باشند یا خیر. با این دستورالعمل می‌توان به تمام ربات‌ها دسترسی داد و یا با اضافه کردن نام رباتی خاص، فقط به آن ربات دسترسی‌های مختلف را داد یا محدود کرد.

مثال: یک ربات وارد سایت شما شده و قصد بررسی و جمع‌آوری اطلاعات از یک صفحه خاص برای مثال www.example.com/test.html را دارد. این ربات قبل از اینکه این صفحه را مورد بررسی قرار دهد، ابتدا فایل robots.txt را چک می‌کند. برای مثال محتویات داخل این فایل به صورت زیر است:

User-agent: * به این معنی است که تمام بخش‌های این سایت قابل دسترس برای تمام ربات‌ها و خزندگان موتورهای جستجو است. اما اگر قصد این را دارید که اطلاعات خود را فقط برای یک ربات خاص تعیین کنید باید نام دقیق آن ربات را به جای ستاره جایگذاری کنید.

 

نحوه ساخت فایل  robots.txt چگونه است؟

یک فایل ساده برای مدیریت روبات های اینترنتی از دو قانون اصلی استفاده میکند که عبارتند از:
User-agent 
: نشان دهنده نوع روباتی است که نباید به صفحه دسترسی داشته باشد.
Disallow 
: بیانگر آدرس صفحه ای است که میخواهید از دید روبات ها پنهان بماند.

با ترکیب این دو دستور شما میتوانید قوانین مختلفی را برای دسترسی به صفحات داخلی سایت تعریف کنید. بعنوان مثال برای یک user-agent مشخص میتوان چندین آدرس را معرفی نمود و یا برعکس.

لیست تمامی روبات های اینترنتی معتبر در دیتابیس Web Robots Database موجود است و شما میتوانید با قرار دادن نام هریک بعنوان User-agent قوانین مشخصی برای آنها تعریف کنید و یا با استفاده از کاراکتر * به جای نام در فایل robots.txt یک قانون را برای همه روبات ها اعمال کنید. مانند:

User-agent: *

Disallow: /folder1/

موتور جستجوی گوگل چندیدن نوع روبات مخصوص بخود دارد که معروفترین آنها با نام Googlebot شناخته میشود و وظیفه بررسی و ایندکس صفحات وب را برعهده دارد. روبات Gogglebot-image نیز مسئول بررسی تصاویر سایت ها و ایندکس کردن آنها می باشد.

User-Agent: Googlebot

Disallow: /folder2/

شما میتوانید به روش های مختلفی قوانین خود را اعمال کنید، میتوان یک صفحه مشخص و یا یک دسته از صفحات را برای یک قانون تعریف نمود. مثال های زیر روش های مختلف استفاده از این قوانین هستند:
برای عدم دسترسی روبات ها به تمام محتویات سایت از کاراکتر / استفاده میکنیم

Disallow: /

برای عدم دسترسی به یک فولدر یا دسته از سایت نام آن را وارد کنید

Disallow: /blog/

برای اعمال محدودیت روی یک صفحه خاص آدرس دقیق آن را بدون نام سایت وارد کنید

Disallow: /blog/keyword-planner/

برای محدود کردن یک تصویر بر روی سایت آدرس آن را بهمراه User-agent مربوط به آن وارد کنید

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

و برای مخفی کردن تمام تصاویر موجود بر روی سایت از دید موتورهای جستجو از دستور زیر استفاده کنید

User-agent: Googlebot-Image
Disallow: /

همچنین شما میتوانید یک نوع فایل مشخص را از دید موتورهای جستجو مخفی نگه دارید، بعنوان مثال برای تصاویری با فرمت gif

User-agent: Googlebot
Disallow: /*.gif$

توجه داشته باشید که فایل robots.txt نسبت به بزرگ و کوچک بودن حروف انگلیسی حساس بوده و آدرس صفحات باید به دقت وارد شوند. پس از ساخت فایل مورد نظر خود و ذخیره آن در فرمت txt آن را بر روی سرور و در ریشه اصلی کپی کنید. قوانین اعمال شده برای روبات هایی هستند که از این پس به سایت شما وارد میشوند حذف صفحاتی که در گذشته ایندکس شده اند از دیتابیس گوگل نیازمند گذشت زمان خواهد بود.

 

 

تست فایل  robots.txt و اطمینان از نحوه عملکرد آن 

فایل robots.txt مشخص می کند چه مطالبی از سایت توسط خزنده ی گوگل دیده شوند و چه مطالبی از دید خزنده دور مانده و ایندکس نشوند.

ایجاد فایل robots.txt ای که به درستی مطالب را مشخص کند و بخش های غیر مطلوب سایت را به خوبی پوشش دهد کار ساده ای نیست، به همین دلیل بسیاری از ساختن این فایل سر باز می زنند. گوگل وبمستر تولز با ارائه robots.txt testing tool این کار را برای افراد آسان ترکرده است.

شما می توانید این ابزار را در گوگل وبمستر تولز در بخش خزنده “crawl” ببینید:

در این بخش شما می توانید فایلی که تحت عنوان robots.txt وجود دارد را بررسی کرده و آدرس هایی که فعال هستند و خزنده می تواند آنها را بیابد پیدا کنید. برای راهنمایی بهتر در مورد دستور العمل های پیچیده بخشهایی به صورت برجسته مشخص شده اند تا شما بتوانید راحت تر به هدف خود دست یابید.شما می توانید اطلاعات این فایل را تغییر داده و یا توسط این ابزار آنها را چک کنید. البته فراموش نکنید که لازم است بعد از اعمال تغییرات نسخه تغییر یافته را در سرور آپلود کنید تا تاثیرات مربوط به آن در سایت ظاهر شوند.

علاوه بر آن شما می توانید نسخه های قدیمی تر را بررسی کرده و مواردی که مانع شدند تا خزنده مطالب سایت را به درستی بیابد، پیدا کنید. برای مثال اگر ربات گوگل برای فایل robots.txt با خطای ۵۰۰سرور مواجه شد می توانیم از ادامه ی فعالیت خزنده در سایت تا زمان برطرف شدن مشکل جلوگیری کنیم.

پیشنهاد می شود هر زمان که خطا و هشداری برای سایت خود دریافت کردید ابتدا فایل robots.txt مربوطه را مجدد چک کنید. شما می توانید این فایل را با سایر گزارش های وبمستر تولز مقایسه کنید. برای مثال شما می توانید از ابزار به روز رسانی گوگل برای ارائه ی صفحات مهم سایت خود استفاده کنید و اگر آدرس مسدودی گزارش شده بود با استفاده از تستر فایل robots.txt دلیل بسته شدن آن را ردیابی کرده و مشکل را برطرف کنید. خطایی که معمولا گزارش می شود مربوط به فایلهای قدیمی تر است که اسکریپت های جاوا یا CSS ها را بلاک کرده است. شما با بررسی دقیق گزارشات و وضعیت فایل می توانید مشکل را برطرف کنید.

در مجموع ابزارهایی که گوگل هر روزه در اختیار کاربران قرار می دهد به منظور استفاده ی آسان تر آنها از تمامی امکانات موتور جستجو است. برای برطرف کردن مشکلات و پاسخ به سوالات شما گوگل در این زمینه انجمنی به اسم webmaster’s help forum را نیز ایجاد کرده که به راحتی می توان در آن عضو شوید و سوالات خود را مطرح کنید.

نظر خود را ارسال کنید.

طراحی سایت صفر یک وب-01web