ازموارد فنی سئو تکنیکال که برای بهینه کردن ایندکس صفحات سایت بعد از طراحی سایت به کار میرود استفاده از فایل robots.txt است. Robots.txt یک فایل متنی است که برای هدایت ربات های موتور جستجو برای نحوه خزیدن و ایندکس صفحات وب سایت استفاده می شود. از آنجا که فایل robots.txt ربات های جستجو را در مورد نحوه خزیدن صفحات مختلف وب سایت شما راهنمایی می کند، دانستن نحوه استفاده و تنظیم این فایل بسیار مهم است. برای جلوگیری از ایندکس شدن صفحات می توان از روش های دیگر مانند تگ noindex استفاده کرد اما زمانی که بخواهید یک دسته از صفحات ایندکس نشوند، نمی توانید برای هر کدام از صفحات به صورت جداگانه از تگ noindex استفاده کنید. در اینجا robots.txt به کمک شما می آید.
اگر یک فایل robots.txt نادرست تنظیم شده باشد ، می تواند باعث اشتباه در ایندکس شدن صفحات سایت شود. بنابراین، هر بار که یک کمپین SEO جدید را شروع می کنید، فایل robots.txt خود را با ابزار نوشتاری روبات های Google بررسی کنید.
محدود کردن دسترسی خزندگان موتورهای جستجو به صفحات، فایلها و محتوای انتخابی سایتها رایجترین دلیل استفاده از فایل robots.txt است.
اگر برای شما این سؤال پیش آمده باشد که چرا باید بعضی از صفحات یا فایلها را ایندکس نکنیم، در پاسخ به این سوال باید گفت که در بسیاری از موارد، ایندکس شدن و معرفی شدن یک صفحه یا فایل از یک سایت در موتورهای جستجو میتواند نتایج نامناسبی به همراه داشته باشد.
به عنوان مثال شاید یک وبمستر قصد انتشار مطلبی خاص را داشته باشد که مخاطبین آن مطلب نیز افرادی خاص و منتخب هستند. این مطلب ممکن است از لحاظ بعضی شرایطی، برخی از قوانین موتورهای جستجو را نقض کند و یا شامل محتوایی باشد که امکان معرفی آن به صورت عمومی وجود نداشته باشد. در این صورت میتوان با کمک فایل Robots.txt دسترسی موتورهای جستجو به این صفحات یا فایلها را محدود کرد.
از بارزترین مثالها در این زمینه، سایتهای اشتراک فایل غیرقانونی از جمله سایتهای تورنت هستند. خیلی از این سایتها اجازه دسترسی به محتوای داخلشان را به رباتهای موتورهای جستجو نمیدهند و به جای آن جستجوگر داخلی خودشان را به کاربران پیشنهاد میکنند. چون اگر محتوای این سایتها توسط رباتها شناسایی شوند، این سایتها به خاطر ارائه محتوای غیرقانونی نه تنها رتبه و جایگاه خود را در موتورهای جستجو از دست میدهند، بلکه مسائل مربوط به حقوق کپیرایت و مسائلی از این قبیل نیز گریبانگیرشان خواهد شد.
وبسایتهای فعال به ویژه وبسایتهای پربازدید و بزرگ، روزانه هزاران بار توسط رباتهای گوناگون از سمت موتورهای جستجو مورد بازدید و بررسی قرار میگیرند. هر ربات یا به اصطلاح خزنده (Crawler) طی یک فرآیند دومرحلهای (بررسی و سپس ایندکس) اقدام به جمعآوری اطلاعات از سایتها میکند. این فرآیند شامل بررسی تمام بخشهای سایت شما است. حالا فرض کنید به صورت روزانه صدها یا هزاران ربات شروع به بررسی و جمعآوری اطلاعات از سایت شما میکنند و در این صورت، عملکرد بهینه سایت شما و سرعت بارگذاری اطلاعات آن برای مرورگرها تحتالشعاع قرار خواهد گرفت.
بدیهیست که رفت و آمد این حجم از رباتها میتواند تا حد قابل توجهی بازدهی کلی سایت را با شرایط نامناسبی همراه کند. البته اگرچه این موضوع برای سایتهایی که بازدید کمتری دارند بسیار کمتر به چشم میآید اما برای سایتهای پربازدید که به خودی خود باید روزانه ترافیک بازدید از سمت هزاران کاربر را هندل کنند، اضافه شدن ترافیک زیاد این رباتها نیز ممکن است دردسرساز باشد.
در این مواقع اغلب وبمسترها به راحتی و با استفاده از robots.txt دسترسی رباتهای موتورهای جستجو را به بخشهای مختلف و مشخص شدهای که اهمیت چندانی برای سئو و کسب رتبه در موتورهای جستجو ندارند را محدود میکنند. در این حالت نه تنها سرور سایت با ترافیک سبکتری فعالیت خواهد کرد، بلکه مراحل بررسی و جمعآوری اطلاعات و سپس ایندکس کردن آنها توسط رباتها نیز به مقدار بسیار زیادی سریعتر خواهد شد.
از دیگر مزایای استفاده از robots.txt امکان مدیریت لینکها و آدرس صفحات (URL) است. در بحث سئو مسئلهای با عنوان مخفیسازی آدرس صفحات یا URL Cloacking وجود دارد. این بحث درواقع نوعی تکنیک سئو برای پنهان کردن آدرس صفحات از دید کاربران و یا موتورهای جستجو است. با کمک robots.txt میتوان این مدل لینکها را مدیریت کرده و آدرس آنها را پنهان کرد.
بیشترین کاربرد این مورد در استفاده از لینکهای مربوط به بحث "سیستم همکاری در فروش" یا "Affiliate Marketing" میباشد. در این حالت، شما میتوانید لینکهای ایجاد شده در سیستم Affiliate که با عنوان Affiliate Links شناخته میشوند را مدیریت کرده و آدرس آنها را مخفی کنید تا کاربران به نوعی مجبور به کلیک روی آنها شوند.
توجه کنید که این تکنیک فقط باید توسط افراد حرفهای انجام شود. چراکه URL Cloacking یکی از تکنیکهای سئوی کلاه سیاه است و در صورتی که به درستی آن را پیادهسازی نکنید، متهم به نقض قوانین موتورهای جستجو شده و شامل جریمههای گوگل خواهید شد.
این فایل به چند دلیل دارای اهمیت است:
مدیریت ترافیک رباتها از این جهت اهمیت دارد که سرور میزبان وبسایت شما برای پردازش و بارگذاری صفحات برای رباتها مشغول نشود. از طرف دیگر، اکثر سرورها یا میزبانهای وبسایت از نظر پنهای باند و ترافیک محدودیت دارند؛ به همین دلیل مصرف ترافیک برای رباتها مقرون به صرفه نیست.
اگر در فایل Robots دستور دهید که رباتهای گوگل اجازه دسترسی به صفحاتی را ندارند، این صفحات کلاً بررسی نمیشوند اما هیچ تضمینی وجود ندراد که این صفحه در نتایج جستجوی گوگل ظاهر نشود. امکان دارد رباتها از طریق لینکهایی که به همان صفحه داده شدهاند و کمک گرفتن از همان انکر تکست لینک، صفحه را ایندکس کنند. در حال حاضر بهترین راه برای حذف صفحهای از نتایج جستجو، اضافه کردن دستور noindex در قسمت head صفحهها است. اگر از وردپرس استفاده میکنید افزونههایی برای این کار وجود دارد و در غیر اینصورت باید از طراحی وبسایت خود بخواهید که امکاناتی برای افزودن این کدها یا دستورات در قسمت هد هر صفحه فراهم کند.
هرچه تعداد صفحات وبسایت شما بیشتر باشد، رباتهای موتور جستجو زمان بیشتری برای خزیدن و ایندکس کردن صفحات نیاز دارد. همین زمان طولانی، روی رتبه سایتتان در نتایج جستجو، تاثیر منفی خواهد گذاشت.
فایل robots.txt یک فایل متنی با ساختاری ساده است. نحوه عملکرد این فایل با کمک دستورات پیشفرض و ادغام کردن کلمات کلیدی از پیش تعیین شده است. از جمله مهمترین و رایجترین این دستورات مواردی مثل User-agent ، Disallow ، Allow ، Crawl-delay و Sitemap میباشند که در ادامه به صورت جداگانه هریک از این موارد را با جزئیات آنها شرح میدهیم.
User-agent: این دستور برای مشخص کردن رباتها و خرندگانی است که امکان دسترسی به بخشهای سایت را داشته باشند یا خیر. با این دستورالعمل میتوان به تمام رباتها دسترسی داد و یا با اضافه کردن نام رباتی خاص، فقط به آن ربات دسترسیهای مختلف را داد یا محدود کرد.
مثال: یک ربات وارد سایت شما شده و قصد بررسی و جمعآوری اطلاعات از یک صفحه خاص برای مثال www.example.com/test.html را دارد. این ربات قبل از اینکه این صفحه را مورد بررسی قرار دهد، ابتدا فایل robots.txt را چک میکند. برای مثال محتویات داخل این فایل به صورت زیر است:
User-agent: * به این معنی است که تمام بخشهای این سایت قابل دسترس برای تمام رباتها و خزندگان موتورهای جستجو است. اما اگر قصد این را دارید که اطلاعات خود را فقط برای یک ربات خاص تعیین کنید باید نام دقیق آن ربات را به جای ستاره جایگذاری کنید.
یک فایل ساده برای مدیریت روبات های اینترنتی از دو قانون اصلی استفاده میکند که عبارتند از:
User-agent : نشان دهنده نوع روباتی است که نباید به صفحه دسترسی داشته باشد.
Disallow : بیانگر آدرس صفحه ای است که میخواهید از دید روبات ها پنهان بماند.
با ترکیب این دو دستور شما میتوانید قوانین مختلفی را برای دسترسی به صفحات داخلی سایت تعریف کنید. بعنوان مثال برای یک user-agent مشخص میتوان چندین آدرس را معرفی نمود و یا برعکس.
لیست تمامی روبات های اینترنتی معتبر در دیتابیس Web Robots Database موجود است و شما میتوانید با قرار دادن نام هریک بعنوان User-agent قوانین مشخصی برای آنها تعریف کنید و یا با استفاده از کاراکتر * به جای نام در فایل robots.txt یک قانون را برای همه روبات ها اعمال کنید. مانند:
User-agent: *
Disallow: /folder1/
موتور جستجوی گوگل چندیدن نوع روبات مخصوص بخود دارد که معروفترین آنها با نام Googlebot شناخته میشود و وظیفه بررسی و ایندکس صفحات وب را برعهده دارد. روبات Gogglebot-image نیز مسئول بررسی تصاویر سایت ها و ایندکس کردن آنها می باشد.
User-Agent: Googlebot
Disallow: /folder2/
شما میتوانید به روش های مختلفی قوانین خود را اعمال کنید، میتوان یک صفحه مشخص و یا یک دسته از صفحات را برای یک قانون تعریف نمود. مثال های زیر روش های مختلف استفاده از این قوانین هستند:
برای عدم دسترسی روبات ها به تمام محتویات سایت از کاراکتر / استفاده میکنیم
Disallow: /
برای عدم دسترسی به یک فولدر یا دسته از سایت نام آن را وارد کنید
Disallow: /blog/
برای اعمال محدودیت روی یک صفحه خاص آدرس دقیق آن را بدون نام سایت وارد کنید
Disallow: /blog/keyword-planner/
برای محدود کردن یک تصویر بر روی سایت آدرس آن را بهمراه User-agent مربوط به آن وارد کنید
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
و برای مخفی کردن تمام تصاویر موجود بر روی سایت از دید موتورهای جستجو از دستور زیر استفاده کنید
User-agent: Googlebot-Image
Disallow: /
همچنین شما میتوانید یک نوع فایل مشخص را از دید موتورهای جستجو مخفی نگه دارید، بعنوان مثال برای تصاویری با فرمت gif
User-agent: Googlebot
Disallow: /*.gif$
توجه داشته باشید که فایل robots.txt نسبت به بزرگ و کوچک بودن حروف انگلیسی حساس بوده و آدرس صفحات باید به دقت وارد شوند. پس از ساخت فایل مورد نظر خود و ذخیره آن در فرمت txt آن را بر روی سرور و در ریشه اصلی کپی کنید. قوانین اعمال شده برای روبات هایی هستند که از این پس به سایت شما وارد میشوند حذف صفحاتی که در گذشته ایندکس شده اند از دیتابیس گوگل نیازمند گذشت زمان خواهد بود.
فایل robots.txt مشخص می کند چه مطالبی از سایت توسط خزنده ی گوگل دیده شوند و چه مطالبی از دید خزنده دور مانده و ایندکس نشوند.
ایجاد فایل robots.txt ای که به درستی مطالب را مشخص کند و بخش های غیر مطلوب سایت را به خوبی پوشش دهد کار ساده ای نیست، به همین دلیل بسیاری از ساختن این فایل سر باز می زنند. گوگل وبمستر تولز با ارائه robots.txt testing tool این کار را برای افراد آسان ترکرده است.
شما می توانید این ابزار را در گوگل وبمستر تولز در بخش خزنده “crawl” ببینید:
در این بخش شما می توانید فایلی که تحت عنوان robots.txt وجود دارد را بررسی کرده و آدرس هایی که فعال هستند و خزنده می تواند آنها را بیابد پیدا کنید. برای راهنمایی بهتر در مورد دستور العمل های پیچیده بخشهایی به صورت برجسته مشخص شده اند تا شما بتوانید راحت تر به هدف خود دست یابید.شما می توانید اطلاعات این فایل را تغییر داده و یا توسط این ابزار آنها را چک کنید. البته فراموش نکنید که لازم است بعد از اعمال تغییرات نسخه تغییر یافته را در سرور آپلود کنید تا تاثیرات مربوط به آن در سایت ظاهر شوند.
علاوه بر آن شما می توانید نسخه های قدیمی تر را بررسی کرده و مواردی که مانع شدند تا خزنده مطالب سایت را به درستی بیابد، پیدا کنید. برای مثال اگر ربات گوگل برای فایل robots.txt با خطای ۵۰۰سرور مواجه شد می توانیم از ادامه ی فعالیت خزنده در سایت تا زمان برطرف شدن مشکل جلوگیری کنیم.
پیشنهاد می شود هر زمان که خطا و هشداری برای سایت خود دریافت کردید ابتدا فایل robots.txt مربوطه را مجدد چک کنید. شما می توانید این فایل را با سایر گزارش های وبمستر تولز مقایسه کنید. برای مثال شما می توانید از ابزار به روز رسانی گوگل برای ارائه ی صفحات مهم سایت خود استفاده کنید و اگر آدرس مسدودی گزارش شده بود با استفاده از تستر فایل robots.txt دلیل بسته شدن آن را ردیابی کرده و مشکل را برطرف کنید. خطایی که معمولا گزارش می شود مربوط به فایلهای قدیمی تر است که اسکریپت های جاوا یا CSS ها را بلاک کرده است. شما با بررسی دقیق گزارشات و وضعیت فایل می توانید مشکل را برطرف کنید.
در مجموع ابزارهایی که گوگل هر روزه در اختیار کاربران قرار می دهد به منظور استفاده ی آسان تر آنها از تمامی امکانات موتور جستجو است. برای برطرف کردن مشکلات و پاسخ به سوالات شما گوگل در این زمینه انجمنی به اسم webmaster’s help forum را نیز ایجاد کرده که به راحتی می توان در آن عضو شوید و سوالات خود را مطرح کنید.
کلیه حقوق مادی و معنوی این سایت برای شرکت 01 وب | گروه طراحی وب سایت اختصاصی محفوظ است.
sibmelk
نظر خود را ارسال کنید.