X
تبلیغات
نماشا
رایتل

فایل متنی روبات برای موتور های جستجو

یکشنبه 14 فروردین‌ماه سال 1390 ساعت 01:34 ب.ظ

اگر شما مدیر یک وب سایت اینترنتی باشید احتمالاً با فایل Robot.txt برخورد کرده اید یا حداقل درباره آن شنیده اید در این مقاله می خواهیم کمی بیشتر درباره این فایل مزایای آن و بدفهمی هایی که در مورد آن وجود دارد صحبت کنیم.

این فایل در حقیقت یک فایل متنی است که به موتور های جستجو می گوید کجا ها را نباید بکاود و در لیست خود اضافه کند. حتی شما می توانید یک موتور جستجو را از زیر و رو کردن وب سایت خود بر حذر کنید اما این فایل هیچ الزامی برای آن موتور جستجو ایجاد نمی کند و هیچ ضمانتی نیست که نرم افزار های کاونده موتور های جستجو از دستورات این فایل پیروی کنند ولی به هر حال موتور های جستجوی بزرگ و معتبر به این فایل اهمیت می دهند و از آن استفاده می کنند.

 

چرا باید از آن استفاده کنید؟

هدف موتور های جستجو جمع آوری محتویاتی است که قرار است به کاربران شما ارائه شود بنابراین لازم نیست مثلاً کد های برنامه های وب سایت شما توسط موتور جستجو کاوش شود  توسط موتور جستجو کاوش شود این کار دو مشکل به وجود می آورد اول اینکه به سرور وب سایت شما بار اضافه تحمیل می کند و سرعت سرور کاهش می یابد و در همین هنگام اگر کاربران هم در حال بازدید از سایت شما یا در حال دانلود فایل های حجیم باشند این مشکل بیشتر به چشم می آید.  دوم اینکه بعضی کد های وب سایت شما در اختیار دیگران می افتد که از نظر امنیتی اصلاً جالب نیست هر چند این راه کار به عنوان یک راهکار امنیتی به هیچ وجه کامل نیست و شما باید تنظیمات لازم را برای محدودیت دسترسی به این بخش در کنترل پنل سایت خود انجام دهید.

 

چگونه این فایل را ایجاد کنیم؟

ایجاد یک فایلRobots.txt بسیار ساده است. Robot.txt چیزی جز یک فایل ASCII متنی ساده که در شاخه اصلی وب سایت شما قرار می گیرید نیست. به عنوان مثال اگر نام وب سایت شما www.yadbegir.com باشد فایل Robots.txt شما باید در مسیر www.yadbegir.com/robots.txt قرار گیرد. برای کسانیکه نمی دانند یک فایل ASCII متنی چیست باید بگویم یک فایل متنی ساده است که با notepad ویندوز به راحتی می توانید آنرا ایجاد نمایید.

در این فایل اصولاً نام کاونده های موتور جستجو در یک خط ذکر می شود و در خطوط بعدی نام شاخه ها یا فایل هایی که کاوش آنها مجاز نیست می آید که هر کدام را باید در یک خط جداگانه ذکر نمایید. شما به جای نام کاونده موتور جستجو می توانید از علامت * استفاده کنید بدون اینکه برای هر کدام نام جداگانه ای ذکر نمایید. و به خاطر داشته باشید که فایل Robots.txt یک فایل ممانعت کننده یا محدود کننده است و به این طریق شما نمی توانید موتور جستجو را ملزم کنید که دایرکتوری یا فایل خاصی را در لیست خود اضافه کند.

به عنوان مثال می توانید این را در فایل Robots.txt خود قرار دهید:

User-agent: *

Disallow:/cgi-bin/

دو خط بالا را اگر به فایل Robots.txt خود اضافه نمایید به همه کاوشگر های موتور های جستجو گفته اید که اجازه ندارند به دایرکتوری و محتویات آن cgi-bin دسترسی داشته باشند.

اگر موتور جستجوی بخصوصی مانند google image را در نظر داشته باشید که تصاویر وب سایت شما را جمع آوری و لیست می کند و بخواهید از دسترسی آن به تصاویر وب سایت خود جلوگیری نمایید می توانید این دستورات را به فایل خود اضافه نمایید.

User-agent: google-Image

Disallow:/

 همچنین می توانید در چند خط چندین دستور Disallow داشته باشید و برای چندین موتور جستجو مسیر هایی را مشخص کنید در اینجا نمونه از یک فایل بزرگ تر را می بینید.

User-agent: *
Disallow: /images/
Disallow: /cgi-bin/
 
User-agent: Googlebot-Image
Disallow: /

اولین بلوک از این فایل همه موتور های جستجو را از دسترسی به دایرکتوری های images و cgi-bin باز می دارد. دومین بلوک به روبوت کاونده Googlebot-Image می گوید که اجازه دسترسی به هیچ دایرکتوری از سایت را ندارد.

شما حتی می تواند به موتور های جستجو بگویید که یک فایل خاص را از لیست جستجوی خود حذف کند. به عنوان مثال اگر نمی خواهید موتور جستجوی تصاویر گوگل عکس خاصی را در لیست خود اضافه نماید و اگر فرض کنیم نام این فایل mymugshot.jpg باشد در این صورت با افزودن این خطوط به فایل خود می توانید این کار را انجام دهید.

User-agent: Googlebot-Image
Disallow: /images/mymugshot.jpg

به خاطر داشته باشید حتماً  /  را اضافه کنید چون نشان دهنده یک دایرکتوری است. اگر به سادگی وارد کنید:

User-agent: *
Disallow: /privatedata

در این صورت همه موتورهای جستجو را از دسترسی به  هر آنچه که در داخل دایرکتوری به نام privatedata باشد باز می دارید.

 

از کجا می توانم نام روبوت ها را پیدا کنم؟

اگر بخواهید موتور جستجوی خاصی را برای دسترسی به وب سایت خود محدود کنید باید نام آنرا دقیقا بدانید برای این منظور بهترین راه این است که وب سایت آن موتور جستجو را بازدید کنید. موتور های جستجوی معتبر معمولاً صفحاتی دارند که در آن جزییات کار را به شما ارائه می دهد تا بتوانید برای آنها فایل ها و دایرکتوری های غیر مجاز را مشخص کنید.

 

اشتباهات معمول

در اینجا اشتباهاتی که در این زمینه رایج است را بررسی می کنیم.

1- هیچ ضمانتی برای کارایی این فایل متنی وجود ندارد

همانطور که قبلا هم گفتم فایل های robots.txt یک سری فایل استاندارد برای جلوگیری از کاوش فایل ها توسط موتور های هستند ولی بعضی موتور های جستجو خود را برای خواندن این فایل ها اذیت نمی کنند و هیچ ضمانتی نیست که به این روش موتور های جستجو را از دسترسی فایل ها یا دایرکتوری های مورد نظر خود باز دارید. اگر می خواهید واقعاً می خواهید دسترسی به یک دایرکتوری را محدود نمایید باید از فایل .htaccess استفاده کنید.

2- دایرکتوری ها محرمانه خود را لیست نکنید.

هر کسی می تواند به فایل robots.txt شما دسترسی داشته باشد مثلاً کافیست این آدرس را در مرورگر خود وارد کند

http://www.yadbegir.com/robots.txt

بعضی مدیران سایت تازه کار لیستی از فایل ها و دایرکتوری های محرمانه خود را در این فایل قرار می دهند تا از دسترسی موتور های جستجو خارج شوند ولی غافل از اینکه بعضی افراد و بعضی روبوت های فرستنده هرزنامه بدنبال چنین آدرس هایی می گردند. مراقب باشید به این روش امنیت وب سایت خود را به خطر نیندازید.

3- فقط یک دایرکتوری یا فایل برای هر خط

سعی نکنید در هر خط یا دستور Disallow بیش از یک فایل یا دایرکتوری را مشخص کنید. چون به احتمال زیاد این دستور کار نخواهد کرد و طبق استاندارد روبوت های کاونده فقط یک برای هر خط یک دستور و یک عبارت Disallow قبول می کنند.

آیا حتما باید این فایل را ایجاد کنیم؟

حتی اگر نخواهید هیچ موتور جستجویی را محدود کنید فقط کافیست این دستور را در فایل خود ایجاد نمایید.

User-agent: *
Disallow:

به این ترتیب شما یک فایل robots.txt دارید که بوسیله آن به موتور جستجو گفته اید می تواند همه فایل ها و دایرکتوری های شما را بکاود. به این ترتیب حداقل بهره ای که خواهید برد این است که با هر بار درخواست موتور جستجو برای این فایل متنی خطای 404 لود نمی شود و چند کیلو بایت از پهنای باند خود را صرفه جویی کرده اید. و هم چنین از آمار شما یک آدرس خطا کاسته می شود که این هم در رانکینگ موتور جستجو اثری مثبت دارد.

علی یزدی مقدم


منبع یاد بگیر دات کام
نظرات (0)
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)

نام :
ایمیل :
وب/وبلاگ :
ایمیل شما بعد از ثبت نمایش داده نخواهد شد

دانلود آهنگ جدید