در این مقاله به این موضوع خواهیم پرداخت که فایل Robots.txt چیست؟ همچنین نحوه بهینه سازی فایل robots.txt برای موتورهای جستجو را به شما آموزش خواهیم داد. و به شما کمک میکنیم تا اهمیت این فایل را درک کنید.
فایل robots.txt سایت شما نقش مهمی در عملکرد کلی سئو شما دارد. این فایل شما را قادر میسازد تا با موتورهای جستجو ارتباط برقرار کنید و به آن ها نشان دهید که چه بخشی از سایت شما را باید ایندکس کنند و چه بخشهایی را نباید ایندکس کنند.
فایل Robots.txt چیست؟
یک Robots.txt درواقع یک فایل متنی ساده است که در مسیر اصلی فضای سایت شما یا روت دایرکتوری (Root Directory) قرار میگیرد. در حقیقت وظیفه این فایل معرفی بخشهای قابل دسترسی و بخشهای محدود شده برای دسترسی رباتها میباشد. به صورت تعریفی دقیقتر، این فایل راهنمای خزندگان سطح وب (Web Crawlers) که از سوی موتورهای جستجو به منظور بررسی و ثبت اطلاعات سایتها ایجاد شدهاند، میباشد.
این فایل باید در روت اصلی هاست شما قرار بگیرد. در این حالت آدرس دسترسی به این فایل به صورت زیر خواهد بود : www.YourWebsite.com/robots.txt
آیا واقعا به فایل Robots.txt نیاز است؟
عدم وجود یک فایل robots.txt موتورهای جستجو را از خزیدن و نمایهسازی وبسایت شما متوقف نخواهد کرد. با این حال، بسیار توصیه میشود که این فایل را ایجاد کنید.
اگر میخواهید نقشه سایت خود را به موتورهای جستجو نشان دهید، پس باید از این فایل استفاده کنید. مگر آنکه آن را در Google Webmaster Tools مشخص کرده باشید. ما به شدت توصیه میکنیم اگر فایل robots.txt را در سایت خود ندارید، بلافاصله آن را ایجاد کنید.
رباتهای گوگل
گوگل تعدادی ربات خزنده (Crawler) دارد که به صورت خودکار وبسایتها را اسکن میکنند و صفحهها را با دنبال کردن لینکها از صفحهای به صفحه دیگر پیدا میکنند. هر کدام از این رباتها به صورت مداوم، صفحههای وبسایت را بررسی میکنند. شما میتوانید در صورت نیاز هرکدام از رباتها را محدود کنید. لیست زیر شامل مهمترین رباتهای گوگل است که بهتر است بشناسید:
AdSense: رباتی برای بررسی صفحهها با هدف نمایش تبلیغات مرتبط
Googlebot Image: رباتی که تصاویر را پیدا و بررسی میکند
Googlebot News: رباتی برای ایندکس کردن سایتهای خبری
Googlebot Video: ربات بررسی ویدیوها
Googlebot: این ربات صفحات وب را کشف و ایندکس میکند. دو نوع Desktop و Smartphone دارد.
چگونه میتوانیم یک فایل Robots.txt ایجاد کنیم؟
فایل robots.txt معمولا در روت هاست شما قرار دارد. و شما میتوانید برای ویرایش و ایجاد آن از یک FTP یا با فایل منیجر کنترلپنل هاست خود اقدام کنید. این فایل درست مثل هر فایل متنی معمولی است و شما میتوانید آن را با یک ویرایشگر متن ساده مانند Notepad باز کنید.
اگر هم فایل robots.txt را در روت هاست خود ندارید، می توانید به سادگی آن را ایجاد کنید. برای ایجاد این فایل یک فایل متنی جدید در رایانه خود ایجاد کنید و آن را به عنوان robots.txt ذخیره کنید. بعد، به سادگی آن را در روت هاست خود یا همان پوشه public_html آپلود کنید. نمونه سادهای از فایل robots.txt را در ادامه مشاهده میکنید:
1
2
3
User-Agent:*
Allow:/wp-content/uploads/
Disallow:/wp-content/plugins/
آشنایی با اصطلاحات فایل robots.txt
اصطلاحات زیر در پرونده robots.txt استفاده میشود:
user-agent: نام خزنده را نشان میدهد. این نامها را میتوان در پایگاه داده رباتها یافت.
disallow: از خزیدن برخی از پروندهها، دایرکتوریها یا صفحات وب جلوگیری میکند.
allow: رونویسی را مجاز نمیداند و اجازه خزیدن فایلها، صفحات وب و فهرستها را میدهد.
sitemap (اختیاری): محل نقشه سایت را نشان میدهد.
*: مخفف هر تعداد کاراکتر است.
$: مخفف انتهای خط است.
۱ـ مشخص کردن ربات با User-agent
از این دستور برای هدفگیری یک ربات خاص استفاده میشود. از این دستور میتوان به دو شکل در فایل robots.txt استفاده کرد. اگر میخواهید به تمام رباتهای خزنده یک دستور یکسان بدهید، کافی است بعد از عبارت User-agent از علامت ستاره ” * ” استفاده کنید. علامت ستاره به معنای «همه چیز» است. مانند مثال زیر:
1
*:User-agent
دستور بالا به این معنی است که دستورات بعدی، برای همه رباتهای جستجوگر یکسان عمل کند. اما اگر میخواهید تنها به یک ربات خاص مانند ربات گوگل (GoogleBot) دستور خاصی را بدهید، دستور شما باید به شکل زیر نوشته شود. این کد به این معنی است که “اجرای دستورات فایل، تنها برای ربات گوگل الزامی است.
1
User-agent:Googlebot
۲ـ مشخص کردن صفحات و بخشهای غیرمجاز با Disallow
دستور Disallow به رباتها میگوید که چه فولدرهایی از وبسایت شما را نباید بررسی کنند. درواقع این دستور، بیانگر آدرسهایی است که میخواهید از رباتهای جستجو پنهان بماند.
برای مثال اگر نمیخواهید موتورهای جستجو، تصاویر وبسایتتان را ایندکس کنند، میتوانید تمام تصاویر سایت را درون یک پوشه در هاستینگ خود قرار دهید و از دسترس موتورهای جستجو خارج سازید.
اگر فرض کنیم که تمام این تصاویر را به درون فولدری به نام Photos منتقل کرده باشید. برای آنکه به گوگل بگویید که این تصاویر را ایندکس نکند، باید دستوری مانند زیر را بنویسید:
1
2
*:User-agent
Disallow:/photos
دستور” / ” بعداز Disallow به ربات گوگل میگوید باید وارد پوشهای در ریشه فایل شوید. اسم این پوشه photos است.
این دو خط در فایل robots.txt، به هیچ یک از رباتها اجازه ورود به فولدر تصاویر را نمیدهد. در کد دستوری بالا، قسمت “User-agent: *” میگوید که اجرای این دستور برای تمامی رباتهای جستجو الزامی است. قسمت “Disallow: /photos” بیانگر این است که ربات، اجازه ورود یا ایندکس پوشه تصاویر سایت را ندارد.
۳- مشخص کردن بخشهای مجاز برای رباتها با Allow
همانطور که میدانیم ربات خزنده و ایندکس کنندۀ گوگل، Googlebot نام دارد. این ربات نسبت به سایر رباتهای جستجوگر، دستورات بیشتری را متوجه میشود. علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به نام “Allow” را نیز درک میکند.
دستور Allow به شما امکان میدهد تا به ربات گوگل بگویید که اجازه مشاهده یک فایل، در فولدری که Disallowed شده را دارد.
1
2
3
*:User-agent
Disallow:/photos
Allow:/photos/novin.jpg
این دستور به ربات گوگل میگوید علی رغم اینکه فولدر Photos از دسترس رباتها خارج شده است، اجازه مشاهده و ایندکس فایل novin.jpg را دارد.
۴. نقشه سایت
گوگل برای وبمسترها و صاحبان وبسایتها چند راه برای دسترسی به نقشه سایت گذاشته است. یکی از این راهها نوشتن آدرس فایل در فایل است. هیچ الزامی وجود ندارد که آدرس نقشه سایت را از این راه به رباتهای گوگل نمایش دهید. بهترین راه ارائه نقشه سایت به گوگل استفاده از ابزار سرچ کنسول است.
دیدگاهتان را بنویسید
You must be logged in to post a comment.