+359 886 230 151v.yordanova@adw.bg

Robots.txt файлът

“Възползвайте се от robots.txt файла за вашия уеб сайт“

– Из наръчника на Google за Уеб администратори

robots-1

Какво е Robots.txt?

Robots.txt файлът е стандартен текстов файл, поставен на вашия уеб сайт, който насочва роботите в мрежата (като Googlebot) дали да разгледат вашия сайт или не.

robots-2

Основни примери за robots.txt

Ще ви представим някои често срещани robots.txt настройки (върху които ще спрем вниманието по-подробно в тази статия).

Разрешаване на пълен достъп

User-agent: *

Disallow:

Забраняване на пълен достъп

User-agent: *

Disallow: /

Забраняване на една папка с име „folder“

User-agent: *

Disallow: /folder/

Забраняване на един файл с име “file”

User-agent: *

Disallow: /file.html

Защо е добре да се запознаем с функциите на robots.txt?

  • Неправилната употреба на txt файла може да навреди на класирането на вашия сайт в Google.
  • txt файлът контролира как търсачката вижда и взаимодейства с вашите уеб страници.
  • Този файл се споменава в редица страници на Google help центъра.
  • Този файл, както и ботовете, които взаимодействат с него, са знакови за принципа, по който търсачките функционират.

Съвет: За да видите дали robots.txt не блокира някой важен файл, използван от Google, използвайте инструмента на Google Search Console.

robots-3

Паяци на търсачката

Първото нещо, което паякът на търсачката Googlebot проверява, когато посещава един сайт, е robots.txt файлa.

Той прави това, защото иска да разбере дали има разрешение за достъп до съответната страница или файл. Ако robots.txt файлът указва, че паякът може да влезе, то едва тогава паякът обхожда страницата.

Ако искате да зададете специални инструкции към паяците на търсачката, то трябва да направите това в robots.txt файла.

Приоритети за вашия сайт

Има три важни неща, които всеки уеб администратор трябва да направи по отношение на robots.txt файла.

  1. Проверете дали вашия сайт има txt файл.
  2. Ако има такъв, то се уверете, че той не вреди на класирането на сайта в търсачката или не блокира съдържание, което желаете да се индексира в
  3. Определете дали имате нужда от txt файл.

Определяне дали сайт има robots.txt файл

Можете да проверите с помощта на браузър. Robots.txt файлът се намира на едно и също място при всеки сайт. Просто трябва да добавите към домейн името на сайта следното: „/robots.txt“, както е показано в примера по-долу.

www.yourwebsite.com/robots.txt

Ако този файл съществува, ще ви се отвори неговото съдържание.  Ако не виждате изписано нищо, то файлът може да е празен, а ако не ви зареди никаква страница, то вашият сайт няма създаден robots.txt файл.

Определяне дали robots.txt файлът не блокира важни страници

Установете дали в robots.txt файла не блокирате някоя важна страница, която е необходима на търсачката, за да разбере вашия сайт.

Можете да направите това с помощта на инструмента на Google за тестване на robots.txt файла. За целта е нужно да се регистрирате с вашия gmail акаунт. За да разберете напълно дали вашия robots.txt файл не блокира важна страница от вашия сайт, трябва да можете да разчитате написаното в него.

Моят сайт има ли нужда от robots.txt файл?

Вашият сайт може да не изисква задължителната наличност на robots.txt файл. Ако трябва да сме точни, много сайтове нямат нужда от него.

Причини, поради които е добре да имате robots.txt файл:

  • Имате съдържание на сайта, което бихте искали да не се индексира от търсачките.
  • Използвате платени линкове или реклами, които задават специални инструкции в txt файла.
  • Искате да направите специална настройка за достъп до вашия сайт от определени паяци и роботи.
  • Ако разработвате сайт, който е онлайн в мрежата, но не искате търсачките да го индексират преди да е завършен.
  • Искате да заложите специална настройка, която да помага на Google паяците в определени ситуации.
  • Имате нужда от една или всички настройки, посочени по-горе, но нямате пълен достъп до уеб сайта и неговата конфигурация.

Всички изброени ситуации по-горе могат да бъдат проконтролирани и чрез други методи. Robots.txt файлът обаче си остава централно място, през което можете лесно да разрешавате ситуациите чрез въвеждане на съответните команди.

Причини, поради които не бихте искали да имате robots.txt файл:

  • Сайтът е малък, има проста структура и няма грешки.
  • Сайтът не съдържа страници, които да трябва да бъдат блокирани от индексация в търсачките.
  • Няма специална причина да искате сайтът ви да не се индексира в търсачките.

Когато един сайт не притежава robots.txt файл, паяците и роботите на търсачките автоматично получават пълен достъп до него.

Как да създадем robots.txt файл

Можете да го създадете ръчно, а можете и да поставите готов файл на сайта.

Това е стандартен текстов файл, което означава, че можете да използвате Notepad за целта или друг текстов редактор.

Можете да мислите на нещата не като „създавам robots.txt файл“, а просто „пиша текстов файл“ – процесът е на практика един и същ.

Какво да казва robots.txt файлът на паяците?

Това зависи от вас и каква команда искате да им зададете при обхождане на вашия сайт.

Всички robots.txt команди водят до един от следните три резултата:

  1. Пълен достъп: цялото съдържание на сайта е достъпно и може да бъде обходено от паяците.
  2. Цялостна забрана: цялото съдържание на сайта не може да бъде индексирано.
  3. Условен достъп: txt указва дали към определена страница е позволен достъп на паяците на търсачката или не.

Нека разясним по-подробно всяка една от тези ситуации.

Пълен достъп: цялото съдържание на сайта може да се обхожда

Повечето хора биха искали паяците да обхождат цялото съдържание на техния сайт. Ако това е вашият случай, вие бихте искали търсачката да индексира всички уеб страници на вашия сайт. Тогава имате три опции, чрез които бихте могли да покажете на паяците, че са добре дошли.

  1. Не създавайте txt файл

Ако нямате robots.txt файл се случва следното:

Googlebot решава да посети вашия сайт. Проверява за robots.txt файл. Не го намира и следователно посещава всички създадени уеб страници, като обхожда тяхното съдържание, тъй като е програмиран да действа по този начин в такава ситуация.

  1. Създайте празен файл „txt“

В този случай Googlebot ще открие robots.txt файла. Ще го прочете и ще установи, че няма нищо за четене и в този случай ще се чувства свободен да посети всички ваши уеб страници, тъй като е програмиран да действа по този начин в такава ситуация.

  1. Създайте txt файл и впишете в него следната команда:

User-agent: *
Disallow:

В този случай Googlebot ще прочете написаното в robots.txt файла и ще установи, че няма забранени за обхождане страници. По този начин ще разгледа всичко създадено на вашия сайт, тъй като това е командата, която robots.txt файлът задава.

Цялостна забрана: съдържание на сайта не може да бъде индексирано

Важно: това означава, че забранявате на Google и другите търсачки да индексират вашия сайт.

За да блокирате достъпа на всички търсачки към вашия сайт, трябва да въведете следното в robots.txt:

User-agent: *
Disallow: /

Тази команда не се препоръчва, тъй като в резултат вашият сайт ще бъде недостъпен за потребителите, които биха могли да го открият през търсачките.

Robots.txt командите и техните значения

Ще изброим командите, които можете да въвеждате в robots.txt файла, и какво е тяхното действие.

User-agent

User-agent:

Тази команда задава посока кум конкретен робот, ако това е необходимо. Може да се използва по следните два начина:

  1. Ако искате да зададете команда към всички роботи, то добавете „*“:

User-agent: *

Това означава, че последващата команда ще се отнася до всички роботи.

  1. Ако искате да зададете команда към един конкретен робот – например, Googlebot – тя ще изглежда така:

User-agent: Googlebot

Този ред указва, че последващите инструкции ще се отнасят конкретно за Googlebot.

Disallow:

“Disallow” частта указва на роботите кои папки следва да не разглеждат и да не индексират. Това означава, че ако например, не искате търсачките да индексират изображенията на вашия сайт, то ще забраните папка „Photos“ и ще поставите в нея всички изображения, които искате да изключите от индексация. Ето какво трябва да изпишете в robots.txt при тази ситуация:

User-agent: *
Disallow: /photos

Тези два реда от robots.txt файла ще ви гарантират, че паяците няма да посещават вашата папка с изображения. „User-agent“ указва, че следващата команда „се отнася до всички роботи“. „Disallow: /photos“ указва, „да не посещават или индексират папката „Photos“.“

Конкретни команди за Googlebot

Роботът на Google се казва Googlebot и той си служи с няколко команди в повече в сравнение с другите роботи. Освен гореизброените две команди, Googlebot разбира също командата „Allow“.

Allow

Allow:

Тази команда указва на робота, че може  да разгледа файл в папка, която е забранена за разглеждане от друга команда. За да онагледим този процес, ще използваме примера по-горе с папката „Photos“. Забраняваме папката за разглеждане и след това пишем трети ред с командата “Allow”:

User-agent: *
Disallow: /photos

Allow: /photos/mycar.jpg

По този начин ще позволите на GoogleBot да вижда и да индексира картинката „mycar.jpg“.

Обобщение: ключови моменти при robots.txt

  • Ако използвате txt файл, се уверете, че той се използва правилно.
  • Некоректната употреба на txt файла може да блокира индексацията на вашия сайт.
  • Уверете се, че не блокирате страници, които са съществени за индексацията на сайта в

Вашият коментар