Попав на сайт, робот первым делом проверяет файл robots.txt. Если робот обнаруживает этот документ, то все дальнейшие действий он будет выполнять в соответствии с требованиями изложенными там. Если файла robots.txt нет, робот будет анализировать всё, что попадёт в его загребущие руки.
Роботы ищут файл robots.txt> только в корневом каталоге сайта. Размещать файл robots.txt в нескольких каталогах не имеет смысла, т.к. пауки будут игнорировать лишние копии. Имя файла robots.txt должно быть набрано маленькими буквами, поскольку имена интернет-ресурсов (URI) чувствительны к регистру.
Структура файла robots.txt следующая: User-agent: имя робота Disallow: запрещённые для индексации файлы
Файл robots.txt состоит из групп инструкций. Каждая из них начинается со строки User-agent: имя робота, которая указывает, для каких роботов относится следующая инструкция Disallow:. Инструкция User-agent: * будет распространяться на всех роботов.
Инструкций Disallow: в каждой группе может быть несколько (обязательно должна быть хотя бы одна).
Рассмотрим такую инструкцию: “Disallow: /folder/” Она запретит пауку посещение папки folder. А инструкция “Disallow: /folder” запретит посещение всех страниц, полное имя которых начинается с “/folder”, например /folder.php, /folder/page1.html, folder5.html. Следует заметить, для того, чтобы инструкция Disallow: запрещала что-либо, указанный в ней путь должен начинаться с “/”. Инструкция, которая содержит символ ‘*’ или какой-либо другой символ, который не может присутствовать в имени файла, тоже не будет ничего запрещать.
К сожалению, пока нет инструкции, которая бы указывала на файлы и директории, которые надо проиндексировать. По этой причине приходится указывать список всего, что запрещено для индексации. Единственный разумный выход из этой ситуации – хорошо продумать структуру сайта.
Осталось сказать, что в файле robots.txt пустые строки разрешено вставлять только между группами (перед User-agent), а комментарии должны начинаться с символа “#”. M |