г. Киев, ул. Сверстюка 11А
+38 (044) 232-40-42
hello@seo2.ua

Robots.txt (Файл)

Содержание

    Robots.txt — полностью соответствует своему названию, будучи инструкции для поисковых роботов. Файл robots.txt записывается в корневой папке сайта и управляет поведением поисковых роботов, главным образом, запрещая индексацию той или иной части сайта.

    История возникновения robots.txt

    В середине 90-х годов с развитием поисковых сервисов во всемирной паутине выяснилось, что действия поисковых машин существенно затрудняют пользователям работу с сайтами. Происходило это, в основном, из-за того, что поисковики, индексируя сайты, обращались ко всему его содержания, включая незначительные для индексации страницы. Возникла необходимость создания эффективного инструмента, который прямо указывает поисковой машине, на какие страницы следует обращать внимание, а какие игнорировать. В июне 1994 года большинство производителей и администраторов поисковых систем и некоторые заинтересованные структуры заключили соглашение о разработке единого программного средства, управляющего действиями поисковика на сайте. В результате сделки на свет появился стандарт написания рабочих файлов robots.txt. Правда, это не программа, а всего лишь текстовый файл, но, тем не менее, инструмент работоспособен.

    Поисковая машина и robots.txt

    Входя на сайт, поисковый робот, прежде всего, анализирует структуру и обращается к файлу robots.txt. Файл robots.txt выглядит следующим образом:

    User — agent: *
    Disallow: / tmp /
    Disallow: / cgi — bin /

    Этот пример файла robots.txt демонстрирует запрет индексации двух папок. Звездочка, расположенная после фразы User — agent, говорит о том, что указания, содержащиеся в robots.txt, предназначаются для всех ботов. На месте звездочки может быть указано и название какого-то одного робота. В этом случае проведение индексации запрещено только данному поисковику. Слово «Disallow» в robots.txt как раз и обозначает запрет индексации. Очень большое значение имеет косая черта после слова «disallow» — слэш. Поясним на примере. Запись вида:

    User — agent: *
    Disallow: /

    означает запрет индексации сайта целиком всеми работами. Однако если после слова «disallow» косой черты не будет, то ситуация прямо противоположная — весь сайт разрешен для индексации всеми работами. При создании файла robots.txt на наличие или отсутствие слеша необходимо обращать внимание.

    Следует отметить, что существуют и другие способы запрета индексации — атрибут nofollow и тег noindex, но поисковики (такие как Яндекс или Google) более лояльны именно к содержимому robots.txt.