Robots.txt — текстовый файл, расположенный на сайте, который
предназначен для роботов поисковых систем. В этом файле веб-мастер может
указать параметры индексирования своего сайта как для всех роботов
сразу, так и для каждой поисковой системы по отдельности.
Создание robots.txt
Воспользуйтесь любым текстовым редактором (например, Блокнотом или
WordPad'ом), создайте файл с именем "robots.txt" и заполните его в
соответствии с представленными ниже правилами. После этого необходимо
загрузить файл в корневой каталог вашего сайта.
Куда заливать файл robots.txt Это очень простой вопрос,залить файл robots.txt нужно в корневой каталог вашего сайта, в процессе заливки могут произойти ошибки, поэтому после того как файл добавлен на сайт вам следует проверить правильно ли работает фал robot.txt на вашем сайте, для проверки вы можете воспользоваться Чтобы проверить правильность обработки вашего файла robots.txt, воспользуйтесь анализатором файла robots.txt.
Далее идет более углубленная информация,которая будет нужна вам только в том случаи если вы в серьез решите пользоваться всеми возможностями фала robots.txt,если же вы не планируете это делать можно воспользоваться генератором robots.txt
Директива User-agent Управлять доступом робота Яндекса к вашему сайту вы можете при помощи
файла robots.txt, который должен быть размещен в корневой директории
сайта. Робот Яндекса поддерживает стандарт описания http://www.robotstxt.org/wc/norobots.html с расширенными возможностями, описанными ниже.В роботе Яндекса используется сессионный принцип работы, на
каждую сессию формируется определенный пул страниц, которые планирует
закачать робот.
Сессия начинается с закачки robots.txt сайта, если его нет, он не
текстовый или на запрос робота возвращается HTTP-код отличный от '200',
считается, что доступ роботу не ограничен. В самом robots.txt
проверяется наличие записей, начинающихся с 'User-agent:', в них ищутся подстроки 'Yandex', либо '*' (регистр значения не имеет), причем, если обнаружено 'User-agent: Yandex', директивы для 'User-agent: *' не учитываются. Если записи 'User-agent: Yandex' и 'User-agent: *' отсутствуют, считается, что доступ роботу не ограничен.Следующим роботам Яндекса можно указать отдельные директивы: 'YandexBot' — основной индексирующий робот; 'YandexMedia' — робот, индексирующий мультимедийные данные; 'YandexImages' — индексатор Яндекс.Картинок; 'YandexCatalog' — "простукивалка" Яндекс.Каталога; 'YandexDirect' — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса; 'YandexBlogs' — робот поиска по блогам, индексирующий комментарии постов; 'YandexNews' — робот Яндекс.Новостей; 'YandexPagechecker' — робот, обращающийся к странице при валидации микроразметки через форму «Валидатор микроразметки»; Для каждого из них также действительно правило: если обнаружены директивы для конкретного робота, директивы 'User-agent: Yandex' и 'User-agent: *' не используются. Пример: User-agent: YandexBot # будет использоваться только основным индексирующим роботом
Disallow: /*id=
User-agent: Yandex # будет использована всеми роботами Яндекса
Disallow: /*sid= # кроме основного индексирующего
User-agent: * # не будет использована роботами Яндекса
Disallow: /cgi-bin
Чтобы запретить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву 'Disallow'. Примеры:
User-agent: Yandex
Disallow: / # блокирует доступ ко всему сайту
User-agent: Yandex
Disallow: /cgi-bin # блокирует доступ к страницам
#начинающимся с '/cgi-bin'
Примечание:
Недопустимо наличие пустых переводов строки между директивами 'User-agent' и 'Disallow' ('Allow'), а также между самими 'Disallow' ('Allow') директивами.
Кроме того, в соответствии со стандартом перед каждой директивой 'User-agent' рекомендуется вставлять пустой перевод строки.
Символ '#' предназначен для описания комментариев. Все, что находится после этого символа и до первого перевода строки не учитывается.
Чтобы разрешить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву 'Allow'. Примеры:
User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц
# начинающихся с '/cgi-bin'
Совместное использование директив.
Если для данной страницы сайта подходит несколько директив, то выбирается первая в порядке появления в выбранном User-agent блоке. Примеры:
User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц
# начинающихся с '/cgi-bin'
User-agent: Yandex
Disallow: /
Allow: /cgi-bin
# запрещает скачивать весь сайт
Директивы Allow-Disallow без параметров.
Отсутствие параметров у директивы трактуется следующим образом:
User-agent: Yandex
Disallow: # то же, что и Allow: /
User-agent: Yandex
Allow: # то же, что и Disallow: /
При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая, таким образом, определенные регулярные выражения.
Спецсимвол '*' означает любую (в том числе пустую) последовательность символов. Примеры:
User-agent: Yandex
Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx'
# и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private',
# но и '/cgi-bin/private' Спецсимвол '$' По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*', например:
User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам
# начинающимся с '/cgi-bin'
Disallow: /cgi-bin # то же самое
Чтобы отменить '*' на конце правила, можно использовать спецсимвол '$', например:
User-agent: Yandex
Disallow: /example$ # запрещает '/example',
# но не запрещает '/example.html' User-agent: Yandex
Disallow: /example # запрещает и '/example',
# и '/example.html' User-agent: Yandex
Disallow: /example$ # запрещает только '/example'
Disallow: /example*$ # так же, как 'Disallow: /example'
#запрещает и /example.html и /example
Если вы используете описание структуры вашего сайта в формате
sitemaps.xml, и хотите, чтобы робот узнал о ней, укажите путь к
sitemaps.xml в качестве параметра директивы 'Sitemap' (если файлов несколько, укажите все). Пример:
User-agent: Yandex
Allow: /
Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://mysite.ru/site_structure/my_sitemaps2.xml
Робот запомнит пути к sitemaps.xml, обработает файлы и будет
использовать результаты при последующем формировании сессий закачки.
Если у вашего сайта есть зеркала, специальный робот зеркальщик определит
их и сформирует группу зеркал вашего сайта. В поиске будет участвовать
только главное зеркало. Вы можете указать его у всех зеркал при помощи robots.txt, используя директиву 'Host' и определив в качестве ее параметра имя главного зеркала. Директива 'Host' не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом. Пример:
#Если www.glavnoye-zerkalo.ru главное зеркало сайта, то
#robots.txt для всех сайтов из группы зеркал выглядит так
User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.glavnoye-zerkalo.ru
Важно: в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву 'Host' необходимо добавлять в группе, начинающейся с записи 'User-Agent', непосредственно после директив 'Disallow'('Allow'). Аргументом директивы 'Host' является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием. #Пример корректно составленного robots.txt, при обработке
#которого директива Host учитывается
User-Agent: *
Disallow:
Host: www.myhost.ru
Тем не менее директива Host является
межсекционной, поэтому будет использоваться роботом вне зависимости от
места в файле robots.txt, где она указана. Важно: Директива Host в файле robots.txt может быть только одна. В случае указания нескольких директив, использоваться будет первая. Пример: Host: myhost.ru # используется
User-agent: *
Disallow: /cgi-bin
User-agent: Yandex
Disallow: /cgi-bin
Host: www.myhost.ru # не используется
Важно: параметр директивы Host обязан состоять из одного корректного имени хоста (то есть соответствующего RFC 952 и не являющегося IP-адресом) и допустимого номера порта. Некорректно составленные строчки 'Host:' игнорируются.
# Примеры игнорируемых директив Host
Host: www.myhost-.ru
Host: www.-myhost.ru
Host: www.myhost.ru:100000
Host: www.my_host.ru
Host: .my-host.ru:8000
Host: my-host.ru.
Host: my..host.ru
Host: www.myhost.ru/
Host: www.myhost.ru:8080/
Host: http://www.myhost.ru
Host: 213.180.194.129
Host: www.firsthost.ru,www.secondhost.ru
Host: www.firsthost.ru www.secondhost.ru
Примеры использования директивы Host:
# domen.myhost.ru является главным зеркалом
# www.domen.myhost.ru, тогда корректное использование
# директивы Host такое:
User-Agent: *
Disallow:
Host: domen.myhost.ru
# domen.myhost.ru является главным зеркалом
# www.domen.myhost.ru, тогда некорректное использование
# директивы Host такое:
User-Agent: *
Disallow:
Host: myhost.ru
Если сервер сильно нагружен и не успевает отрабатывать запросы на закачку, воспользуйтесь директивой "Crawl-delay".
Она позволяет задать поисковому роботу минимальный период времени (в
секундах) между концом закачки одной страницы и началом закачки
следующей. В целях совместимости с роботами, которые не полностью
следуют стандарту при обработке robots.txt, директиву "Crawl-delay" необходимо добавлять в группе, начинающейся с записи "User-Agent", непосредственно после директив "Disallow" ("Allow").
Поисковый робот Яндекса поддерживает дробные значения Crawl-Delay,
например, 0.5. Это не гарантирует, что поисковый робот будет заходить
на ваш сайт каждые полсекунды, но дает роботу больше свободы и позволяет
ускорить обход сайта.
Примеры:
User-agent: Yandex
Crawl-delay: 2 # задает таймаут в 2 секунды
User-agent: *
Disallow: /search
Crawl-delay: 4.5 # задает таймаут в 4.5 секунды
Если адреса страниц вашего сайта содержат динамические параметры,
которые не влияют на их содержимое (например: идентификаторы сессий,
пользователей, рефереров и т.п.), вы можете описать их при помощи
директивы 'Clean-param'.
Робот Яндекса, используя эту информацию, не будет многократно
перезакачивать дублирующуюся информацию. Таким образом, увеличится
эффективность обхода вашего сайта, снизится нагрузка на сервер.
Например, на сайте есть страницы:
www.site.ru/some_dir/get_book.pl?ref=site_1&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_2&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_3&book_id=123
параметр 'ref=' используется только для
того, чтобы отследить с какого ресурса был сделан запрос и не меняет
содержимое, по всем трем адресам будет показана одна и та же страница с
книгой 'book_id=123'. Тогда, если в robots.txt указать:
Clean-param: ref /some_dir/get_book.pl
Вот так:
User-agent: Yandex
Disallow:
Clean-param: ref /some_dir/get_book.pl
Робот Яндекса сведет все адреса страницы к одному:
www.site.ru/some_dir/get_book.pl?ref=site_1&book_id=123,
Если на сайте доступна страница без параметров: www.site.ru/some_dir/get_book.pl?book_id=123
То
все сведется именно к ней, когда она будет проиндексирована роботом.
Другие страницы вашего сайта будут обходиться чаще, так как нет
необходимости обновлять страницы:
www.site.ru/some_dir/get_book.pl?ref=site_2&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_3&book_id=123
Синтаксис использования директивы:
Clean-param: p0[&p1&p2&..&pn] [path]
В первом поле через '&' перечисляются параметры, которые нужно не учитывать.
Во втором поле указывается префикс пути страниц, для которых нужно применить правило.
Важно: директива Clean-Param является межсекционной,
поэтому может быть указана в любом месте файла robots.txt. В случае,
если директив указано несколько, все они будут учтены роботом.
Примечание:
Префикс может содержать регулярное выражение в формате, аналогичном
robots.txt, но с некоторыми ограничениями: можно использовать только
символы A-Za-z0-9.-/*_. При этом * трактуется так же, как в robots.txt.
В конец префикса всегда неявно дописывается '*', то есть:
Clean-param: s /forum/showthread.php
означает, что параметр s будет
считаться незначащим для всех url-ов, начинающихся с
/forum/showthread.php. Второе поле указывать необязательно, в этом
случае правило будет применяться для всех страниц сайта.
Регистр учитывается.
Действует ограничение на длину правила — 500 символов.
Например:
Clean-param: abc /forum/showthread.php
Clean-param: sid&sort /forumt/*.php
Clean-param: someTrash&otherTrash
Дополнительные примеры:
#для адресов вида:
www.site1.ru/forum/showthread.php?s=681498b9648949605&t=8243
www.site1.ru/forum/showthread.php?s=1e71c4427317a117a&t=8243
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s /forum/showthread.php
#для адресов вида:
www.site2.ru/index.php?page=1&sort=3a&sid=2564126ebdec301c607e5df
www.site2.ru/index.php?page=1&sort=3a&sid=974017dcd170d6c4a5d76ae
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: sid /index.php
#если таких параметров несколько:
www.site1.ru/forum_old/showthread.php?s=681498605&t=8243&ref=1311
www.site1.ru/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s&ref /forum*/showthread.php
#если параметр используется в нескольких скриптах:
www.site1.ru/forum/showthread.php?s=681498b9648949605&t=8243
www.site1.ru/forum/index.php?s=1e71c4427317a117a&t=8243
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s /forum/index.php
Clean-param: s /forum/showthread.php
Директивы robots.txt, которые не упомянуты в данном описании, робот Яндекса не поддерживает.
Необходимо помнить, что результат использования расширений формата robots.txt может отличаться от результата без них, а именно:
User-agent: Yandex
Allow: /
Disallow: /
# без расширений все запрещалось так как 'Allow: /' игнорировалось,
# с поддержкой расширений все разрешается
User-agent: Yandex
Disallow: /private*html
# без расширений запрещалось '/private*html',
# а с поддержкой расширений и '/private*html',
# и '/private/test.html', и '/private/html/test.aspx' и т.п.
User-agent: Yandex
Disallow: /private$
# без расширений запрещалось '/private$' и '/private$test' и т.п.,
# а с поддержкой расширений только '/private'
User-agent: *
Disallow: /
User-agent: Yandex
Allow: /
# без расширений из-за отсутствия перевода строки,
# 'User-agent: Yandex' было бы проигнорировано и
# результатом стало бы 'Disallow: /', но робот Яндекса
# выделяет записи по наличию в строке 'User-agent:',
# результат для робота Яндекса в данном случае 'Allow: /'
User-agent: *
Disallow: /
# комментарий1...
# комментарий2...
# комментарий3...
User-agent: Yandex
Allow: /
# аналогично предыдущему примеру (см. выше)
Примеры использования расширенного формата robots.txt:
User-agent: Yandex
Allow: /archive
Disallow: /
# разрешает все, что содержит '/archive', остальное запрещено
User-agent: Yandex
Allow: /obsolete/private/*.html$ # разрешает html файлы
# по пути '/obsolete/private/...'
Disallow: /*.php$ # запрещает все '*.php' на данном сайте
Disallow: /*/private/ # запрещает все подпути содержащие
# '/private/', но Allow выше отменяет
# часть запрета
Disallow: /*/old/*.zip$ # запрещает все '*.zip' файлы, содержащие
# в пути '/old/'
User-agent: Yandex
Disallow: /add.php?*user=
# запрещает все скрипты 'add.php?' с параметром 'user'
При написании robots.txt необходимо помнить, что у робота есть разумное
ограничение на его размер. Слишком большие robots.txt (более 32 Кб)
считаются полностью разрешающими, то есть рассматриваются аналогично:
User-agent: Yandex
Disallow:
Также разрешающими считаются robots.txt, которые не удалось закачать
(например, по причине неправильных http-заголовков) или отдающие 404
ошибку.
Для проверки правильности файла robots.txt вы можете воспользоваться специальным on-line анализатором. См. описание «Анализатор robots.txt»
|