Приветствую Вас Гость | RSS Вторник
21.01.2025, 23:26
 Заработок
    в интернете

Форма входа
Главная Каталог статей Регистрация Вход
Меню сайта
Категории раздела
Полезная информация [2]
В этой категории собрана информация, которая будет полезна для заработка в интернете.
Заработок в интернете [1]
Здесь будут собраны статьи посвященные заработку в интернете,которые не попали в основной раздел сайта.
Партнерские программы [1]
Здесь будут собраны партнерские программы,которые не вошли в основной раздел сайта по партнерским спирограммам.
Продвижение сайта [6]
Здесь собраны все материалы,которые могут понадобиться вам для продвижение вашего сайта на первые строчки поисковых систем.
Создание сайта [3]
Здесь вы найдете материалы посвященные созданию сайта.
Поиск
Наш опрос
Оцените мой сайт
Всего ответов: 31
Статистика

Онлайн всего: 1
Гостей: 1
Пользователей: 0
Котировки ЦБ
Главная » Статьи » Полезная информация

Все о файле Robots.txt

Что такое файл robots.txt

Robots.txt — текстовый файл, расположенный на сайте, который предназначен для роботов поисковых систем. В этом файле веб-мастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.


Создание robots.txt

Воспользуйтесь любым текстовым редактором (например, Блокнотом или WordPad'ом), создайте файл с именем "robots.txt" и заполните его в соответствии с представленными ниже правилами. После этого необходимо загрузить файл в корневой каталог вашего сайта.

Куда заливать файл robots.txt
Это очень простой вопрос,залить файл robots.txt нужно в корневой каталог вашего сайта, в процессе заливки могут произойти ошибки, поэтому после того как файл добавлен на сайт вам следует проверить правильно ли работает фал robot.txt на вашем сайте, для проверки вы можете воспользоваться Чтобы проверить правильность обработки вашего файла robots.txt, воспользуйтесь анализатором файла robots.txt.

Далее идет более углубленная информация,которая будет нужна вам только в том случаи если вы в серьез решите пользоваться всеми возможностями фала robots.txt,если же вы не планируете это делать можно воспользоваться генератором robots.txt


Директива User-agent

Управлять доступом робота Яндекса к вашему сайту вы можете при помощи файла robots.txt, который должен быть размещен в корневой директории сайта. Робот Яндекса поддерживает стандарт описания http://www.robotstxt.org/wc/norobots.html с расширенными возможностями, описанными ниже.В роботе Яндекса используется сессионный принцип работы, на каждую сессию формируется определенный пул страниц, которые планирует закачать робот. Сессия начинается с закачки robots.txt сайта, если его нет, он не текстовый или на запрос робота возвращается HTTP-код отличный от '200', считается, что доступ роботу не ограничен. В самом robots.txt проверяется наличие записей, начинающихся с 'User-agent:', в них ищутся подстроки 'Yandex', либо '*' (регистр значения не имеет), причем, если обнаружено 'User-agent: Yandex', директивы для 'User-agent: *' не учитываются. Если записи 'User-agent: Yandex' и 'User-agent: *' отсутствуют, считается, что доступ роботу не ограничен.
  1. Следующим роботам Яндекса можно указать отдельные директивы:

    'YandexBot' — основной индексирующий робот;

    'YandexMedia' — робот, индексирующий мультимедийные данные;

    'YandexImages' — индексатор Яндекс.Картинок;

    'YandexCatalog' — "простукивалка" Яндекс.Каталога;

    'YandexDirect' — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса;

    'YandexBlogs' — робот поиска по блогам, индексирующий комментарии постов;

    'YandexNews' — робот Яндекс.Новостей;

    'YandexPagechecker' — робот, обращающийся к странице при валидации микроразметки через форму «Валидатор микроразметки»;

    Для каждого из них также действительно правило: если обнаружены директивы для конкретного робота, директивы 'User-agent: Yandex' и 'User-agent: *' не используются.

    Пример:

    User-agent: YandexBot # будет использоваться только основным индексирующим роботом
    Disallow: /*id=
    
    User-agent: Yandex # будет использована всеми роботами Яндекса
    Disallow: /*sid= # кроме основного индексирующего
    
    User-agent: * # не будет использована роботами Яндекса
    Disallow: /cgi-bin 

Использование директив Disallow и Allow.

Чтобы запретить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву 'Disallow'. Примеры:

User-agent: Yandex
Disallow: / # блокирует доступ ко всему сайту

User-agent: Yandex
Disallow: /cgi-bin # блокирует доступ к страницам 
 #начинающимся с '/cgi-bin'

Примечание:

Недопустимо наличие пустых переводов строки между директивами 'User-agent' и 'Disallow' ('Allow'), а также между самими 'Disallow' ('Allow') директивами.

Кроме того, в соответствии со стандартом перед каждой директивой 'User-agent' рекомендуется вставлять пустой перевод строки.

Символ '#' предназначен для описания комментариев. Все, что находится после этого символа и до первого перевода строки не учитывается.

Чтобы разрешить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву 'Allow'. Примеры:

User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц 
# начинающихся с '/cgi-bin'

Совместное использование директив.

Если для данной страницы сайта подходит несколько директив, то выбирается первая в порядке появления в выбранном User-agent блоке. Примеры:

User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц 
# начинающихся с '/cgi-bin'
User-agent: Yandex
Disallow: /
Allow: /cgi-bin
# запрещает скачивать весь сайт

Директивы Allow-Disallow без параметров.

Отсутствие параметров у директивы трактуется следующим образом:

User-agent: Yandex
Disallow: # то же, что и Allow: /

User-agent: Yandex
Allow: # то же, что и Disallow: /

Использование спецсимволов "*" и "$".

При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая, таким образом, определенные регулярные выражения. Спецсимвол '*' означает любую (в том числе пустую) последовательность символов. Примеры:

User-agent: Yandex Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx' # и '/cgi-bin/private/test.aspx' Disallow: /*private # запрещает не только '/private', # но и '/cgi-bin/private'

Спецсимвол '$'

По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*', например:

User-agent: Yandex Disallow: /cgi-bin* # блокирует доступ к страницам # начинающимся с '/cgi-bin' Disallow: /cgi-bin # то же самое

Чтобы отменить '*' на конце правила, можно использовать спецсимвол '$', например:

User-agent: Yandex Disallow: /example$ # запрещает '/example', # но не запрещает '/example.html'User-agent: Yandex Disallow: /example # запрещает и '/example', # и '/example.html'User-agent: Yandex Disallow: /example$ # запрещает только '/example' Disallow: /example*$ # так же, как 'Disallow: /example' #запрещает и /example.html и /example

Директива Sitemap.

Если вы используете описание структуры вашего сайта в формате sitemaps.xml, и хотите, чтобы робот узнал о ней, укажите путь к sitemaps.xml в качестве параметра директивы 'Sitemap' (если файлов несколько, укажите все). Пример:

User-agent: Yandex
Allow: /
Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://mysite.ru/site_structure/my_sitemaps2.xml

Робот запомнит пути к sitemaps.xml, обработает файлы и будет использовать результаты при последующем формировании сессий закачки.


Директива Host.

Если у вашего сайта есть зеркала, специальный робот зеркальщик определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его у всех зеркал при помощи robots.txt, используя директиву 'Host' и определив в качестве ее параметра имя главного зеркала. Директива 'Host' не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом. Пример:

#Если www.glavnoye-zerkalo.ru главное зеркало сайта, то 
#robots.txt для всех сайтов из группы зеркал выглядит так 
User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.glavnoye-zerkalo.ru

Важно: в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву 'Host' необходимо добавлять в группе, начинающейся с записи 'User-Agent', непосредственно после директив 'Disallow'('Allow'). Аргументом директивы 'Host' является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием.

#Пример корректно составленного robots.txt, при обработке 
#которого директива Host учитывается
User-Agent: *
Disallow:
Host: www.myhost.ru

Тем не менее директива Host является межсекционной, поэтому будет использоваться роботом вне зависимости от места в файле robots.txt, где она указана.

Важно: Директива Host в файле robots.txt может быть только одна. В случае указания нескольких директив, использоваться будет первая.

Пример:

Host: myhost.ru # используется

User-agent: *
Disallow: /cgi-bin

User-agent: Yandex
Disallow: /cgi-bin
Host: www.myhost.ru # не используется

Важно: параметр директивы Host обязан состоять из одного корректного имени хоста (то есть соответствующего RFC 952 и не являющегося IP-адресом) и допустимого номера порта. Некорректно составленные строчки 'Host:' игнорируются.

# Примеры игнорируемых директив Host
Host: www.myhost-.ru
Host: www.-myhost.ru
Host: www.myhost.ru:100000
Host: www.my_host.ru
Host: .my-host.ru:8000
Host: my-host.ru.
Host: my..host.ru
Host: www.myhost.ru/
Host: www.myhost.ru:8080/
Host: http://www.myhost.ru
Host: 213.180.194.129
Host: www.firsthost.ru,www.secondhost.ru
Host: www.firsthost.ru www.secondhost.ru

Примеры использования директивы Host:

# domen.myhost.ru является главным зеркалом 
# www.domen.myhost.ru, тогда корректное использование 
# директивы Host такое:
User-Agent: *
Disallow:
Host: domen.myhost.ru

# domen.myhost.ru является главным зеркалом 
# www.domen.myhost.ru, тогда некорректное использование 
# директивы Host такое:
User-Agent: *
Disallow:
Host: myhost.ru

Директива Crawl-delay.

Если сервер сильно нагружен и не успевает отрабатывать запросы на закачку, воспользуйтесь директивой "Crawl-delay". Она позволяет задать поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей. В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву "Crawl-delay" необходимо добавлять в группе, начинающейся с записи "User-Agent", непосредственно после директив "Disallow" ("Allow").

Поисковый робот Яндекса поддерживает дробные значения Crawl-Delay, например, 0.5. Это не гарантирует, что поисковый робот будет заходить на ваш сайт каждые полсекунды, но дает роботу больше свободы и позволяет ускорить обход сайта.

Примеры:

User-agent: Yandex Crawl-delay: 2 # задает таймаут в 2 секунды User-agent: * Disallow: /search Crawl-delay: 4.5 # задает таймаут в 4.5 секунды

Директива Clean-param

Если адреса страниц вашего сайта содержат динамические параметры, которые не влияют на их содержимое (например: идентификаторы сессий, пользователей, рефереров и т.п.), вы можете описать их при помощи директивы 'Clean-param'. Робот Яндекса, используя эту информацию, не будет многократно перезакачивать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

Например, на сайте есть страницы:

www.site.ru/some_dir/get_book.pl?ref=site_1&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_2&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_3&book_id=123

параметр 'ref=' используется только для того, чтобы отследить с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница с книгой 'book_id=123'. Тогда, если в robots.txt указать:

Clean-param: ref /some_dir/get_book.pl

Вот так:

User-agent: Yandex
Disallow:
Clean-param: ref /some_dir/get_book.pl

Робот Яндекса сведет все адреса страницы к одному:

www.site.ru/some_dir/get_book.pl?ref=site_1&book_id=123,

Если на сайте доступна страница без параметров:

www.site.ru/some_dir/get_book.pl?book_id=123

То все сведется именно к ней, когда она будет проиндексирована роботом. Другие страницы вашего сайта будут обходиться чаще, так как нет необходимости обновлять страницы:

www.site.ru/some_dir/get_book.pl?ref=site_2&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_3&book_id=123

Синтаксис использования директивы:

Clean-param: p0[&p1&p2&..&pn] [path]

В первом поле через '&' перечисляются параметры, которые нужно не учитывать. Во втором поле указывается префикс пути страниц, для которых нужно применить правило.

Важно: директива Clean-Param является межсекционной, поэтому может быть указана в любом месте файла robots.txt. В случае, если директив указано несколько, все они будут учтены роботом.

Примечание:

Префикс может содержать регулярное выражение в формате, аналогичном robots.txt, но с некоторыми ограничениями: можно использовать только символы A-Za-z0-9.-/*_. При этом * трактуется так же, как в robots.txt. В конец префикса всегда неявно дописывается '*', то есть:

Clean-param: s /forum/showthread.php

означает, что параметр s будет считаться незначащим для всех url-ов, начинающихся с /forum/showthread.php. Второе поле указывать необязательно, в этом случае правило будет применяться для всех страниц сайта. Регистр учитывается. Действует ограничение на длину правила — 500 символов. Например:

Clean-param: abc /forum/showthread.php
Clean-param: sid&sort /forumt/*.php
Clean-param: someTrash&otherTrash

Дополнительные примеры:

#для адресов вида:
www.site1.ru/forum/showthread.php?s=681498b9648949605&t=8243
www.site1.ru/forum/showthread.php?s=1e71c4427317a117a&t=8243
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s /forum/showthread.php
#для адресов вида:
www.site2.ru/index.php?page=1&sort=3a&sid=2564126ebdec301c607e5df
www.site2.ru/index.php?page=1&sort=3a&sid=974017dcd170d6c4a5d76ae
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: sid /index.php
#если таких параметров несколько:
www.site1.ru/forum_old/showthread.php?s=681498605&t=8243&ref=1311
www.site1.ru/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s&ref /forum*/showthread.php
#если параметр используется в нескольких скриптах:
www.site1.ru/forum/showthread.php?s=681498b9648949605&t=8243
www.site1.ru/forum/index.php?s=1e71c4427317a117a&t=8243
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s /forum/index.php
Clean-param: s /forum/showthread.php

Дополнительная информация.

Директивы robots.txt, которые не упомянуты в данном описании, робот Яндекса не поддерживает.

Необходимо помнить, что результат использования расширений формата robots.txt может отличаться от результата без них, а именно:

User-agent: Yandex Allow: / Disallow: / # без расширений все запрещалось так как 'Allow: /' игнорировалось, # с поддержкой расширений все разрешается User-agent: Yandex Disallow: /private*html # без расширений запрещалось '/private*html', # а с поддержкой расширений и '/private*html', # и '/private/test.html', и '/private/html/test.aspx' и т.п. User-agent: Yandex Disallow: /private$ # без расширений запрещалось '/private$' и '/private$test' и т.п., # а с поддержкой расширений только '/private' User-agent: * Disallow: / User-agent: Yandex Allow: / # без расширений из-за отсутствия перевода строки, # 'User-agent: Yandex' было бы проигнорировано и # результатом стало бы 'Disallow: /', но робот Яндекса # выделяет записи по наличию в строке 'User-agent:', # результат для робота Яндекса в данном случае 'Allow: /' User-agent: * Disallow: / # комментарий1... # комментарий2... # комментарий3... User-agent: Yandex Allow: / # аналогично предыдущему примеру (см. выше)

Примеры использования расширенного формата robots.txt:

User-agent: Yandex Allow: /archive Disallow: / # разрешает все, что содержит '/archive', остальное запрещено User-agent: Yandex Allow: /obsolete/private/*.html$ # разрешает html файлы # по пути '/obsolete/private/...' Disallow: /*.php$ # запрещает все '*.php' на данном сайте Disallow: /*/private/ # запрещает все подпути содержащие # '/private/', но Allow выше отменяет # часть запрета Disallow: /*/old/*.zip$ # запрещает все '*.zip' файлы, содержащие # в пути '/old/' User-agent: Yandex Disallow: /add.php?*user= # запрещает все скрипты 'add.php?' с параметром 'user'

При написании robots.txt необходимо помнить, что у робота есть разумное ограничение на его размер. Слишком большие robots.txt (более 32 Кб) считаются полностью разрешающими, то есть рассматриваются аналогично:

User-agent: Yandex Disallow:

Также разрешающими считаются robots.txt, которые не удалось закачать (например, по причине неправильных http-заголовков) или отдающие 404 ошибку.

Для проверки правильности файла robots.txt вы можете воспользоваться специальным on-line анализатором. См. описание «Анализатор robots.txt»











Категория: Полезная информация | Добавил: vitekkk (01.10.2011)
Просмотров: 8837 | Комментарии: 4 | Теги: ошибки индексации, индексация, как справиться с проблемой, ошибки, не индексируется сайт, robots.txt, Error | Рейтинг: 0.0/0
Всего комментариев: 3
3 Rukrjatew  
0
пардон за докучность. давным-давно шукал вменяемое повесть вкладов, их динамики. Для тех кто не осознает, это не так не мудрствуя лукаво. На горизонтах интернета бессчетно чего есть. Но вменяемой информации о вкладах не так числа.
далее ссылка на статью. может быть кому-то из вас пригодится.

Если не туда разместил пост переместите пожалуйста. Благодарю.
http://rusbanksite.ru/%D0%B2%D1%8B%D0%B3%D0%BE%D0%B4%D0%BD%D1%8B%D0%B5-%D0%B2%D0%BA%D0%BB%D0%B0%D0%B4%D 1%8B/ - Токмо у нас вы улучите банковские вклады которые помогут вам и вашим деньгам

2 Chentytoole  
0
http://rickphosgema1976.muyoyouzoom.ru/kupit-kovrik-dlya-horeografii-v-pitere.html - купить коврик для хореографии в питере зимняя одежда в остин http://pornomeweb1983.centiyojanoodle.ru/shpionskiy-fotoapparat-kupit.html - шпионский фотоаппарат купить какой сотовый телефон рекламируют в доме2 http://centstercabsdan1972.livechatnset.ru/detskaya-zimnyaya-kurtka-kukmorskaya.html - детская зимняя куртка кукморская фин-флер челябинск фото http://hydmeaginto1974.jabberworksbrightworks.ru/shaluny-zakazat.html - шалуны заказать оитвентур http://salzmafunpi1978.livechatnset.ru/v-kakom-magazine-chelyabinska-mozhno-kupit-tolstovku-liverpool.html - в каком магазине челябинска можно купить толстовку liverpool напульсники adidas http://eambeeyakicero.ru/tachskrin-dlya-philips-xenium-x-622.html - тачскрин для philips xenium x 622 магазины мега мол в чебоксарах http://jetbeantalane.ru/kak-vkluchit-printer-hp-laserjet-1022.html - как включить принтер hp laserjet 1022 converse адреса магазинов в москве http://boiholbitos1983.twidooideo.ru/danilko-odezhda.html - данилко одежда интернет-магазин женской одежды waggon http://gardlettidist1974.youchatlivetags.ru/zhenskiy-french.html - женский френч солдат вермахта для stalker amk http://abenotte1986.yanixjetcat.ru/nedorogaya-muzhskaya-zimnyaya-odezhda-pochtoy.html - недорогая мужская зимняя одежда почтой купить куртки зимние в украине http://krisconmydswebs1984.snapstormzoomshare.ru/rynok-sadovod-zhenskie-platya-bolshih-razmerov.html - рынок садовод женские платья больших размеров купить футболку с флагом азербайджан http://canpolacow1974.muvaainoodle.ru/sarabande-detskaya-odezhda.html - sarabande детская одежда рабочи одежда для электрика http://jaxvinemytz.ru/dok-stanciya-dlya-galaxy-nexus.html - док станция для galaxy nexus дисконт честер http://iceenanka1975.idoabando.ru/rkfdbfnehf-lkz-eee-901.html - rkfdbfnehf lkz eee 901 заказать футболку ysl http://vooboxzandu.ru/hp-officejet-j5520.html - hp officejet j5520 одежда cocogio rio http://tiescaneryl1986.mupethoughtbean.ru/zhestokoe-norevo.html - жестокое норево пляжные шорты купить в москве атлантик http://promovilib1983.aginixyaloo.ru/shapki-sharfy-varezhki-optom-volgograd.html - шапки шарфы варежки оптом волгоград пихоры женские купить http://lecnavefe1972.kwinixcamimbee.ru/telefon-nokia-7230.html - телефон нокиа 7230 брендовые куртки в ставрополе http://picnorthnacpou1987.aginixyaloo.ru/kombinezony-kerri.html - комбинезоны керри jlt lf lkz tyoby jkmib hfpvthjd d eybdthvfut vjcrjdcrbq http://horrinari1984.snapstormzoomshare.ru/kupit-kozhannye-muzhskie-bruki-v-spb.html - купить кожанные мужские брюки в спб каталог зимне одежды леминнг http://compglatxines1971.kwitaplanti.ru/kanadskaya-zimnyaya-obuv-dlya-detey.html - канадская зимняя обувь для детей панталоны для женщин http://daireadhouca1972.jabberpediarealclub.ru/dnepropetrovsk-deshevaya-obuv.html - днепропетровск дешевая обувь женские джинсы багги http://zellnotande1972.minutrundo.ru/internet-magazin-detskiy-kombinezon-na-1-gol.html - интернет магазин детский комбинезон на 1 гол. магазин центр обувь на некросово http://clerafvolwhe1976.wordbirdtopicxs.ru/detskaya-zimnyaya-obuv-kollekciya.html - детская зимняя обувь коллекция где в омске купить вечернее платье размер 50-52 изумрудный цвет http://goophomepi1974.zooyoskander.ru/prays-palatin-samara.html - прайс палатин самара модная осенняя обувь для подростков http://cornderpantgi1972.mupethoughtbean.ru/archos-101-g9-perestal.html - archos 101 g9 перестал сапоги для малышей купить http://breasavtinda1971.miloolazio.ru/kupit-humminbird-788ci-hd-di-combo.html - купить humminbird 788ci hd di combo одежда второй фронт

1 Tubruaxeh  
0
Помогите советом. Пару дней назад решился покупать в онлайн аптеке изрядно препаратов. Чтобы себя да и для жены тоже.
Аптеку нашел c помощью этого сайт.
http://sdfg.freeiz.com/
Понравились цены и бонусы. Там дозволено приобретать значительный обьем едва даром.

Оплатил без проблем. Теперь жду когда прийдет. жду и сомневаюсь. Боюсь что ошибся в чем-то.
А потому прошу совета. Который покупал через онлайн аптеки? Я сделал совершенно правильно?

P.S. Господа модераторы. Извините если написал не туда. Перенесите тему в нормальный раздел. Спасибо.

Имя *:
Email *:
Код *:

Copyright MyCorp © 2025Создать бесплатный сайт с uCoz