Файл robots.txt

Основные требования к robots.txt
С помощью robots.txt можно управлять процессом индексации сайта такими поисковыми системами, как например, Яндекс и Google. Он представляет из себя обычный текстовый файл, который размещается в корневом каталоге сайта и который, в дальнейшем, можно редактировать в любом текстовом редакторе. В случае, если robots.txt отсутствует, поисковый робот будет индексировать все до чего сможет достучаться.Файл robots.txt имеет не сложный синтаксис. Как правило, в файле robots.txt с помощью директивы 'User-agent' можно определить поисковый робот, или же установить запрет на просмотр некоторых файлов, папок ('Disallow'). Не будет плохо и даже наоборот, если в файле указать место расположения файла Sitemap.
Еще полезно указать в файле robots.txt какое из зеркал вашего сайта является главным в директиве 'Host'. Если даже у вашего сайта нет зеркал, то полезно будет указать в этой директиве, какой из вариантов написания вашего сайта является главным с www или без него, поскольку это в некой степени является своего рода зеркалированием.
Перейдем непосредственно к правилам написания файла robots.txt. Директивы в файле robots.txt имеют следующий вид:
--- правильно заполненный файл в своем теле должен содержать хотя бы одну директиву «Disallow» после записи «User-agent». В противном случаи, пустой файл robots.txt – это свободный доступ к индексации всего сайта;
--- запись «User-agent» определяет права определенного робота поисковой системы. С помощью этой команды можно настроить индексацию сайта для каждого конкретного поискового робота (например, создать запрет индексации отдельной папки только для Яндекса)
User-agent: Yandex
разрешить всем
User-agent: *
Для каждой поисковой системы робот имеет свое название
http://www.google.com | Googlebot | |||
Yahoo! | http://www.yahoo.com | Slurp (или Yahoo! Slurp) | ||
AOL | http://www.aol.com | Slurp | ||
MSN | http://www.msn.com | MSNBot | ||
Live | http://www.live.com | MSNBot | ||
Ask | http://www.ask.com | Teoma | ||
AltaVista | http://www.altavista.com | Scooter | ||
Alexa | http://www.alexa.com | ia_archiver | ||
Lycos | http://www.lycos.com | Lycos | ||
Яндекс | http://www.ya.ru | Yandex | ||
Рамблер | http://www.rambler.ru | StackRambler | ||
Мэйл.ру | http://mail.ru | Mail.Ru | ||
Aport | http://www.aport.ru | Aport | ||
Вебальта | http://www.webalta.ru | WebAlta (WebAlta Crawler/2.0) |
--- чтобы разрешить всем поисковым роботам проводить индексацию всего сайта без каких-либо ограничений, нужно сделать соответствующую запись в строке Disallow
User-agent: *
Disallow:
Disallow:
обратное действие – запрет индексации всего сайта для всех роботов
User-agent: *
Disallow: /
Disallow: /
--- если нужно запретить просмотр определенного каталога, например, каталог /pictures/ (его адрес http://мой-сайт/pictures/) то нужно сделать следующую запись
User-agent: *
Disallow: /pictures/
Disallow: /pictures/
Запись
User-agent: *
Disallow: /pictures
Disallow: /pictures
свидетельствует о том, что для просмотра не доступными станут все файлы и директории, которые начинаются с символов «pictures». Другими словами, файлы: «pictures.htm», «pictures.htm» и директории: «pictures», «pictures1», « pictures99» будут запрещены для просмотра
--- в определении прав индексации допускается использование символов '*' и '$'. Символ '*' означает любую (в том числе пустую) последовательность символов. Следующая запись запрещает всем поисковикам индексацию файлов на сайте с расширение «.aspx»:
User-agent: *
Disallow: *.aspx
Disallow: *.aspx
--- Host – определяет основное зеркало сайта. В зависимости, какое зеркало является оптимальным www.мой-сайт/ или без www., следует сделать соответствующую запись в файле robot.txt
User-agent: *
Disallow:
Host: www.мой-сайт
Disallow:
Host: www.мой-сайт
или
User-agent: *
Disallow:
Host: мой-сайт
Disallow:
Host: мой-сайт
--- расположение на сайте файла Sitemap.xml указывается в robot.txt таким образом:
Sitemap: http://мой-сайт/sitemap.xml
Похожие материалы
Файл с информацией о страницах сайта для поисковых систем. Он оказывает помощь поисковым системам в сканировании и индексировании страниц сайта
htaccess – это текстовый файл с волшебными возможностями. Полезный для сайта и очень прост в обслуживании
Как работает поиск в Интернете? Характеристики и основные принципы работы систем поиска в Интернете.