Файл robots.txt

Поисковые системы и принцип их работы Файлы Robots.txt и Sitemap xml являются основными для развития проекта в Интернете. robots.txt предназначен для того, чтобы указать роботам поисковых систем, какие страницы Вашего сайта они могут индексировать, а какие нет. И для «контроля» сканирования сайта поисковым роботом используется файл sitemap.xml

Основные требования к robots.txt

С помощью robots.txt можно управлять процессом индексации сайта такими поисковыми системами, как например, Яндекс и Google. Он представляет из себя обычный текстовый файл, который размещается в корневом каталоге сайта и который, в дальнейшем, можно редактировать в любом текстовом редакторе. В случае, если robots.txt отсутствует, поисковый робот будет индексировать все до чего сможет достучаться.

Файл robots.txt имеет не сложный синтаксис. Как правило, в файле robots.txt с помощью директивы 'User-agent' можно определить поисковый робот, или же установить запрет на просмотр некоторых файлов, папок ('Disallow'). Не будет плохо и даже наоборот, если в файле указать место расположения файла Sitemap.

Еще полезно указать в файле robots.txt какое из зеркал вашего сайта является главным в директиве 'Host'. Если даже у вашего сайта нет зеркал, то полезно будет указать в этой директиве, какой из вариантов написания вашего сайта является главным с www или без него, поскольку это в некой степени является своего рода зеркалированием.

Перейдем непосредственно к правилам написания файла robots.txt. Директивы в файле robots.txt имеют следующий вид:
--- правильно заполненный файл в своем теле должен содержать хотя бы одну директиву «Disallow» после записи «User-agent». В противном случаи, пустой файл robots.txt – это свободный доступ к индексации всего сайта;
--- запись «User-agent» определяет права определенного робота поисковой системы. С помощью этой команды можно настроить индексацию сайта для каждого конкретного поискового робота (например, создать запрет индексации отдельной папки только для Яндекса)

User-agent: Yandex

разрешить всем

User-agent: *

Для каждой поисковой системы робот имеет свое название

Google http://www.google.com Googlebot
Yahoo! http://www.yahoo.com Slurp (или Yahoo! Slurp)
AOL http://www.aol.com Slurp
MSN http://www.msn.com MSNBot
Live http://www.live.com MSNBot
Ask http://www.ask.com Teoma
AltaVista http://www.altavista.com Scooter
Alexa http://www.alexa.com ia_archiver
Lycos http://www.lycos.com Lycos
Яндекс http://www.ya.ru Yandex
Рамблер http://www.rambler.ru StackRambler
Мэйл.ру http://mail.ru Mail.Ru
Aport http://www.aport.ru Aport
Вебальта http://www.webalta.ru WebAlta (WebAlta Crawler/2.0)


--- чтобы разрешить всем поисковым роботам проводить индексацию всего сайта без каких-либо ограничений, нужно сделать соответствующую запись в строке Disallow

User-agent: *
Disallow:

обратное действие – запрет индексации всего сайта для всех роботов

User-agent: *
Disallow: /

--- если нужно запретить просмотр определенного каталога, например, каталог /pictures/ (его адрес http://мой-сайт/pictures/) то нужно сделать следующую запись

User-agent: *
Disallow: /pictures/

Запись

User-agent: *
Disallow: /pictures

свидетельствует о том, что для просмотра не доступными станут все файлы и директории, которые начинаются с символов «pictures». Другими словами, файлы: «pictures.htm», «pictures.htm» и директории: «pictures», «pictures1», « pictures99» будут запрещены для просмотра
--- в определении прав индексации допускается использование символов '*' и '$'. Символ '*' означает любую (в том числе пустую) последовательность символов. Следующая запись запрещает всем поисковикам индексацию файлов на сайте с расширение «.aspx»:

User-agent: *
Disallow: *.aspx

--- Host – определяет основное зеркало сайта. В зависимости, какое зеркало является оптимальным www.мой-сайт/ или без www., следует сделать соответствующую запись в файле robot.txt

User-agent: *
Disallow:
Host: www.мой-сайт

или

User-agent: *
Disallow:
Host: мой-сайт

--- расположение на сайте файла Sitemap.xml указывается в robot.txt таким образом:

Sitemap: http://мой-сайт/sitemap.xml



Похожие материалы

Файл sitemap.xml

Файл sitemap.xml

Файл с информацией о страницах сайта для поисковых систем. Он оказывает помощь поисковым системам в сканировании и индексировании страниц сайта

Возможности файла .htaccess

Возможности файла .htaccess

htaccess – это текстовый файл с волшебными возможностями. Полезный для сайта и очень прост в обслуживании

Поисковые системы

Поисковые системы Интернета

Как работает поиск в Интернете? Характеристики и основные принципы работы систем поиска в Интернете.



Яндекс.Метрика
  PR-CY.ru