Содержание robots.txt
Файл robots.txt содержит директивы, которые указываю поисковым системам то, какой контент следует индексировать, а какой из индекса исключить. В файле содержатся следующие директивы:
- User-agent
- Disallow
- Allow
- Host
- Sitemap
Директива User-agent
Эта директива указывает на то, каким индексирующим роботам нужно обращать внимание на следующие директивы. Например, если поисковая машина встречает запись вида User-agent: good-bot, то она посчитает, что все последующие директивы предназначены для поисковой машины с именем good-bot.
Кроме указания имени конкретной поисковой машины User-agent может содержать символ *, например: User-agent: *. Это будет означать, что все следующие директивы обращены ко всем поисковым машинам.
Директива Disallow
Disallow запрещает индексирование определенного УРЛ. Здесь УРЛ может указываться как в виде конкретного УРЛ, так и в виде простого регулярного выражения. К сожалению единственный символ, который может использоваться для задания маски УРЛ - это символ *. Например:
- Disallow: /maypage.html - запрещает индексирование конкретного УРЛ;
- Disallow: /*.html/ - запрещает индексирование любой страницы, которая содержит ".html/";
- Disallow: /catalog/* - запрещает индексирование любого УРЛ в каталоге catalog;
- Disallow: /catalog/ - запрещает индексирование только этого УРЛ;
- Disallow: / - запрещает индексирование корневой страницы сайта;
- Disallow: * - запрещает индексирование всего содержимого сайта; будте с этим осторожны.
Директива Allow
Allow - разрешает индексирование УРЛ. Следует применять для создания исключений, если нужно разрешить индексирование определенного УРЛ, который был ранее запрещен в соответствии с маской. Например:
- Disallow: /catalog/* - запрещает индексирование любого УРЛ в каталоге catalog;
- Allow: /catalog/mypage.html - разрешает индексирование конкретного УРЛ, не смотря на предыдущий запрет индексации всего каталога.
Директива Host
Host - указывает главное зеркало сайта. Последнее время поисковые машины рассматривают сайты, работающие по протоколам http и https, как разные. Поэтому рекомендуется указывать главное зеркало сайта с протоколом. Без указания конкретного протокола для главного зеркала сайта будет выбран протокол http. Пример:
- Host: mysite.com - указывает на протокол http для главного зеркала;
- Host: http://mysite.com - аналогичен предыдущему;
- Host: https://mysite.com - указывает на протокол https для главного зеркала.
Директива Sitemap
Sitemap - указывает на карту сайда. В качестве карты сайта может быть указан либо файл с данными, либо индексный файл, содержащий указатели на множество файлов с данными карты сайта. Подробнее об организации карты сайта смотрите в соответствующей статье. Пример указания директивы:
- Sitemap: https://mysite.com/sitemap.xml
Пример содержания robots.txt
В целом содержание файла, рассмотренного на примерах выглядит так:
- User-agent: *
- Disallow: /maypage.html
- Disallow: /*.html/
- Disallow: /catalog/*
- Allow: /catalog/mypage.html
- Host: https://mysite.com
- Sitemap: https://mysite.com/sitemap.xml
Заключение
В заключении хочу отметить, что настройка файла robots.txt является важным этапом в оптимизации сайта. Поэтому к ней необходимо подойти с максимальной ответственностью.
upd: