omnitools.ru
главная  |  оптимизация сайтов  |  настройка файла robots.txt

Настройка файла robots.txt

настройка файла robots.txt

Содержание robots.txt

Файл robots.txt содержит директивы, которые указываю поисковым системам то, какой контент следует индексировать, а какой из индекса исключить. В файле содержатся следующие директивы:

  • User-agent
  • Disallow
  • Allow
  • Host
  • Sitemap

Директива User-agent

Эта директива указывает на то, каким индексирующим роботам нужно обращать внимание на следующие директивы. Например, если поисковая машина встречает запись вида User-agent: good-bot, то она посчитает, что все последующие директивы предназначены для поисковой машины с именем good-bot.

Кроме указания имени конкретной поисковой машины User-agent может содержать символ *, например: User-agent: *. Это будет означать, что все следующие директивы обращены ко всем поисковым машинам.

Директива Disallow

Disallow запрещает индексирование определенного УРЛ. Здесь УРЛ может указываться как в виде конкретного УРЛ, так и в виде простого регулярного выражения. К сожалению единственный символ, который может использоваться для задания маски УРЛ - это символ *. Например:

  • Disallow: /maypage.html - запрещает индексирование конкретного УРЛ;
  • Disallow: /*.html/ - запрещает индексирование любой страницы, которая содержит ".html/";
  • Disallow: /catalog/* - запрещает индексирование любого УРЛ в каталоге catalog;
  • Disallow: /catalog/ - запрещает индексирование только этого УРЛ;
  • Disallow: / - запрещает индексирование корневой страницы сайта;
  • Disallow: * - запрещает индексирование всего содержимого сайта; будте с этим осторожны.

Директива Allow

Allow - разрешает индексирование УРЛ. Следует применять для создания исключений, если нужно разрешить индексирование определенного УРЛ, который был ранее запрещен в соответствии с маской. Например:

  • Disallow: /catalog/* - запрещает индексирование любого УРЛ в каталоге catalog;
  • Allow: /catalog/mypage.html - разрешает индексирование конкретного УРЛ, не смотря на предыдущий запрет индексации всего каталога.

Директива Host

Host - указывает главное зеркало сайта. Последнее время поисковые машины рассматривают сайты, работающие по протоколам http и https, как разные. Поэтому рекомендуется указывать главное зеркало сайта с протоколом. Без указания конкретного протокола для главного зеркала сайта будет выбран протокол http. Пример:

  • Host: mysite.com - указывает на протокол http для главного зеркала;
  • Host: http://mysite.com - аналогичен предыдущему;
  • Host: https://mysite.com - указывает на протокол https для главного зеркала.

Директива Sitemap

Sitemap - указывает на карту сайда. В качестве карты сайта может быть указан либо файл с данными, либо индексный файл, содержащий указатели на множество файлов с данными карты сайта. Подробнее об организации карты сайта смотрите в соответствующей статье. Пример указания директивы:

  • Sitemap: https://mysite.com/sitemap.xml

Пример содержания robots.txt

В целом содержание файла, рассмотренного на примерах выглядит так:

  • User-agent: *
  •  
  • Disallow: /maypage.html
  • Disallow: /*.html/
  • Disallow: /catalog/*
  • Allow: /catalog/mypage.html
  •  
  • Host: https://mysite.com
  • Sitemap: https://mysite.com/sitemap.xml

Заключение

В заключении хочу отметить, что настройка файла robots.txt является важным этапом в оптимизации сайта. Поэтому к ней необходимо подойти с максимальной ответственностью.

pub:
upd:
Заказать оптимизацию сайта

Это интересно

Дополнительно по теме

https://omnitools.ru/img/optimizatsiya/nastroyka-fayla-robots.jpg
Продвижение сайтов в Москве заказать от 10 000 рублей. Тел. +7 (925) 120-35-52 115093, г. Москва, ул. Павловская, д. 18 +7 (925) 120-35-52
Настройка файла robots.txt
Настройка файла robots.txt https://omnitools.ru/optimizatsiya/nastroyka-fayla-robots.html

Написать нам

имя:
e-mail:
телефон:
должность:
регион:

главная  |  оптимизация сайтов  |  настройка файла robots.txt