Настройка robots.txt

28 февраля, 2014

При проведении первоначальной проверки сайта важно обратить внимание на файл robots.txt. Он обязателен для каждого сайта и служит препятствием для доступа к сайту роботов.

Если же данного файла нет, то его срочно необходимо создать. Файл robots.txt создается в текстовом редакторе и располагается в корневой папке каталога. Ошибочно некоторые редактируют его в формате DOS. Некоторые роботы уже научились распознавать редактированные в DOS, но большинству понимание пока не доступно.

Важно на этапе проверки вовремя обнаружить все ошибки и как можно быстрее исправить их, иначе сайт может плохо индексироваться и занимать низкие позиции в ранжировании. Нужно произвести правильную настройку для продвижения сайта, удалить все дубли на сайте и закрыть их в роботсе.

Основные обозначения:

В сети интернет очень много ресурсов посвящено файлу robots.txt. Мы постарались свести всю информацию воедино и предоставить вам в виде одной статьи.

Основными директивами роботса являются: User-agent, Disallow, Allow, Host (для робота Яндекса)и Sitemap. Это самые основные, и остальных знать вовсе не обязательно.

Директива User-agent отвечает за деление файла на сегменты для каждой поисковой системы. Мы рекомендуем делить на сегменты для гугла, яндекса и выделить общий сегмент для всех остальных поисковиков. Роботы находят сегмент со своим именем, а если нет, то общий.
Disallow — запрещает индексирование сайта. Применяя данную директиву, мы можем скрыть от индексации, как целый сайт, так и отдельные страница каталога. Не индексируются страницы, содержащие конфиденциальную информацию, дубли и просто те страницы, индексировать которые нет смысла.
Allow — напротив, показывает то, что нуждается в индексации.
Crawl-delay подходит для крупных сайтов, он уменьшает время между скачиваниями.
Host — необходимая директива для яндекс-робота, она указывает главное зеркало сайта. Если у вашего сайта имеются зеркала, то специально созданный робот по зеркалам сформирует из них группу зеркал для конкретно вашего сайта. Эта директива является межсегментной, поэтому она используется роботом где бы не находилась, без привязки к месту в роботсе.
Sitemap — указывает путь к XML-карте. Его можно указать и в вебмастере, но мы все же рекомендуем сделать это в роботсе.

Для того, чтобы узнать, как именно закрывать, можно использовать программу Xenu, она же еще помогает обнаруживать битые ссылки при аудите сайта. Опытному пользователю бывает достаточно взглянуть на результаты проверки этой программы, чтобы составить корректный файл роботса.

Директивы возможно использовать совместно. Если подходит несколько директив для конкретной страницы, то выбор падает на последнюю из порядка проведения в сортировочном списке. Так, порядок их установки никак не влияет на их использование роботом.

Специальные символы для создания robots.txt

Символ * обозначает любую, в том числе и пустую, очередность символов. Для отмены * на конце директивы используется символ $. При их участии создаются правила в директиве Disallow. Так, Disallow: /page* блокирует доступ к страницам, начинающимся на /page, Disallow: /page$ говорит о том, что нельзя индексировать только страницу page, а сам каталок индексировать можно.

User-agent: *

Disallow: / Запрещает индексацию целого сайта

User-agent: *

Disallow: допускает индексировать сайт

Allow: /seo-teoriya/nastrojka-robots-txt/

Disallow: /seo-teoriya/ Разрешает доступ лишь к указанной странице

Можно запрещать индексировать и отдельные файлы.

Disallow: /admin/index.html

Запрет name, name.html, name/:

Disallow: /name*

Запрет всех htm, но не html:

Disallow: /*.htm$

Мы запретили файл index.html папки /admin/:

Настройка и использование robots.txt

Мы постарались охватить все основные нюансы в работе с файлом robots.txt и донести необходимость того, что корректная его настройка — залог грамотного продвижения вашего сайта.

Настройка robots.txt

Основные обозначения:

Специальные символы для создания robots.txt

Интересные статьи: