Меню

Главная » SEO / Продвижение сайтов » Как правильно составить файл robots.txt

Как правильно составить robots.txt? Зачем он нужен?

Файл robots.txt. На эти вопросы я постараюсь ответить в этой статье.
Файл robots.txt размещается в корневой папке сайта и предназначен для создания правил индексации для поискового робота. Я хотел бы рассмотреть основные правила составление файла robots.txt, и особенное внимание уделить необходимости создания такого файла.

 

файл robots.txtНаверное, уже не для кого не секрет, что поисковые системы крайне негативно относятся к дублированному контенту и копипасту или большой исходящей ссылочной массе с одной страницы.

Для примера приведу ситуацию, которая случается на блогах, причем, даже на самых популярных – это дублирование контента через тэги и категории.

Простой пример на моем блоге статью Самостоятельная оптимизация сайта. можно встретить, как минимум трижды:
https://info-m.pro/stati/prodvizhenie-sajta/samostoyatelnaya-optimizaciya-sajta.html

https://info-m.pro/tag/category/stati/prodvizhenie-sajta

https://info-m.pro/category/stati/prodvizhenie-sajta

В первом случае в полном объеме в остальных в сокращенном.

За такое некоторые поисковики могут наложить санкции относительно сайта, поэтому в моем случае я запретил к индексации тэги и категории:

Disallow: /tag/
Disallow: /category/

Робот который заходит к нам на сайт сначала проверяет файл robots.txt на наличие запретов к индексации разделов или страниц сайта, только потом начинают индексацию разрешенного контента.

 

Имя файла не должно содержать заглавных букв, а записи должны быть разделены одной или несколькими пустыми строками. В файле robots.txt комментарии обозначаются знаком “#” и заканчиваются окончанием строки.

User-agent

В этом поле указываем имя робота к которому применяются правила. Если запись с User-agent дублируется, то для всех поисковых ботов действуют те же правила, которые содержаться в текущей записи. Когда User-agent установлен в «*», то правила действительны для всех роботов, кроме тех у которых есть отдельные записи.

Disallow

Поля которое указывает что именно запрещается к индексированию, а именно полный путь или частичный, который не должен посещать бот. Пустое поле Disallow: не учитывается ботом и не является запретом к индексации чего либо. Чтоб запретить индексацию всего сайта нужно прописать:

User-agent: *
Disallow: /
Теперь приведу файл в котором запрещены к индексации некоторые разделы:
User-agent: Yandex
Disallow: /tag/
Disallow: /category/
# Запрещает ботам Яндекса посещать папки https://info-m.pro/tag/ и https://info-m.pro/category/

User-agent: *
Disallow: /tag/
Disallow: /category/
# Запрещает посещение всем ботам, для которых не сделана
#отдельная запись

Вот пример файла который ничего не запрещает

User-agent: *
Disallow:

User-agent: Googlebot
Disallow:
Host: site.ru

Я приведу список наиболее известных роботов:

AltaVista: Scooter
Google: Googlebot
Yandex: Yandex
Rambler: StackRambler
Aport: Aport

Что же стоит запретить к индексации?

Запретить к индексации стоит:

дубли страниц,

папки со скриптами,

сервисные страницы например форма связи с администрацией,

страницы с большим количеством ссылок на другие сайты например страница «Полезные ссылки».

Часто допускаемые ошибки:

 

В имени файла использованы буквы верхнего регистра ROBOTS.TXT или Robots.txt
Помещенный не в корневой папке файл robots.txt
Пустая строка после поля User-agent
Отсутствие директивы Disallow
Дублирование строки «Disallow: *»

Ну вот пожалуй и все из основного.

Мой файл можете взять вот здесь, только разумеется под себя подправьте.

Не ставлю на ссылку социальный замок, но буду благодарен за рекомендации “Веб-Мастерской Инфобизнеса” в социальные сети.

robots.txt, файл robots.txt, как написать robots.txt

Да, Я Хочу Быть В Курсе Новых Событий На Сайте!

Подпишитесь прямо сейчас, и получайте обновления на свой E-Mail:

Ваш E-Mail в безопасности Ваш E-Mail в безопасности