Файл robots.txt — это важный инструмент для управления индексацией сайта поисковыми системами. Особенно актуально для WordPress, где много страниц может быть не нужными для индексации, например, страницы администратора, страницы пагинации, архивы, дубликаты контента и другие. В этой статье рассмотрим, как правильно настроить robots.txt для удаления или блокировки нежелательных страниц и роботов, чтобы улучшить SEO и избежать индексации мусора.
Что такое файл robots.txt и зачем его использовать в WordPress
Файл robots.txt — это текстовый файл, который размещается в корне сайта и сообщает поисковым роботам, какие страницы и разделы сайта им можно сканировать, а какие – запрещено. Это первый файл, который просматривают поисковые роботы перед индексацией.
В WordPress часто возникают ситуации, когда нужно запретить индексацию определенных страниц, например, страниц авторизации, корзины, страницы с параметрами сортировки или фильтрации. Если этого не сделать, то поисковые системы будут индексировать дублированный или бесполезный контент, что может негативно повлиять на SEO.
Правильная настройка robots.txt помогает:
- Уменьшить нагрузку на сервер за счет сокращения обхода неважных страниц;
- Повысить качество индексации, исключив мусорные страницы;
- Предотвратить попадание в индекс конфиденциальных или служебных разделов сайта.
Основные правила и директивы для robots.txt в WordPress
В файле robots.txt применяются следующие основные директивы:
User-agent— указывает, к каким роботам применяются правила;Disallow— запрещает доступ к определённым URL или папкам;Allow— разрешает доступ к определённым URL, даже если родительская папка запрещена;Sitemap— указывает поисковым системам расположение карты сайта.
Пример базового robots.txt для WordPress:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-login.php
Allow: /wp-admin/admin-ajax.php
Sitemap: https://your-site.ru/sitemap.xml
Здесь мы запрещаем индексировать административные и системные папки, но разрешаем доступ к AJAX-скрипту, который нужен для работы сайта. Также указываем карту сайта, чтобы поисковики быстрее находили полезный контент.
Как удалить из индекса поисковиков нежелательные страницы через robots.txt
Если есть страницы, которые не должны попадать в индекс, можно их запретить в robots.txt. Например, страницы пагинации или URL с параметрами фильтрации:
User-agent: *
Disallow: /page/
Disallow: /*?*
Здесь запрещается индексация всех страниц с пагинацией и любых URL с параметрами запроса. Но будьте осторожны с запретом параметров, чтобы не закрыть важный функционал.
Пример запрета индексации страницы корзины WooCommerce:
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Это позволит избежать попадания в индекс страниц, которые не несут ценности для SEO и могут привести к дублированию.
Практические советы по созданию и изменению robots.txt в WordPress
Создать или отредактировать robots.txt можно несколькими способами:
1. Ручное создание файла robots.txt
Создаёте текстовый файл robots.txt в корне сайта через FTP или файловый менеджер хостинга. Добавляете необходимые правила и сохраняете. После этого проверяете работу через инструменты Яндекс.Вебмастер или Google Search Console.
2. Использование плагинов для управления robots.txt
Для удобства можно использовать плагины, которые позволяют редактировать robots.txt прямо из админки WordPress:
- Yoast SEO: в разделе «Инструменты» есть возможность редактировать robots.txt;
- All in One SEO Pack: также позволяет управлять файлом без входа на сервер;
- WP Robots Txt: специализированный плагин для создания и редактирования robots.txt.
3. Добавление правил через functions.php
Хотя напрямую изменить robots.txt через PHP нельзя, можно динамически подставлять содержимое файла через фильтр WordPress. Пример функции wpexpert_filter_robots_txt:
function wpexpert_filter_robots_txt($output, $public) {
$output .= "\nUser-agent: *\nDisallow: /private/";
return $output;
}
add_filter('robots_txt', 'wpexpert_filter_robots_txt', 10, 2);
Такой подход удобен, если хотите динамически добавлять правила в зависимости от условий.
Как проверить корректность и эффективность robots.txt
После настройки важно проверить, как поисковые системы воспринимают файл:
- Используйте инструменты Google Search Console — «Проверка файла robots.txt»;
- Проверяйте через Яндекс.Вебмастер;
- Проверяйте вручную, переходя по запрещённым URL — они должны быть недоступны для индексации.
Если в Google Console вы увидите предупреждения, что важные страницы закрыты, пересмотрите правила.
Советы по использованию robots.txt вместе с другими методами управления индексацией
robots.txt — мощный, но не единственный способ управлять индексацией:
- Мета-теги
noindex: иногда лучше закрыть страницу от индексации именно ими, особенно если страница должна быть доступна роботам для обхода, но не попадать в индекс; - HTTP-заголовок
X-Robots-Tag: позволяет закрыть от индексации не только HTML-страницы, но и файлы; - Плагин Clearfy Pro из https://wpshop.ru/clearfy-pro?utm_source=wpexpert.ru&utm_medium=article&utm_campaign=kak-pravilno-udalit-ili-zablokirovat-robotov-v-robots-txt — поможет оптимизировать SEO, включая управление robots.txt и мета-тегами без знаний кода.
Заключение
Правильная настройка файла robots.txt для WordPress — важный шаг в оптимизации сайта, который помогает исключить из индексации ненужные страницы, снизить нагрузку на сервер и улучшить позиции в поисковых системах. Используйте базовые правила, проверяйте результаты через инструменты вебмастеров и комбинируйте robots.txt с мета-тегами и плагинами для достижения наилучших результатов.