
У WordPress нет встроенных функций, которые бы позволяли создавать и настраивать файл robots.txt, но можно установить специальный плагин. Однако при создании сайта на WordPress этот документ создается автоматически.
Некоторые темы WP позволяют редактировать файл прямо из админпанели. Если такой возможности нет, то чтобы создать или внести изменения в этот файл, обычно нужно подключиться к сайту через FTP.
Где находится?
Файл robots.txt обычно размещается в корневом каталоге сайта. Если ваш сайт построен на WordPress, вероятно, файл уже создан по умолчанию. Чтобы проверить его наличие, введите в адресной строке вашего браузера:
https://www.домен-вашего-сайта/robots.txt
Если файл существует, вы увидите страницу с правилами индексации. Чтобы настроить файл, потребуется доступ к хостингу, где он обычно хранится в корневом каталоге.
В случае отсутствия файла вы можете создать его на своем компьютере и загрузить на хостинг вручную или воспользоваться плагинами WordPress. Но помните, что в первом случае не факт, что документ начнет отображаться в браузере. Для создания файла лучше использовать плагин, а при наличии robots лучше менять существующий документ.
Требования к файлу
Он обязан соответствовать некоторым требованиям, чтобы его адекватно обрабатывали системы.
- Формат только .txt.
- Название «robots», оно должно быть написано с маленькой буквы.
- Кодировка UTF-8.
Синтаксис документа достаточно прост:
- В одной строке – одна инструкция.
- Перед группой директив обязательно ставится «User-agent».
- Между группами ставится пустая строка
b
- * – в «User-agent» означает применение правил ко всем.
- * – в инструкциях «Disallow» и «Allow» используется для обозначения пути, который может содержать любой уровень вложенности.
- $ – указывает на конец строки.
- # – после него можно оставлять комментарии.
- ? – обозначает начало строки запроса (для параметров URL).
Правила состоят из директив («User-agent», «Disallow», «Allow»), которые определяют, каким ботам разрешено или запрещено сканировать определенные части сайта.
Директивы robots
Чаще всего используется всего четыре команды, синтаксис которых довольно прост.
User-agent
Определяет поискового бота, который обязан читать последующие правила. Каждая такая директива и последующие команды для робота указываются отдельной секцией.
Примеры написания:
User-agent: Googlebot # инструкции применяется для Гугла
User-agent: * # инструкции применяется к любым ботам
При указании правил для разных ботов, важно соблюдать порядок. Сначала могут идти общие правила для всех, затем – специфические для каждого бота.
Disallow
Указывает, какие страницы закрыты для индексации поисковиками. Примеры использования:
Disallow: /catalog/ # закрывает от индексации все страницы в директории «/catalog/»
Disallow: /page.html # запрещает индексацию конкретной страницы.
Если нет «Allow» правил, то все указанные в «Disallow» директории будут закрыты от индексации
Allow
Используется в сочетании с «Disallow», чтобы указать, какие директории должны быть индексированы, несмотря на более общий запрет.
Примеры написания:
Disallow: / # закрывает все страницы, но Allow: /public/ разрешает индексацию страниц в /public/.
При комбинировании «Disallow» и «Allow», приоритет всегда отдается директиве «Allow».
Sitemap
Указываем ботам на расположение карты сайта, которая содержит описания URL-адресов сайта.
Пример использования:
Sitemap: http://myanimal.com/sitemap.xml
«Sitemap» необязателен, но это хорошая практика, которая может помочь поисковым системам более эффективно сканировать сайт.
Стандартный файл
Вы можете использовать приведенный ниже шаблон. Команды в нем уберут из индексации лишние страницы, но не допустят блокирования важных страниц:
User-agent: *
Disallow: /cgi-bin # блокировка доступа к системной папке
Disallow: /? # закрытие дубликатов главной страницы с параметрами запросов
Disallow: /wp- # блокировка всех системных документов WP (вроде «/wp-content»)
Disallow: *&s= # закрытие страниц с поисковыми запросами
Disallow: *?s= # на случай, если поисковый запрос стоит первым параметром
Disallow: /search/
Disallow: */trackback # блокировка сообщений о появлении ссылки на контент
Disallow: */feed # запрет для новостных лент. Не всегда применяется, при необходимости уберите
Disallow: */rss # блокировка RSS-лент, тоже смотрите по ситуации
Disallow: */embed # запрет на обход встроенного со сторонних ресурсов контента
Disallow: *utm*= # фильтрация ссылок с UTM-метками
Disallow: *openstat= # если сайт подключен к Openstat, то нужно блокировать ссылки с его метками
Allow: */uploads # указание на индексацию папки с загружаемыми документами
Allow: /*/*.css # указание на индексацию каскадных таблиц стилей
Allow: /wp-*.png # здесь и ниже – разрешение на просмотр изображений различных форматов
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php # разрешение на просмотр файла с маршрутами AJAX-запросов
Sitemap: https://mysitewp.com/sitemap.xml # указание на файл sitemap
Замените «https://mysitewp.com/sitemap.xml» на актуальную ссылку на ваш файл Sitemap. Если у вас несколько карт сайта, укажите путь для каждой из них.
Как создать файл?
Существует два способа создания robots:
- Ручное создание файла.
- Использование плагинов.
Первый метод может показаться простым. И дело не в том, что после загрузки документа на портал, надо наполнить его директивами. Но проблема может скрываться в том, что в файле .htaccess может не оказаться правила для использования файла robots.txt.
Крайне не рекомендуется создавать и добавлять файл с нуля. Желательно найти уже существующий и вносить изменения в него. А еще лучше – использовать плагины.
Создание вручную
Для этого нужно сделать следующее:
- Откройте текстовый редактор, например, «NotePade++».
- Назовите файл «robots» и сохраните в формате .txt, обязательно проверьте, чтобы кодировка была UTF-8.
- Загрузите файл в корневой каталог вашего сайта (инструкция зависит от вида панели управления).
Теперь у вас есть базовый файл, который можно редактировать через менеджер файлов хостинга.
С помощью плагина
Создавать файл нужно с помощью специального плагина:
- Войдите в административную панель WordPress.
- Перейдите в раздел «Плагины» (в меню-списке слева) и нажмите «Добавить новый» (вверху).
- В строке поиска напишите «Yoast SEO».
- Установите.
- После установки перейдите в раздел «Плагины» и активируйте Yoast SEO.
- После этого в меню появится новый пункт – это и есть Yoast SEO. Нужно перейти в его подраздел «Инструменты»
- Там найдите ссылку «Редактор файлов».
- Кликните «Создать файл robots.txt».
- После откроется поле, где можно указывать директивы. Файл генерируется автоматически с минимальным набором директив.
- После изменений не забудьте сохранить их.
Динамический robots
Можно не загружать файл вручную, а написать в functions.php код, который создаст документ автоматически. Для этого используется хук do_robotstxt:
add_action( «do_robotstxt», «myrobotstxt» );
function myrobotstxt(){
$rules = [
«User-agent: Googlebot»,
«Disallow: /wp-«,
«Disallow: /search/», // пишем необходимые директивы
«»,
];
echo implode( «\r\n», $rules );
die;
}
При переходе на https://mysite.ru/robots.txt будут команды:
User-agent: Googlebot
Disallow: /wp-
Disallow: /search/
Хук do_robotstxt и код выше можно использовать для автоматического создания команд с помощью отдельной программы.
Способы проверки
После создания и загрузки документа на портал проверьте его корректность. Сервисы для оценки:
- Google Search Console. Выберите портал. В инструментах проверки вы обнаружите, как воспринимает ваш файл Googlebot.
- Яндекс Вебмастер. Пройдите авторизацию на портале. В «Инструментах» найдите «Анализ robots». Тут можно оценить файл на ошибки и посмотреть, как система будет обращаться к вашему сайту.
Распространенные ошибки:
- Некорректный синтаксис. Пропущенные символы, неправильное написание директив могут привести к ошибкам.
- Неверное расположение. Документ обязан находиться в корневом каталоге, иначе поисковые системы его не найдут.
- Отсутствие правил для различных ботов. Если нет «User-agent» для роботов, правила не будут применяться.
- Создание противоречащих правил. Например, указание «Disallow: /» вместе с «Allow: /» может создавать путаницу.
Правильное создание и настройка robots поможет улучшить SEO вашего портала и контролировать индексацию содержимого.
Заключение
Robots позволяет контролировать индексацию портала. Правильно настроенный файл поможет оптимизировать сайт, остановить индексацию конфиденциальной информации и улучшить SEO. Не забывайте регулярно проверять и обновлять robots, чтобы он соответствовал структуре и потребностям вашего сайта.