
Файл robots.txt – текстовый документ с указаниями для роботов, какие страницы сайта могут быть индексированы, а какие – нет. При его отсутствии в поисковую выдачу попадут страницы авторизации, регистрации, корзина, форма обратной связи и другой лишний контент.
Ценная информация на таком фоне будет понижена в ранжировании.
Требования к файлу и размещению
Перед тем как писать правила, убедитесь, что ваш файл соответствует требованиям:
- Документ robots.txt должен быть текстовым файлом в кодировке UTF-8.
- Название и расширение. Имя файла должно быть строго robots.txt (без заглавных букв, пробелов или других символов).
- Расположение. Файл должен располагаться строго в корневой директории вашего сайта. Например, для сайта example.com файл должен быть доступен по адресу https://example.com/robots.txt. Если файла нет в корневой директории, поисковые роботы считают, что для сайта разрешена индексация всех страниц.
Автоматическая настройка
С версии 14 модуля «Поисковая оптимизация» больше нет необходимости вручную создавать файл robots.txt. Теперь это можно сделать с помощью специального генератора. Чтобы его найти нужно перейти в раздел «Маркетинг», где выбрать «Поисковая оптимизация» и далее перейти в «Настройка robots.txt». Откроется страница «Управление robots.txt».
Данная форма позволяет не только создавать и редактировать файл, но и отслеживать его состояние. В панели администратора вы можете автоматически сформировать robots.txt или внести изменения вручную.
Если у вас несколько сайтов в системе, не забудьте переключиться на нужный сайт с помощью кнопки контекстной панели перед тем, как просматривать или создавать файл robots.txt.
На вкладке «Общие правила» задаются инструкции, которые будут применяться ко всем поисковым системам. Генерация правил осуществляется с помощью соответствующих кнопок. На вкладках «Яндекс» и «Google» можно настроить специфические правила для этих поисковых систем. Для них не требуется задавать базовые правила и путь к карте сайта. Также внизу формы доступны ссылки на документацию по использованию файла robots.txt от поисковых систем.
Особенности настройки robots.txt для сайтов на Битрикс:
- Фильтрация.
- Работа с local.
- Учет пагинации и сортировки.
- Очистка ссылок от GET-параметров.
- Блокировка индексации служебных страниц.
- Ограничение доступа к личному кабинету.
- Открытие необходимых файлов CSS и JS для индексации.
- Закрытие доступа для бесполезных ботов и ограничение скорости их обхода, с целью уменьшения нагрузки на сервер.
Синтаксис и структура правил
У файла простой синтаксис из директив и комментариев.
- Директивы. Это команды, которые указывают, что нужно делать поисковым роботам. Основные инструкции: «User-agent», «Allow», «Disallow», «Sitemap».
- Комментарии. Используются для пояснения правил и начинаются со знака #. Комментарии игнорируются поисковыми системами.
В документе применяются такие команды:
- «User-agent» – поясняет, какой робот обязан читать правила.
- «Disallow» – запрещает роботу сканировать указанный путь.
- «Allow» – разрешает роботу сканировать адрес (нужен для перезаписи инструкций в Disallow).
- «Sitemap» – указывает расположение карты сайта.
Специальные символы:
- * – представляет собой любой символ или последовательность символов. Например, «Disallow: /tmp*» запретит доступ ко всем URL, начинающимся с /tmp.
- $ – указывает на конец URL. Например, «Disallow: /page.html$» запретит доступ только к странице page.html, а не к /page.html?parameter=value.
Пример:
User-agent: Googlebot
Disallow: /admin/
Disallow: /tmp/
User-agent: *
Disallow: /private/
Sitemap: https://examplemysite.com/sitemap.xml
Из-за команд выше Googlebot проигнорирует папки /admin/ и /tmp/, а прочие боты не станут сканировать папку /private/. Также указано расположение карты сайта.
Директивы
Есть несколько основных команд, которые нужно знать, чтобы правильно настроить файл.
Директива User-agent
Сообщает, к какому роботу применяется данное правило. После «User-agent: » указываются конкретные имена ботов. Например, Googlebot, Bingbot, YandexBot. Полный список имен можно найти в документации поисковых систем.
Звездочка (*) – универсальный «User-agent», обозначающий все поисковые роботы. Правила, указанные для «User-agent: *», применяются ко всем роботам, если для них не указаны более конкретные правила.
Правила использования:
- Каждая группа правил, относящихся к конкретному «User-agent», должна начинаться с директивы «User-agent».
- Можно указывать несколько «User-agent» для одной группы правил.
- Правила, указанные для конкретного робота, имеют приоритет над правилами, указанными для «User-agent: *».
Пример:
User-agent: Googlebot
Disallow: /admin/
User-agent: Bingbot
Disallow: /private/
User-agent: *
Disallow: /tmp/
Теперь Googlebot игнорирует «/admin/», Bingbot не будет сканировать «/private/», а прочие боты обойдут стороной «/tmp/».
Директива Disallow
Запрещает поисковикам сканировать указанные URL или разделы сайта. Команда пишется так:
Disallow: [путь]
В [путь] указывают URL или часть URL страницы, к которой нужно запретить доступ.
Пустой «Disallow» даст доступ ко всему сайту. Если указана лишь косая черта, то это запрещает сканирование всего сайта.
Правила использования:
- Путь должен начинаться с косой черты «/».
- Указывайте максимально точные пути для предотвращения случайного запрета индексации важных страниц.
Примеры:
Disallow: /admin/ # запрещает сканирование папки /admin/ и всего ее содержимого.
Disallow: /search? # закрывает все URL, начинающихся с /search? (страницы результатов поиска).
Disallow: /temp.html # запрещает сканирование страницы /temp.html
Disallow: /folder/file.pdf # запрещает сканирование PDF файла.
Директива Allow
Директива «Allow» разрешает поисковикам сканировать определенные URL или разделы сайта, несмотря на то, что они могут быть запрещены директивой «Disallow». Команда пишется так:
Allow: [путь]
Правила в отношении «Allow» такие же, как в «Disallow».
«Allow» используется для переопределения общих правил «Disallow».
Пример:
User-agent: Googlebot
Disallow: /images/ # Запрещает сканирование всех изображений
Allow: /images/logo.png # Разрешает сканирование логотипа
В этом примере Googlebot не будет сканировать все изображения в папке «/images/», кроме файла «logo.png».
Директива Sitemap
Сообщает поисковым роботам расположение карты сайта (sitemap.xml). Это помогает им быстрее и эффективнее индексировать ваш сайт.
Команда пишется так:
Sitemap: [путь к sitemap.xml]
Указывайте полный URL, включая протокол (например, https://). Можно указать несколько директив «Sitemap» для разных карт сайта.
Пример:
Sitemap: https://examplemysite.com/sitemaporig.xml
Sitemap: https://examplemysite.com/sitemapimg.xml
Пример правильного файла
Как может выглядеть пример документа robots на более старых системах Битрикс:
User-agent: *
Disallow: /cgi-bin # ограничиваем доступ к директории на хостинге
Disallow: /bitrix/ # закрываем доступ к каталогам с системными файлами Битрикс
Disallow: *bitrix_*= # исключаем GET-запросы, относящиеся к Битрикс
Disallow: /local/ # запрещаем доступ к каталогам системных файлов
Disallow: /upload/ # запрет к директориям с загружаемыми файлами
Disallow: /search/ # ограничиваем доступ к поиску
Disallow: /*index.php$ # убираем страницы с index.php, которые дублируют имеющийся контент
Disallow: /auth/ # закрываем от ботов страницу авторизации
Disallow: *auth=
Disallow: /personal/ # ограничиваем доступ к личному кабинету
Disallow: *register= # закрываем страницу регистрации
Disallow: *forgot_password= # ограничиваем доступ к странице восстановления пароля
Disallow: *change_password= # блокируем страницу смены пароля
Disallow: *login= # запрещаем вход с логином
Disallow: *logout= # закрываем выход из кабинета
Disallow: *action= # исключаем действия
Disallow: *print= # блокируем функционал печати
Disallow: *?new=Y # закрываем новые страницы
Disallow: *?edit= # ограничиваем доступ к редактированию
Disallow: *?preview= # исключаем привью
Disallow: *backurl= # блокируем к страницам, где требуется заполненная форма регистрации
Disallow: *back_url= # аналогично
Disallow: *back_url_admin= # то же самое для администратора
Disallow: *captcha # ограничиваем доступ к капче
Disallow: */feed # закрываем доступ к новостям
Disallow: */rss # блокируем rss-каналы
Disallow: *?FILTER*= # исключаем страницы с фильтрами поиска
Disallow: *?tags= # закрываем страницы с тегами
Disallow: *utm*= # блокируем все ссылки с UTM-метками
Disallow: *openstat= # исключаем ссылки с метками openstat
Disallow: *from= # ограничиваем ссылки, содержащие метки from
Allow: /bitrix/*.js # даем доступ к JavaScript и CSS-файлам
Allow: /bitrix/*.css # и CSS-файлам
Allow: /local/*.js
Allow: /local/*.css
Allow: /local/*.jpg # предоставляем доступ к изображениям
Allow: /local/*.jpeg
Allow: /local/*.png
Allow: /local/*.gif
Sitemap: https://mysite.ru/sitemap.xml
Внимание! Данный пример можно использовать лишь на CMS до 14 версии. Более поздние системы создают robots через специальную панель.
Как создать и редактировать
Рекомендуется создавать файл с помощью плагина и управлять им через панель администратора.
Вручную
Доступ к robots.txt можно получить через FTP или через файловый менеджер хостинга, файл находится в корне сайта (обычно это папка public_html). После того как вы найдете файл, его можно открыть для редактирования. Если файла не существует, достаточно создать новый. Назовите его robots.txt и сохраните изменения.
Через плагин
Для управления документом непосредственно из административной панели портала вы можете установить специальный модуль. Информацию и инструкции по установке можно найти по следующему адресу: https://dev.1c-bitrix.ru/learning/course/?COURSE_ID=139&LESSON_ID=5814
Проверка файла
После загрузки документа на сервер желательно воспользоваться специальными приложениями Яндекса и Google, чтобы проверить правильность работы robots:
- Google Search Console. Инструмент проверки даст возможность оценить синтаксис файла, увидеть, что заблокировано, и протестировать, как Googlebot видит определенные URL.
- Яндекс.Вебмастер. Инструмент «Анализ robots» выполняет аналогичные функции для поиска.
Распространенные ошибки:
- Неправильное расположение. Переместите документ в корень портала.
- Опечатки и ошибки в синтаксисе. Внимательно проверяйте синтаксис и названия директив.
- Блокировка ресурсов. Убедитесь, что не заблокированы CSS, JavaScript или картинки, необходимые для корректного отображения сайта.
- Использование кириллицы в URL. Можно использовать только латиницу в URL.
- Не указана карта. Напишите корректный путь к Sitemap для улучшения индексации.
Чрезмерно сложная структура файла. Старайтесь делать правила максимально простыми и понятными.
Заключение
Важно постоянно следить за актуальностью robots. Регулярно проверяйте, какие страницы индексируются, чтобы избежать появления несущественного контента. Если вы обнаружите такие страницы, обязательно блокируйте их. Помните, что изменения в файле на работающем сайте могут вступить в силу не ранее чем через 2-3 месяца.