Файл robots.txt в 1С-Битрикс

28 марта 2025

205

Файл robots.txt – текстовый документ с указаниями для роботов, какие страницы сайта могут быть индексированы, а какие – нет. При его отсутствии в поисковую выдачу попадут страницы авторизации, регистрации, корзина, форма обратной связи и другой лишний контент.

Ценная информация на таком фоне будет понижена в ранжировании.

Требования к файлу и размещению

Перед тем как писать правила, убедитесь, что ваш файл соответствует требованиям:

Документ robots.txt должен быть текстовым файлом в кодировке UTF-8.
Название и расширение. Имя файла должно быть строго robots.txt (без заглавных букв, пробелов или других символов).
Расположение. Файл должен располагаться строго в корневой директории вашего сайта. Например, для сайта example.com файл должен быть доступен по адресу https://example.com/robots.txt. Если файла нет в корневой директории, поисковые роботы считают, что для сайта разрешена индексация всех страниц.

Автоматическая настройка

С версии 14 модуля «Поисковая оптимизация» больше нет необходимости вручную создавать файл robots.txt. Теперь это можно сделать с помощью специального генератора. Чтобы его найти нужно перейти в раздел «Маркетинг», где выбрать «Поисковая оптимизация» и далее перейти в «Настройка robots.txt». Откроется страница «Управление robots.txt».

Данная форма позволяет не только создавать и редактировать файл, но и отслеживать его состояние. В панели администратора вы можете автоматически сформировать robots.txt или внести изменения вручную.

Если у вас несколько сайтов в системе, не забудьте переключиться на нужный сайт с помощью кнопки контекстной панели перед тем, как просматривать или создавать файл robots.txt.

На вкладке «Общие правила» задаются инструкции, которые будут применяться ко всем поисковым системам. Генерация правил осуществляется с помощью соответствующих кнопок. На вкладках «Яндекс» и «Google» можно настроить специфические правила для этих поисковых систем. Для них не требуется задавать базовые правила и путь к карте сайта. Также внизу формы доступны ссылки на документацию по использованию файла robots.txt от поисковых систем.

Особенности настройки robots.txt для сайтов на Битрикс:

Фильтрация.
Работа с local.
Учет пагинации и сортировки.
Очистка ссылок от GET-параметров.
Блокировка индексации служебных страниц.
Ограничение доступа к личному кабинету.
Открытие необходимых файлов CSS и JS для индексации.
Закрытие доступа для бесполезных ботов и ограничение скорости их обхода, с целью уменьшения нагрузки на сервер.

Синтаксис и структура правил

У файла простой синтаксис из директив и комментариев.

Директивы. Это команды, которые указывают, что нужно делать поисковым роботам. Основные инструкции: «User-agent», «Allow», «Disallow», «Sitemap».
Комментарии. Используются для пояснения правил и начинаются со знака #. Комментарии игнорируются поисковыми системами.

В документе применяются такие команды:

«User-agent» – поясняет, какой робот обязан читать правила.
«Disallow» – запрещает роботу сканировать указанный путь.
«Allow» – разрешает роботу сканировать адрес (нужен для перезаписи инструкций в Disallow).
«Sitemap» – указывает расположение карты сайта.

Специальные символы:

* – представляет собой любой символ или последовательность символов. Например, «Disallow: /tmp*» запретит доступ ко всем URL, начинающимся с /tmp.
$ – указывает на конец URL. Например, «Disallow: /page.html$» запретит доступ только к странице page.html, а не к /page.html?parameter=value.

Пример:

User-agent: Googlebot

Disallow: /admin/

Disallow: /tmp/

User-agent: *

Disallow: /private/

Sitemap: https://examplemysite.com/sitemap.xml

Из-за команд выше Googlebot проигнорирует папки /admin/ и /tmp/, а прочие боты не станут сканировать папку /private/. Также указано расположение карты сайта.

Директивы

Есть несколько основных команд, которые нужно знать, чтобы правильно настроить файл.

Директива User-agent

Сообщает, к какому роботу применяется данное правило. После «User-agent: » указываются конкретные имена ботов. Например, Googlebot, Bingbot, YandexBot. Полный список имен можно найти в документации поисковых систем.

Звездочка (*) – универсальный «User-agent», обозначающий все поисковые роботы. Правила, указанные для «User-agent: *», применяются ко всем роботам, если для них не указаны более конкретные правила.

Правила использования:

Каждая группа правил, относящихся к конкретному «User-agent», должна начинаться с директивы «User-agent».
Можно указывать несколько «User-agent» для одной группы правил.
Правила, указанные для конкретного робота, имеют приоритет над правилами, указанными для «User-agent: *».

Пример:

User-agent: Googlebot

Disallow: /admin/

User-agent: Bingbot

Disallow: /private/

User-agent: *

Disallow: /tmp/

Теперь Googlebot игнорирует «/admin/», Bingbot не будет сканировать «/private/», а прочие боты обойдут стороной «/tmp/».

Директива Disallow

Запрещает поисковикам сканировать указанные URL или разделы сайта. Команда пишется так:

Disallow: [путь]

В [путь] указывают URL или часть URL страницы, к которой нужно запретить доступ.

Пустой «Disallow» даст доступ ко всему сайту. Если указана лишь косая черта, то это запрещает сканирование всего сайта.

Правила использования:

Путь должен начинаться с косой черты «/».
Указывайте максимально точные пути для предотвращения случайного запрета индексации важных страниц.

Примеры:

Disallow: /admin/ # запрещает сканирование папки /admin/ и всего ее содержимого.

Disallow: /search? # закрывает все URL, начинающихся с /search? (страницы результатов поиска).

Disallow: /temp.html # запрещает сканирование страницы /temp.html

Disallow: /folder/file.pdf # запрещает сканирование PDF файла.

Директива Allow

Директива «Allow» разрешает поисковикам сканировать определенные URL или разделы сайта, несмотря на то, что они могут быть запрещены директивой «Disallow». Команда пишется так:

Allow: [путь]

Правила в отношении «Allow» такие же, как в «Disallow».

«Allow» используется для переопределения общих правил «Disallow».

Пример:

User-agent: Googlebot

Disallow: /images/ # Запрещает сканирование всех изображений

Allow: /images/logo.png # Разрешает сканирование логотипа

В этом примере Googlebot не будет сканировать все изображения в папке «/images/», кроме файла «logo.png».

Директива Sitemap

Сообщает поисковым роботам расположение карты сайта (sitemap.xml). Это помогает им быстрее и эффективнее индексировать ваш сайт.

Команда пишется так:

Sitemap: [путь к sitemap.xml]

Указывайте полный URL, включая протокол (например, https://). Можно указать несколько директив «Sitemap» для разных карт сайта.

Пример:

Sitemap: https://examplemysite.com/sitemaporig.xml

Sitemap: https://examplemysite.com/sitemapimg.xml

Пример правильного файла

Как может выглядеть пример документа robots на более старых системах Битрикс:

User-agent: *

Disallow: /cgi-bin # ограничиваем доступ к директории на хостинге

Disallow: /bitrix/ # закрываем доступ к каталогам с системными файлами Битрикс

Disallow: *bitrix_*= # исключаем GET-запросы, относящиеся к Битрикс

Disallow: /local/ # запрещаем доступ к каталогам системных файлов

Disallow: /upload/ # запрет к директориям с загружаемыми файлами

Disallow: /search/ # ограничиваем доступ к поиску

Disallow: /*index.php$ # убираем страницы с index.php, которые дублируют имеющийся контент

Disallow: /auth/ # закрываем от ботов страницу авторизации

Disallow: *auth=

Disallow: /personal/ # ограничиваем доступ к личному кабинету

Disallow: *register= # закрываем страницу регистрации

Disallow: *forgot_password= # ограничиваем доступ к странице восстановления пароля

Disallow: *change_password= # блокируем страницу смены пароля

Disallow: *login= # запрещаем вход с логином

Disallow: *logout= # закрываем выход из кабинета

Disallow: *action= # исключаем действия

Disallow: *print= # блокируем функционал печати

Disallow: *?new=Y # закрываем новые страницы

Disallow: *?edit= # ограничиваем доступ к редактированию

Disallow: *?preview= # исключаем привью

Disallow: *backurl= # блокируем к страницам, где требуется заполненная форма регистрации

Disallow: *back_url= # аналогично

Disallow: *back_url_admin= # то же самое для администратора

Disallow: *captcha # ограничиваем доступ к капче

Disallow: */feed # закрываем доступ к новостям

Disallow: */rss # блокируем rss-каналы

Disallow: *?FILTER*= # исключаем страницы с фильтрами поиска

Disallow: *?tags= # закрываем страницы с тегами

Disallow: *utm*= # блокируем все ссылки с UTM-метками

Disallow: *openstat= # исключаем ссылки с метками openstat

Disallow: *from= # ограничиваем ссылки, содержащие метки from

Allow: /bitrix/*.js # даем доступ к JavaScript и CSS-файлам

Allow: /bitrix/*.css # и CSS-файлам

Allow: /local/*.js

Allow: /local/*.css

Allow: /local/*.jpg # предоставляем доступ к изображениям

Allow: /local/*.jpeg

Allow: /local/*.png

Allow: /local/*.gif

Sitemap: https://mysite.ru/sitemap.xml

Внимание! Данный пример можно использовать лишь на CMS до 14 версии. Более поздние системы создают robots через специальную панель.

Как создать и редактировать

Рекомендуется создавать файл с помощью плагина и управлять им через панель администратора.

Вручную

Доступ к robots.txt можно получить через FTP или через файловый менеджер хостинга, файл находится в корне сайта (обычно это папка public_html). После того как вы найдете файл, его можно открыть для редактирования. Если файла не существует, достаточно создать новый. Назовите его robots.txt и сохраните изменения.

Через плагин

Для управления документом непосредственно из административной панели портала вы можете установить специальный модуль. Информацию и инструкции по установке можно найти по следующему адресу: https://dev.1c-bitrix.ru/learning/course/?COURSE_ID=139&LESSON_ID=5814

Проверка файла

После загрузки документа на сервер желательно воспользоваться специальными приложениями Яндекса и Google, чтобы проверить правильность работы robots:

Google Search Console. Инструмент проверки даст возможность оценить синтаксис файла, увидеть, что заблокировано, и протестировать, как Googlebot видит определенные URL.
Яндекс.Вебмастер. Инструмент «Анализ robots» выполняет аналогичные функции для поиска.

Распространенные ошибки:

Неправильное расположение. Переместите документ в корень портала.
Опечатки и ошибки в синтаксисе. Внимательно проверяйте синтаксис и названия директив.
Блокировка ресурсов. Убедитесь, что не заблокированы CSS, JavaScript или картинки, необходимые для корректного отображения сайта.
Использование кириллицы в URL. Можно использовать только латиницу в URL.
Не указана карта. Напишите корректный путь к Sitemap для улучшения индексации.

Чрезмерно сложная структура файла. Старайтесь делать правила максимально простыми и понятными.

Заключение

Важно постоянно следить за актуальностью robots. Регулярно проверяйте, какие страницы индексируются, чтобы избежать появления несущественного контента. Если вы обнаружите такие страницы, обязательно блокируйте их. Помните, что изменения в файле на работающем сайте могут вступить в силу не ранее чем через 2-3 месяца.

Фёдор Задков

SEO специалист и руководитель артели Гвоздь

Читать еще

31 мая 2025

307

Test2

Где взять клиентов для сайта магазина мебели самостоятельно? В интернете сегодня существует множество возможностей для продвижения компании и увеличения продаж. Если вы занимаетесь производством и продажей мебели, то вам необходимо использовать поисковые системы, чтобы привлечь внимание клиентов.Комплексный подход к SEO продвижению поможет увеличить посещаемость вашего сайта и, как следствие, увеличить продажи. Воспользуйтесь услугами агентства, специализирующегося […]

Без рубрики

6 мая 2025

382

Микроразметка Open Graph: что это, как работает

Микроразметка — способ расстановки на веб-странице меток для поисковых роботов, которые сканируют ее содержимое и отбирают информацию для создания превью в списке поисковой выдачи.

Знания

6 мая 2025

494

Разметка Schema.org: что это, какой бывает, как сделать и проверить

Микроразметка Schema.org предназначена для структурирования информации на сайте. Размеченная страница становится более понятной для поисковых роботов, которые берут с нее нужные веб-мастеру данные для показа расширенного сниппета.

Знания

6 мая 2025

260

Favicon: что это, каким бывает, как использовать и проверить

Favicon или фавикон — маленькая иконка, которую пользователи видят перед наименованием страницы во вкладке интернет-браузера. Окидывая взглядом фавиконы, пользователи быстро находят нужные им сайты среди большого количества открытых вкладок.

Знания

6 мая 2025

272

Индексация сайта: почему важна, принцип работы, способы влияния

Всем важно, чтобы позиции их сайтов в списках поисковой выдачи были как можно более высокими. Чем выше окажется сайт, тем больше пользователей увидят его после введения ключевого запроса.

Знания