Войти

Нет аккаунта?

Регистрация

Уже есть аккаунт?

Все о robots.txt

28 марта 2025

 

Поисковики ранжируют свои результаты на основе определенных критериев. Без определения правил индексации в верхние позиции попадут нерелевантные страницы, в то время как действительно важные останутся незамеченными. Настроив файл robots, можно предотвратить такую ситуацию.

Для этого нужно в нем написать, какие страницы требуют индексации, а какие следует исключить из поисковой выдачи. Здесь представлено руководство по этому инструменту: его предназначение, основные команды, а также рекомендации по правильному составлению и проверке данного файла.

Зачем нужен robots

Этот текстовый документ (.txt) содержит правила для поисковых роботов. Команды в нем указывают на запрет (реже – разрешение) индексировать файлы и страницы. Так регулируется доступ ботов к контенту вашего ресурса.

Документ robots стал стандартом для работы поисковиков. Это правило установлено 30 января 1994 года консорциумом W3C. Файл применяют большинство современных ботов в качестве рекомендации по индексации веб-проектов.

Представьте себе robots как охранника. Когда поисковики приходят на сайт, они сначала обращаются к этому файлу. Он встречает их и указывает, какие области доступны для посещения, а какие – закрыты. Если вы дадите команду не впускать никого, то сайт не будет осмотрен вовсе.

Если на портале файл отсутствует, поисковые роботы без разбора проиндексируют весь контент. В том числе страницы результатов поиска, авторизации, корзины и служебные разделы.

Из-за этого нужные страницы будут размыты неактуальным материалом. Грамотная настройка robots позволит скрыть от индексации не только технические страницы, служебные файлы, но также зеркала, дублированный контент, что улучшит качество индексации. При этом настройки для Яндекса и Гугла можно сделать различными, а еще указать путь к карте сайта.

Работать с файлом надо осторожно! Ошибки в robots способны полностью блокировать индексацию портала. Это снизит видимость ресурса и обрушит трафик. Поэтому SEO специалисты всегда проверяют этот файл при анализе сайта.

Где найти и как создать?

Помните, что правильный robots.txt – это необходимость. Если его нет, создайте его и настройте, чтобы сайт не потерял в трафике из-за плохой индексации.

Требования к файлу

В первую очередь обратите внимание на синтаксические правила и требования к характеристикам документа. Полный список рекомендаций выглядит так:

  • Формат .txt.
  • Вес не более 32 КБ.
  • Название строго «robots».
  • Кодировка UTF-8.
  • Загружать его надо в корень портала (например, https://myru/robots.txt).
  • Там может находиться лишь один файл.
  • Каждому поддомену нужно загрузить свой документ в корневой каталог. Вот так: https://mymysite.ru/robots.txt.
  • Все записи должны быть на латинице. Если адрес на русском языке, конвертируйте его в Punycode («унитазы.рф» станут «xn--80aobt0ad5d.xn--p1ai»).
  • Ссылка будет выглядеть так: https://mydocuments.ru/robots.txt.
  • Файл должен быть в общем доступе.

Как создать самому

Документ robots легко создается каждом в текстовом редакторе:

  • «Блокнот». Устаревший инструмент, который имеет мало функций.
  • «Microsoft Word». Можно сохранять через кнопку «Сохранить как». Этот инструмент немного удобней, но не настолько, как другие.

  • «NotePad++».
    Имеет больше полезных функций. Бесплатный.
  • «Sublime Text». Подобные редакторы кода имеют много ценных инструментов.

После создания документа назовите его «robots» и сохраните в формате .txt. Убедитесь, что он имеет кодировку UTF-8. Далее можно прописывать инструкции, исходя из ваших целей. Рекомендуется исключать из индексации страницы, которые не содержат ценной информации:

  • Страницы для авторизации и регистрации.
  • Результаты поиска.
  • Служебные разделы.
  • Страницы с фильтрами.
  • PDF-документы.
  • Страницы, находящиеся в разработке.
  • Формы заказа, корзины и прочее.

Файл поместите в корне сайта, в той же папке, где находится index.html или index.php.

Для загрузки применяется:

  • Админпанель вашей CMS.
  • Панель управления. Это может быть CyberPanel или ISP Manager.
  • FTP-клиент: FileZilla, Nautilus (для Linux), Cyberduck, WinSCP.

Если сайт имеет одну из популярных CMS, то для создания желательно прибегать к встроенным инструментам в админпанели. Если функции нет, то лучше установить модуль или плагин.

Не имеет значения, как вы создаете robots.txt. Главное, чтобы он был правильно настроен, размещен на сайте и доступен.

Онлайн-генератор

Инструмент сокращает время создания файла, что важно, если у вас множество сайтов. Но при этом настройка директив выполняется стандартно, без учета уникальных характеристик порталов. Автоматически созданные файлы иногда требуют ручной доработки.

Популярные инструменты для генерации:

  • CY-PR. Сайт с интуитивно понятным интерфейсом, где нужно просто выбрать поля и указать значения. Затем готовый файл загрузить в корень сайта.
  • Seo-auditor. Сервис позволяет выбирать необходимые поля и значения, а также указывать зеркало сайта, ограничивать доступ для программ и адаптировать файл под WordPress.
  • Больше подходит для CMS: WordPress, 1С-Битрикс, OpenCart, Joomla и другие.

В интернете легко найти готовые шаблоны для WP, Bitrix, Joomla и прочих CMS. Готовый макет избавит от написания стандартных команд, учитывает особенности движка. Но шаблон не всегда корректно настроен, поэтому его все равно нужно править вручную.

Синтаксис

Можно создать файл самостоятельно вручную или найти имеющийся на сайте и отредактировать его. В любом случае надо соблюдать несколько правил.

Основные правила

Синтаксис и основные команды просты, так что можно легко разобраться. Для начала нужно знать четыре главных специальных символа:

  • # – знак, создающий комментарии.
  • / – символ, указывающий на директорию.
  • * – любые знаки в любом количестве. По умолчанию он применен в каждом правиле.
  • $ – блокирует эффект *, говоря, на каком элементе следует остановиться

Директивы в файле делятся на группы. В каждой из них может находиться множество строк с командами. В каждой группе указывается один User-agent, для которого действуют эти инструкции, а также определяются файлы и каталоги, которые могут или не могут обрабатываться. Поисковые роботы следуют лишь указаниям группы, которая им подходит наилучшим образом.

Регистр букв имеет значение. Например, директива «Disallow: /files.php» распространяется только на URL «http://www.site.ru/files.php», тогда как «http://www.site.ru/Files.php» останется открытым для индексации.

Закрывающие символы не нужны. Правила не требуют точки с запятой в конце.

Названия директив пишут с заглавной буквы. Именно «Allow», а не «allow».

Чем длиннее директива, тем выше ее приоритет. Роботы игнорируют порядок директив. В рамках одной группы с «User-Agent» их можно писать в любом порядке. Но вот наиболее важной они сочтут ту, что длиннее. Однако при конфликте между «Allow» и «Disallow», приоритет будет у «Allow».

Пустая строка – окончание инструкций для User-Agent. Поэтому команды «Allow» и «Disallow» для одного поискового бота не разрываются пустыми строками и пишутся по порядку.

Необязательно прописывать инструкции для каждого отдельного URL. Эффективнее писать общие правила для типовых адресов. Оптимальный файл краткий, но содержащий все указания.

Кириллица часто встречается в доменах и URL. Их надо конвертировать их в Punycode.

User-agent: Yandex

Disallow: /контакты # ошибка

Disallow: /%D0%BA%D0%BE%D0%BD%D1%82%D0%B0%D0%BA%D1%82%D1%8B # правильно

Sitemap: http://все-о-субъектах.рф/sitemap.xml # ошибка

Sitemap: http://xn——8kcdcv9a2azdoi5a9d4e.xn--p1ai/sitemap.xml # правильно

Сортировка правил

Google и Яндекс не учитывают порядок написания директив «Disallow» и «Allow» в документе. Они сортируют команды от коротких к длинным и применяют последнее, которое подходит. Чем команда больше, тем выше приоритет. Если директивы одинаковы, то приоритет за «Allow».

Если в документе написано:

User-agent: Yandex

Allow: /categories/product.php

Disallow: /categories

Яндекс прочитает так:

User-agent: Yandex

Disallow: /categories

Allow: /categories/product.php

При проверке «/categories/product.php» команда «Disallow» запретит доступ к адресам с «/categories». Но позже правило «Allow» разрешит индексацию, и ссылка окажется доступна для поисковых роботов.

Как писать комментарии

Поисковики не учитывают комментарии при индексации. Они предназначены для упрощения работы разработчиков, позволяя им не забывать о назначении написанных директив. Комментарии могут располагаться на одной строке с директивами, но должны быть написаны за соответствующей командой. В требованиях поисковых систем нет условий, касающихся того, что и как можно писать внутри них. Например, можно смело использовать русский язык.

# запрет ботам Яндекса индексировать страницу регистрации и авторизации,

User-agent: Yandex

Disallow: /registration

Disallow: /authorization

Disallow: /form # и формы обратной связи заодно

# но лучше комментарии писать отдельно в новой строке

# Важно следить, где ставите комментарии, чтобы в них не оказались директивы, например, Sitemap: https://mesite.com/sitemap.xml

# из-за этого Sitemap поисковики не учитывают

Структура

Сначала в файле указывается команда «User-agent». Она сообщает, какой робот обязан читать правила. После перечисляются директивы для этого бота. Затем ставится пустая строка. После нее можно писать новый «User-agent» и команды для другого поисковика.

Распространенные варианты:

User-agent: * # все поисковые системы

User-agent: Yandex # боты Яндекса

User-agent: Googlebot # Google

Чаще применяется «Disallow», в то время как «Allow» встречается реже, ведь отсутствие запрета по умолчанию считается разрешением на индексацию.

# Команда для Яндекса на обход всего портала

User-agent: Yandex

Allow: /

# Команда для Google на обход всего портала

User-agent: Googlebot

Allow: /

# Блокировка портала для прочих роботов

User-agent: *

Disallow: /

Вместе с «User-agent» оптимизаторы чаще работают всего с четырьмя командами: «Disallow», «Allow», «Sitemap» и «Clean-param». Их указывают для общих поисковых систем, а также могут применять специальные команды для ботов, индексирующих новости или карточки товаров.

Директива User-agent

Команды для поисковика начинаются с «User-agent» – директивы, которая указывает, для какого именно бота предназначены перечисленные ниже правила. Когда роботы сканируют документ, они сначала ищут записи с названиями поисковых систем. Если подходящего имени нет, то они обращаются к группе команд под «User-agent: *». Если в документе не будет и ее, то программа решит, что ограничений на индексацию нет.

Примеры перечислений

Пустые строки используют для разделения команд на группы, каждая из которых предназначается для определенного бота и начинается с «User-agent»

User-agent: Yandex # правила для Яндекса

Disallow: /notyandex # это и нижняя команда будут относиться к Яндексу

Disallow: /parsers

 

User-agent: Googlebot # аналогичный блок для ботов Google после пустой строки

Disallow: /notgoogle

Disallow: /parsers

# пустая строка (комментарии не в счет)

User-agent: * # указания для всех прочих систем (например, парсеров)

Allow: /notyandex

Allow: /notgoogle

Allow: /parsers

В пределах группы команд для одного робота важно не оставлять пустые строки.

Неверное перечисление правил:

User-agent: Yandex

# пустота сообщает, что нижние строки не относятся к боту Yandex (это ошибка)

Disallow: /pay

Allow: /new

Напротив, группы директив, относящиеся к разным ботам, обязательно разделяются строкой.

Неправильное перечисление строк:

User-agent: Yandex

Disallow: /pay

User-agent: * # забыта пустая строка

Allow: /pay

Боты Яндекса и Google

У обоих систем есть множество роботов, каждый из которых сделан для разных задач. С помощью robots.txt можно управлять поведением этих роботов. Информация о некоторых из них держится в секрете. Ниже представлен список всех открытых роботов Яндекса и Гугла с их функциями. Если в документе написано имя бота, то он будет выполнять лишь те команды, которые относятся к нему, игнорируя весь остальной файл.

У Яндекса есть такие боты:

  • Основная программа Яндекса. Отвечает за индексацию и органическую выдачу.
  • Бот, работающий с контекстной рекламой, оценивающий сайты по расположению рекламы.
  • Этот робот схож с YandexDirect, но сфокусирован на оценке объявлений.
  • Обходит видео и аудио.
  • Работает с изображениями. Нужен для раздела «Картинки» в поисковике.
  • Обходит контент новостных порталов, собирая его для раздела «Новости».
  • Обрабатывает посты, отзывы, комментарии.
  • Бот анализирует трафик и поведение пользователей.
  • Распознает, индексирует микроразметку на страницах.
  • Проверяет информацию, связанную с планировщиком дел.
  • Добавляет в Яндекс.Маркет информацию о товарах и ценах.

У Гугла многие боты аналогичны:

  • Основная программа собирает тексты со страниц.
  • Его версия для индексации контента на смартфонах и планшетах.
  • Googlebot-News. Индексирует новости.
  • Googlebot-Video. Обрабатывает видео.
  • Googlebot-Image. Просматривает картинки на порталах.
  • AdsBot-Google. Проверяет качество страниц с контекстной рекламой.
  • AdsBot-Google-Mobile-Apps. Аналог для мобильных приложений с теми же критериями.
  • Mediapartners-Google. Похож на предыдущий, но для смартфонов.

Часто под одним «User-agent: *» указываются команды для ботов Гугла и Яндекса одновременно. Однако для специализированных задач SEO-оптимизаторы могут описывать правила отдельно для каждого поисковика.

Директива Disallow

Блокирует для ботов страницы, файлы, разделы по описанным признакам. Команда исключает из индексации (и поисковой выдачи):

  • Формы обратной связи, регистрации, авторизации.
  • Результаты поиска и фильтрации.
  • Дублирующий контент.
  • Технические разделы портала.
  • Архивы, журналы.

Примеры использования:

User-agent: Yandex # указание, для какого бота команды

Disallow: / # блокировка индексации всего портала

Disallow: /category # блокировка обхода разделов и категорий

Disallow: /webpage # запрет для уникальных страниц

Disallow: /*? # на обход страниц с параметрами

Disallow: /chapter/plugin.php # на сканирование плагина

Disallow: /document.doc # на обработку конкретного .doc

Disallow: /*that # запрет не только /that, но b /category/that и подобных ссылок

Чтобы полностью запретить индексацию вашего сайта, напишите:

User-agent: *

Disallow: /

Если необходимо закрыть от индексации конкретный поддомен, учтите, что каждому поддомену требуется отдельный robots.

Желательно не закрывать фиды от ботов (Disallow: /feed), так как они могут быть необходимы для интеграции сайта с такими сервисами, как Яндекс.Дзен или Турбо-страницы. Фиды передают контент в формате .rss. Если вы не знакомы с ним, стоит ознакомиться с информацией о том, что такое RSS.

Фиды имеют уникальный формат заголовков ответа, что позволяет поисковикам распознавать их и обрабатывать иначе, чем HTML-документы. Если вы хотите ограничить доступ к RSS, чтобы предотвратить кражу контента, рекомендуется использовать специальные плагины, такие как Disable Feeds.

Рассмотрим, как влияют «*» и «/» на запрос:

Disallow: /author/ # блокирует раздел https://mybooks.ru/author/, но страницы вроде https://mybooks.ru/info/author/help/page останутся доступными

Disallow: /author/* # альтернативная запись предыдущей директивы

Disallow: */author/ # корректно запретит индексацию на любом уровне

Disallow: /author # блокирует все ссылки, начинающиеся с http://mybooks.ru/author, включая страницу http://mybooks.ru/authorization

Директива Allow

Дает команду на индексацию страниц, разделов, файлов, соответствующих шаблону. Синтаксис этой команды схож с таковым у «Disallow» (но действие противоположное). Хотя поисковые системы и сами обходят весь сайт, это правило принудительно заставляет их это делать. Поэтому обычно используется, чтобы обойти ранее прописанную директиву «Disallow».

Примеры использования:

User-agent: Yandex # сначала указываем, для какого бота описываем правила

Allow: /png/ # призывает индексировать каталог /png/

Allow: /presentation.doc # призывает индексировать документ presentation.doc

Allow: /chapter.html # открывает доступ к chapter.html

Allow: /*its # призывает индексировать по маске *its

Все правила для «Disallow» применяются аналогично и для «Allow».

Спецсимволы

Регулярные выражения помогают составить более точное указание, какие страницы надо или нельзя индексировать. Для этого используются спецсимволы ««$» » и «*», которые можно ставить в командах «Disallow» и «Allow».

Символ «*» заменяет любые последовательности знаков, включая пустую строку. Например, шаблон «/transfer*» подразумевает открытый доступ для страниц, таких как «/transfer», «/transfer-products» и других вариаций.

Примеры:

User-agent: Yandex

Disallow: /photo/*.jpeg # блокирует страницы типа /photo/Nyasha.jpeg и /photo/private/Nyasha.jpeg

Disallow: /*products # ограничивает доступ не только к /products, но и к /catalog/products

В конце каждой команды рекомендуется писать знак *, но это не обязательно:

User-agent: Yandex

Disallow: /notepad* # ограничивает доступ к страницам, начинающимся с /notepad

Disallow: /notepad # выполняет ту же функцию

Чтобы обозначить конец строки, пишут «$»:

User-agent: Yandex

Disallow: /entries # запрещает «/entries», «/entriesnotepad» и все записи, начинающиеся с «/entries»

Disallow: /entries$ # запрещает только /entries

Символ «$» не отменяет влияние «*», если он присутствует в конце:

Disallow: /entries*$ # так же, как «Disallow: /entries» # запрещает и «/entries.html» и «/entries»

Другие примеры:

User-agent: Yandex

Allow: /old/public/*.exe$ # разрешает доступ к EXE-файлам по адресу /old/public/…

Disallow: /*.php$ # закрывает все файлы с расширением .php на сайте

Disallow: /*/public/ # запрет всех подкаталогов с /public/, но предыдущая директива Allow снимает частично блокировку

Disallow: /*/new/*.zip$ # закрывает все .zip архивы, находящиеся в каталоге «/new/»

User-agent: Yandex

Disallow: /form.php?*id= # ограничивает доступ к скриптам «form.php» с параметром «id»

Совмещение Disallow и Allow

В пределах одной группы с «User-agent» поисковики обрабатывают команды «Allow» и «Disallow», исходя из длины выражения с URL – от самого короткого к наиболее длинному. Если страница удовлетворяет сразу нескольким директориям, робот будет ориентироваться на наиболее длинное. То есть поисковики не обращают внимания на порядок написания правил в документе robots.txt. Но если команды противоречат и обладают одинаковым размером, то приоритет отдается «Allow».

Как применяется эта особенность:

User-agent: Yandex

Allow: /

Allow: /categories/photo-camera

Disallow: /categories

Как поисковики сортирует команды:

User-agent: Yandex

Allow: /

Disallow: /categories

Allow: /categories/photo-camera

Этот набор директив закрывает страницы, начинающихся с «/categories», но оставляет открытыми страницы по адресу «/categories/photo-camera».

Если директивы без параметров, то поисковики истолковывает их так:

User-agent: Yandex

Disallow: # эквивалентна «Allow: /», что означает разрешение на индексацию всего портала

Эта директива игнорируется программой:

User-agent: Yandex

Allow:

Примеры совмещения двух директив:

# разрешение обходить весь портал

User-agent: Yandex

Allow: /

Disallow: /

# нельзя ничего обходить, кроме главной страницы

User-agent: Yandex

Allow: /$

Disallow: /

# закрывается только «/date»

User-agent: Yandex

Disallow: /date$

# закрывается «/date/today.html», и «/date/html/today.aspx» и т.п.

User-agent: Yandex

Disallow: /date*html

# сайт закрывается для любых ботов, кроме Яндекса

User-agent: *

Disallow: /

User-agent: Yandex

Allow: /

Директива Sitemap

Можно составить перечень страниц для индексирования в специальном файле XML. Но чтобы поисковый робот нашел его, нужно указать к нему путь в документе robots. Можно сделать несколько карт и перечислить их координаты в директиве.

Как применяется директива:

Sitemap: https://mybooks.ru/sitemap.xml

При наличии двух и более карт:

User-agent: *

Sitemap: https://mybooks.ru/data/sitemapOne.xml

Sitemap: https://mybooks.ru/data/sitemapTwo.xml

Важно отметить, что правило «Sitemap» работает на любом уровне, поэтому поисковик будет учитывать указанную команду вне зависимости от ее расположения.

Также директиву Sitemap часто пишут после пустой строки:

# директивы для всех

User-agent: *

Allow: /

# для Яндекса

User-agent: Yandex

Disallow: /

# карта

Sitemap: https://mysite.ru/maps/sitemap2.xml

Поисковый робот запомнит путь к файлу и будет использовать эту информацию при формировании будущих запросов на индексирование.

Рекомендуется включать «Sitemap» для Google и Яндекса. Отсутствие команды может привести к появлению в Яндекс Вебмастере предупреждения.

Советы при создании

Чтобы поисковики могли интерпретировать файл как надо, его составляют в соответствии с определенными правилами. Рассмотрим ключевые рекомендации по оформлению документа.

Группируйте директивы.

Если надо установить разные правила для различных роботов, создайте несколько блоков с правилами. Разделите их пустыми строками. Это даст команду поисковикам, что группы принадлежат разным «User-agent».

Пример выполнения рекомендации:

User-agent: Yandex # команды для Яндекса

Disallow: # запрещающие директивы

Allow: # разрешающие директивы

# пустая строка

User-agent: Googlebot # указания для Гугла

Disallow: # запрещающие директивы

Allow: # разрешающие директивы

Sitemap: # адрес файла

Одна директива – одна ссылка.

Для раздела, файла или регулярного выражения должна быть своя директива «Allow» или «Disallow». Нельзя указывать несколько папок в одной строке, например:

Disallow: /form/ /img/ # ошибка

Правильный вариант будет выглядеть так:

Disallow: /form/

Disallow: /img/

Удаляйте лишние директивы.

Директивы «Crawl-Delay» и «Host» устарели. Удалите их из вашего robots. Чтобы сменить зеркало, теперь используется редирект 301, а паузу между обходами портала поисковики теперь выбирают сами. Кроме того, удаляйте все директивы для несуществующих страниц, чтобы не загромождать файл ненужной информацией.

Блокировка ботов

Чтобы запретить ChatGPT и Google Bard использовать материалы сайта для обучения своих моделей, добавьте следующие строки в robots.txt:

User-agent: GPTBot # команды для ChatGPT

Disallow: /

# не забываем про пустые строки, к ботам это тоже относится

User-agent: Google-Extended # команды для Vertex AI и Google Bard

Disallow: /

Можно закрыть определенные разделы вашего сайта, например, каталог товаров или блог. Если все ваши статьи находятся по адресу «site.ru/blog», добавьте в файл такие строки:

User-agent: GPTBot

Disallow: /blog

Ваш сайт могут посещать разнообразные боты. Большая их часть не приносит никакой пользы. А многие собирают информацию, которой могут воспользоваться конкуренты. Но при этом некоторые следуют инструкциям в robots, поэтому им можно запретить обход сайта. Впрочем, это не будет гарантией того, что ваш сайт не посетят парсеры.

Однако кроме Гугла и Яндекса существуют менее популярные поисковые системы. Им желательно не ограничивать доступ полностью, так как малый процент людей ими все же пользуются:

  • Slurp – команда для «Yahoo!».
  • Yahoo! Slurp – аналогичная команда.
  • StackRambler – Рамблер.
  • Ru.

Работу прочих ботов лучше полностью запретить:

  • Aport.
  • AwarioSmartBot и AwarioRssBot.
  • Barkrowler.
  • BLEXBot.
  • Bytespider.
  • FlipboardRSS.
  • DotBot.
  • Go-http-client.
  • ia_archiver.
  • ImagesiftBot.
  • Lycos.
  • MBCrawler.
  • MegaIndex.
  • MSNBot.
  • NetcraftSurveyAgent.
  • SafeDNSBot.
  • SemrushBot.
  • Scooter.
  • Scrapy.
  • Teoma.
  • WebAlta и WebAlta Crawler/2.0.
  • YaK.
  • ZoominfoBot.

Для каждого бота нужно прописать отдельный «User-agent», а потом еще и отдельный запрет «Disallow: /». И так нужно сделать для каждого бота.

Как полностью закрыть страницу

У файла robots немного иное предназначение, чем просто запрещение индексации. Его основная задача – уменьшение нагрузки на сервер во время обхода сайта.

Google написал: «robots.txt не предназначен для исключения контента в результатах поиска». Если на каких-то ресурсах можно найти ссылки на страницу, то она будет проиндексирована. Запрет на ее посещение для Googlebot ничем не поможет.

Поисковые системы рассматривают правила robots как рекомендации. Если на портале найдутся внутренние ссылки на нее, то она тоже может появиться в результатах поиска. Страница, закрытая лишь через robots, отобразится в выдаче без адекватного заголовка и хоть какого-то описания.

Если вы действительно хотите полностью скрыть страницу, то мало ограничить ее сканирование с помощью robots. Самый надежный метод – это пароль. Тогда любой парсер не сможет обработать страницу, ведь она открыта лишь авторизованным пользователям. Но требование регистрации является серьезным минусом.

Поэтому, если нельзя использовать пароль, можно вставить в HTML-разметку метатег noindex. Его надо добавить в секцию <head>:

<meta name=»robots» content=»noindex, nofollow»/>

В случае использования команд «noindex» и «nofollow» нельзя блокировать страницу через robots. Иначе бот не увидит страницу и не отметит запрещающий метатег.

Директива Clean-param

Предназначена для адресов с изменчивыми параметрами, из-за которых различные URL ведут на одинаковые страницы. Команда актуальна исключительно для Яндекса.

Параметры, с которыми работает директива:

  • ID пользователей и сессий.
  • Параметры для поиска и фильтрации на сайте.
  • Уникальные префиксы для корзин ИМ, не затрагивающие содержание.
  • UTM и подобные элементы.

Использование этой настройки помогает уменьшить нагрузку, так как поисковик проигнорирует страницы с перечисленными метками. Это также повышает эффективность обхода и предотвращает отображение дубликатов в индексе.

Синтаксис Clean-param

Директива записывается так:

Clean-param: arr[&var1&var2&..&varN] [prefix]

В списке [&var1&var2&..&varN] указываются параметры, которые нужно исключить из индексации. Параметры перечисляют, разделяя их символом

«&», например, «list&rating».

Поле [prefix] указанием на ссылку, к которой применяется директива. Если префикс не указан, правило «Clean-param» будет распространяться на весь сайт.

Важно отметить, что «Clean-param» несекционное. Нет ограничений по его расположению. Если добавить несколько таких правил, поисковик учтет каждое из них. Важно учитывать регистр символов, а также помнить о предельной длине правила – до 500 знаков.

В префиксе можно использовать регулярные выражения, однако с определенными ограничениями. Разрешены только следующие символы: A-Za-z0-9.-/*_. Также стоит помнить, что звездочка (*) является специальным символом.

Пример использования:

Clean-param: h /forum/today.php

Данное указание говорит о том, что параметр h не имеет значения для URL «/forum/today.php». Если указать лишь h без второй части записи, данное правило распространится на все страницы портала.

Пример Clean-param

Предположим, на вашем сайте имеются три страницы с одним товаром:

  • http://mysale.ru/category/phones.php?get=1&id=657
  • http://mysale.ru/category/phones.php?get=2&id=657
  • http://mysale.ru/category/phones.php?get=3&id=657

Все эти URL ведут к одной и той же модели телефона, однако различаются параметром get=, который используется для отслеживания источника перехода пользователя. Это приводит к тому, что несмотря на разные URL, контент остается неизменным, и все три адреса фактически ссылаются на страницу: http://sale.ru/category/phones.php?id=657

Можно добавить директиву, которая предотвратит обход всех вышеперечисленных страниц:

User-agent: *

Disallow:

Clean-param: get /category/phones.php

Эти инструкции сообщают поисковикам о необходимости объединить все URL страницы в одну ссылку: http://mysale.ru/category/phones.php?id=746. Если доступ к этой странице открыт, то именно она будет проиндексирована роботом.

Рассмотрим еще несколько примеров.

Возьмем два адреса:

  • myforum.ru/news/today.php?c=k5n6b577kn&p=3495
  • myforum.ru/news/today.php?c=b45ub6v34y&p=3495

Для их объединения надо написать:

Clean-param: c /news/today.php

Для адресов типа:

  • myimages.ru/nature.php?art=1&sid=6ib756ib58bno7
  • myimages.ru/nature.php?art=1&sid=875m65n5io98

В файл надо занести:

Clean-param: sid /nature.php

Когда параметр не один:

  • ru/fresh/nature.php?c=25bvy&t=356&zoo=4523
  • ru/fresh/nature.php?c=bj5v35&t=673&zoo=4523

То их надо писать через амперсанд:

Clean-param: c&t /fresh/nature.php

Если параметр присутствует на многих страницах:

  • ru/archive/old.php?s=b565v24u6b5&u=4523
  • ru/new/today.php?s=m5u6v34vb64&u=4523

То указывают его для каждого варианта страницы:

Clean-param: s /archive/old.php

Clean-param: s /new/today.php

Как проверить файл

Ошибки в данном файле способны привести к тому, что важный контент не будет проиндексирован, а страницы, которые следовало скрыть, попадут в поисковую выдачу.

Ручная проверка

Сначала проверьте правильность заполнения файла. Требований к документу, его синтаксису и директивам не так много:

  • Его имя строго robots.
  • Формат только .txt.
  • Документ сохраняют в кодировке UTF-8.
  • Файл загружают в корень портала: «https://вашсайт.ru/robots.txt».
  • Он доступен для чтения всем пользователям и ботам.

Документ обладает определенным синтаксисом:

  • Все указания распределяются на группы, где первым правилом является «User-agent».
  • Команда начинается с «Disallow» или «Allow».
  • В каждой строке лишь одно правило.
  • Группы разделяются пустыми строками.

Вне каких-либо групп можно указывать «Sitemap» и «Clean-param».

Используются специальные символы:

  • * – любая последовательность знаков.
  • $ – отменяет действие звездочки.
  • / – путь к определенной странице, файлу или директории сайта.

Комментарии начинаются с # и игнорируются ботами.

Пример структуры:

User-agent: *

Disallow: /archive/ # комментарий

Allow: /public/

Директива User-agent

Указывает на бота, который должен читать данную группу правил:

User-agent: * # все системы

User-agent: Googlebot # Google

User-agent: Yandex # Яндекс

Пример:

User-agent: Googlebot

Disallow: /temp/

Директива Disallow

Закрывает для чтения страницы и разделы:

User-agent: *

Disallow: / # запрещает доступ ко всему сайту

Disallow: /qwerty/ # к разделу «/qwerty/»

Disallow: /users.html # к конкретному файлу

Пример:

User-agent: *

Disallow: /user/

Disallow: /qwerty/

Директива Allow

Директива «Allow» разрешает доступ к определенным страницам или разделам, даже если они находятся в запрете «Disallow».

User-agent: *

Allow: /public/ # разрешает доступ к «/public/»

Allow: /logotypes/logotwo.png # доступ к файлу

Пример:

User-agent: *

Disallow: /qwerty/

Allow: /private/public/

Директива Sitemap

Указывает путь к карте портала, что помогает ботам быстрее находить, индексировать страницы.

Sitemap: https://вашсайт.ru/sitemap.xml # карта сайта

Пример:

User-agent: *

Disallow: /qwerty/

Sitemap: https://вашсайт.ru/sitemap.xml

Проверка доступности

У каждого портала данный документ находится в общем доступе. И его можно посмотреть своими глазами. Переходим на «https://mysite.ru/robots.txt» (вместо «mysite.ru» указывается домен вашего ресурса) и смотрим, открывается ли он.

Дальше нам необходимо проверить его техническую доступность, для чего заходим в сервис проверки ответа сервера Яндекса: https://webmaster.yandex.ru/tools/server-response/

Вводим путь к вашему robots и нажимаем «Проверить».

Сервер обязан дать ответ с кодом 200. Если вы видите иные цифры, то значит robots недоступен и система не может его прочитать.

Как проверить синтаксис онлайн

Для того чтобы удостовериться в корректности составленного файла, можно воспользоваться приложениями от Яндекса и Google, или иными специальными онлайн-ресурсами: PR-CY, Tools.discript.ru или WebsitePlanet. Главные поисковики имеют свои правила валидации robots, так что проверку следует проводить дважды.

Как проверить в Яндекс?

Чтобы проверить документ, необходимо воспользоваться Яндекс.Вебмастером, который предназначен для анализа и тестирования данного файла.

Если у вас еще нет учетной записи в Вебмастере, создайте ее. Для этого перейдите на webmaster.yandex.ru и войдите в систему, используя уже существующий аккаунт Яндекса.

Далее добавьте портал в Вебмастер, следуя предоставленным инструкциям. Вам потребуется доказать свои права на этот сайт с помощью одного из предложенных методов.

После подтверждения прав станут доступны инструменты анализа параметров вашего портала и его продвижения в поисковой системе Яндекса.

Проверка через валидатор:

  1. Перейдите в кабинет Вебмастера.
  2. Слева найдите «Инструменты» и далее «Анализ robots.txt».
  3. Обычно содержимое документа подставляется автоматически. Если этого не случилось, скопируйте текст, вставьте его в предложенное поле и нажмите кнопку «Проверить».
  4. Результаты проверки появятся ниже. В случае наличия ошибок в директивах сервис укажет, какую именно строку нужно исправить, и объяснит суть проблемы.

Если вы столкнулись с какими-либо недочетами, исправьте их в файле на сервере и повторите проверку. С помощью Яндекс.Вебмастера вы сможете удостовериться, что robots.txt оптимизирован для системы Яндекс и не содержит ошибок, препятствующих правильной индексации вашего сайта.

Проверка индексации

Однако возможности инструмента на этом не заканчиваются. Вы можете проверить, разрешена ли индексация определенных страниц вашего сайта. Для этого введите список интересующих вас адресов и нажмите «Проверить». Инструмент сообщит, можно ли индексировать эти страницы, и в столбце «Результат» будет представлена информация о причинах индексации или ее отсутствии.

Это отличная возможность для внедрения новых идей. Используйте специальные символы, такие как звездочка или знак доллара, чтобы закрыть от индексации страницы, не представляющие ценности для пользователей. Будьте внимательны и следите за тем, чтобы случайно не закрыть от индексации важные страницы вашего сайта.

Как проверить в Google?

Ранее у Google существовал инструмент валидатора, аналогичный Яндекс, но с 12 декабря 2023 года он был обновлен и теперь функционирует автоматически. У вас будет доступен список, в котором указано, когда робот индексировал ваш файл robots.txt. Индексация может быть инициирована в любой день.

Найти новый инструмент можно в разделе Настройки > Отчет Robots.txt. Если возникнут проблемы с robots.txt, они будут отображены в столбце «Проблемы».

Чтобы увидеть, как Google воспринимает ваш файл robots.txt, достаточно кликнуть по соответствующей строке с данными. Однако в отличие от Яндекс, где можно сразу указать новые правила и проверять их в реальном времени, в Google это сделать нельзя. Поэтому рекомендуется предварительно проверить ваш файл с помощью сторонних валидаторов:

  • com/robots-txt-tester/
  • com/tools/robots-txt/
  • com/tools/robotstxt-checker
  • ryte.com/free-tools/robots-txt/

Отправка нового robots

Поместите новый документ в корень вашего портала. Если нет доступа к административной панели, свяжитесь с технической поддержкой сервера. После успешной загрузки файл станет доступен по адресу mysite.ru/robots.txt (вместо «mysite.ru» – домен вашего портала).

В инструменте Google Search Console в разделе «Файлы robots.txt» имеется кнопка «Загрузить повторное сканирование», которая позволяет ускорить процесс обхода и индексирования нового документа.

Убедитесь, что измененный файл был успешно проверен роботами. Для этого обновите страницу «Файлы robots.txt». В результате будет показан новый документ с указанием времени, когда Googlebot впервые увидел актуальную версию.

Официальный парсер

На платформе Github доступен официальный парсер Robots.txt от Google. Эта библиотека была представлена в 2019 году после того, как Robots Exclusion Protocol (REP) стал официальным стандартом. Google использует ее для парсинга файлов robots.txt на сайтах и сопоставления правил в них. Если вы владеете навыками программирования, то можете установить эту библиотеку на свой компьютер и протестировать.

Проверка в Bing

В 2020 году корпорация Microsoft представила обновление Bing для программистов, которое значительно упростило работу с файлом robots.txt. Теперь пользователи могут редактировать этот файл сразу в интерфейсе инструмента, а затем проверять внесенные изменения с помощью встроенного валидатора.

Кроме возможности редактирования файла robots.txt, обновленные инструменты для вебмастеров Bing предлагают ряд расширенных функций для анализа и мониторинга:

  • Отчет о URL. Пользователи могут получить информацию обо всех URL, которые заблокированы или разрешены для индексации в соответствии с правилами из файла robots.txt. Это позволяет убедиться, что важные страницы не закрыты по ошибке.
  • Информация о доступе. Вебмастеры могут видеть дату последнего обращения робота Bing к файлу robots.txt, а также список выявленных ошибок. Это помогает быстро устранять возникающие проблемы.
  • История доступа. Доступны сведения об изменениях в доступе к файлу robots.txt со стороны IP-адресов робота Bing. Это позволяет отслеживать всю историю взаимодействия и видеть временные ограничения доступа.
  • Рекомендации по оптимизации. В отдельном разделе предоставляются советы по улучшению файла robots.txt для более эффективной индексации.

Таким образом, обновленный функционал инструментов Bing предоставляет вебмастерам полный контроль над доступом поисковых роботов к сайту и возможность оперативно решать любые вопросы, связанные с индексацией.

Как исправить ошибки

Теперь давайте рассмотрим, как можно исправить возможные ошибки.

  • Найдено несколько правил вида User-agent: *

Директива «User-agent: *» указывает, что команды после него действуют для всех поисковиков. Строка с этой директивой должна быть одна на весь robots.txt. Проверьте файл, удалите лишние User-agent, объединив директивы.

  • Превышен допустимый размер txt.

Максимальное количество правил и строк – до 2048. Необходимо сократить число директив, сделав некоторые из них универсальными с помощью специальных символов.

  • Некорректный формат URL для Sitemap.

Указан неполный или неверный адрес к карте сайта. Проверьте, исправьте.

  • Некорректный формат директивы Clean-param.

Необходимо указать хотя бы один параметр и обязательно – префикс ссылки. Параметры надо разделять амперсандом без пробела, а вот между ними и префиксом пробел ставить нужно.

  • Правило начинается не с «/» и не с «*».

Неверно написано правило. Не «Allow: bad», а «Allow: /bad/» или «Allow: /bad».

  • Директива должна отделяться «:» от правила.

После директивы ставьте двоеточие и лишь затем – правила.

  • Перед правилом нет директивы User-agent.

Правила всегда ставятся после «User-agent». Их может быть несколько, каждая на своей строке, но между ними не должно быть пустых строк. Наличие пустых переводов строки между директивами «User-agent», «Disallow» и «Allow» недопустимо.

Иные ошибки

Есть еще ряд ошибок, о которых проверяющие системы могут не сообщить, но которые сделают работу robots.txt некорректной. На них обращайте особое внимание:

  • Закрытие страниц пагинации.

Некоторые могут ошибочно закрыть страницы с пагинацией, из-за чего бот может не перейти на многие статьи и новости. Страницы пагинации следует оставлять доступными для индексации, но закрывать дубликаты. Дубли могут возникать при использовании фильтров или сортировок.

  • Неправильный регистр.

Внимательно следите за регистром символов в ссылке и ее параметрах. Это же касается написания директив и правил.

  • Использование кириллицы.

Недопустимо использование кириллицы. Для указания имен доменов применяйте Punycode.

  • Файл robots закрыт от индексации.

Если файл закрыт от индексации, поисковые роботы не смогут учитывать его директивы.

  • Неверный протокол.

Если вы перевели сайт с HTTP на HTTPS, необходимо обновить протокол в указаниях для sitemap.

Заключение

Файл robots.txt – полезный инструмент для улучшения индексации портала. Правильное его использование помогает улучшить видимость сайта в поисковых системах и избежать ошибок. Регулярно проверяйте файл через сервисы Google и Яндекса, чтобы убедиться в его корректности.

Читать еще
31 мая 2025
Test2

Где взять клиентов для сайта магазина мебели самостоятельно? В интернете сегодня существует множество возможностей для продвижения компании и увеличения продаж. Если вы занимаетесь производством и продажей мебели, то вам необходимо использовать поисковые системы, чтобы привлечь внимание клиентов.Комплексный подход к SEO продвижению поможет увеличить посещаемость вашего сайта и, как следствие, увеличить продажи. Воспользуйтесь услугами агентства, специализирующегося […]

Без рубрики
31 мая 2025
Тест

Где взять клиентов для сайта магазина мебели самостоятельно? В интернете сегодня существует множество возможностей для продвижения компании и увеличения продаж. Если вы занимаетесь производством и продажей мебели, то вам необходимо использовать поисковые системы, чтобы привлечь внимание клиентов.Комплексный подход к SEO продвижению поможет увеличить посещаемость вашего сайта и, как следствие, увеличить продажи. Воспользуйтесь услугами агентства, специализирующегося на продвижении […]

Без рубрики
6 мая 2025
Микроразметка Open Graph: что это, как работает

  Микроразметка — способ расстановки на веб-странице меток для поисковых роботов, которые сканируют ее содержимое и отбирают информацию для создания превью в списке поисковой выдачи.

Знания
6 мая 2025
Разметка Schema.org: что это, какой бывает, как сделать и проверить

  Микроразметка Schema.org предназначена для структурирования информации на сайте. Размеченная страница становится более понятной для поисковых роботов, которые берут с нее нужные веб-мастеру данные для показа расширенного сниппета.

Знания
6 мая 2025
Favicon: что это, каким бывает, как использовать и проверить

  Favicon или фавикон — маленькая иконка, которую пользователи видят перед наименованием страницы во вкладке интернет-браузера. Окидывая взглядом фавиконы, пользователи быстро находят нужные им сайты среди большого количества открытых вкладок.

Знания