4 мая 2014 г.

Начнём с небольшого экскурса на тему для чего нужен свод правил для поисковых роботов в виде файла robots.txt.

Как известно, в этом текстовом файле описываются разделы, страницы или файлы сайта, которые должны быть проиндексированы или проигнорированы роботами поисковых систем (ПС). Кроме того, там могут быть описаны условия поведения роботов на сайте, такие как частота сканирования или параметры сканирования. Более подробную информацию можно получить на одноименном ресурсе по адресу http://robotstxt.org.ru.

Создание файла robots.txt преследует как минимум две цели:

    1) Исключение страниц из поискового индекса той или иной поисковой системы;
    2) Оптимизация нагрузки на сайт со стороны поисковых роботов.

Руководствуясь первой целью, владелец сайта, как правило, заботится о позициях ресурса в поисковых выдачах через релевантные страницы, которые не должны повторяться в процессе индексации. Другими словами, страницы с повторяющимися или неактуальными данными должны быть исключены.

Наконец стоить помнить, что отсутствие правил для поисковых роботов и сетевых сканеров делает поведение последних, без преувеличения, агрессивным. То, что большая часть оплаты за хостинг уходит на роботов, признают немногие. И только немногие при создании такого файла как robots.txt преследуют вторую цель.

В Интернете довольно много примеров файла robots.txt для OpenCart. Остановимся на типовом упрощённом варианте и рассмотрим его особенности ниже:

User-agent: *
Disallow: /catalog/view/theme/default/
Disallow: /catalog/view/javascript/
Disallow: /*?
Allow: /index.php?route=feed/sitemap_pro
Allow: /index.php?route=product/category&path=*
Allow: /*?path=*
Allow: /index.php?route=product/product&product_id=*
Allow: /index.php?route=product/product&path=*
Allow: /*?product_id=*
Allow: /index.php?route=information/information&information_id=*
Allow: /index.php?route=product/special 
User-agent: YandexImages
Disallow: /
Allow: /image/cache/ 
User-agent: Googlebot-Image
Disallow: /
Allow: /image/cache/ 
User-agent: msnbot-media
Disallow: /
Allow: /image/cache/
Sitemap: http://domain.com/index.php?route=feed/sitemap_pro
Такой поисковик как Google "всеяден" (другие не исключение) - всё что не запрещено, то может быть проиндексировано. Часто индексируются элементы интерфейса (картинки, стили, скрипты), которые создают только "мусор" для поисковой выдачи и лишнюю нагрузку на сайт. Поэтому для всех ПС без исключения запрещаем индексировать оформление сайта (для шаблона default).

Дальше, обратите внимание, в данном примере не перечисляются динамические пути, т.е. относительные ссылки с параметрами. Вместо этого определён полный запрет для них через правило Disallow: /*? и последующее разрешение необходимых нам путей с использованием директивы Allow.

Сделано это по нескольким причинам. Во-первых, перечислить все возможные ссылки с динамическими параметрами при большом количестве модулей затруднительно. Помните, что Google обрабатывает блоки кода JavaScript и извлекает относительные пути (формирует ссылки) из запросов типа Ajax. Во-вторых, некоторые разработчики поисковых систем считают себя "особенными", например команда Mail.Ru, которая периодически меняет User-Agent поискового робота и последовательность параметров в URL при индексации (если робот встретит правило Disallow: /*?sort, то он перестроит запрос таким образом, чтобы параметр sort в ссылке шел после амперсанда &).

Теперь о медиаконтенте. Последнее время базы данных ПС по изображениям переполнены данными, в связи с этим появление картинок в индексе происходит со значительной задержкой, года три назад об этом сообщал Яндекс. Похоже ситуация не особо изменилась, поскольку при отсутствии явных инструкций для медиа-роботов, индексация по изображениям не выполняется (или выполняется со значительной задержкой, на усмотрение ПС). Поэтому блоки с соответствующими директивами User-Agent должны быть указаны отдельно, а индексация разрешена строго по определенному пути (для OpenCart это /image/cache/).

В заключении хотелось бы предупредить начинающих, что создавая файл свода поисковых правил, вы как бы публикуете подобие карты сайта, не только для поисковых роботов, но и для сетевых сканеров, направленных на поиск уязвимостей и парсинг. Не стоит прописывать пути, которые в контенте не встречаются или недоступны для гостевой учётной записи. Например, такие пути как /admin/ или /download/.

Для магазинов с индивидуальным дизайном и множеством модулей может потребоваться тонкая (расширенная) настройка. Автор блога готов взяться за соответствующий анализ сайта и создание оптимального файла robots.txt.

8 комментариев:

  1. Роман, спасибо за на стройку сайта и советы, которые наконец то помогли моему сайту косметики для волос: hairstrong.ru полностью проиндексироваться Яндексом!
    Надеюсь на дальнейшее сотрудничество!
    Прошу прошения за ПИАР сайта:)

    ОтветитьУдалить
  2. а если стоит ЧПУ надо ли прописывать все
    Allow: /index.php?route=product/product&product_id=
    Allow: /index.php?route=product/product&path=
    Allow: /*?product_id=
    Allow: /index.php?route=information/information&information_id=
    Allow: /index.php?route=product/special

    ОтветитьУдалить
    Ответы
    1. Не обязательно, только если товаров не много и Вы в состоянии отслеживать все уникальные ссылки. В противном случае товары-идентификаторы выпадут из поиска.

      Удалить

  3. Обновлена структура файла robots.txt, в частности, для запрета индексирования элементов интерфейса достаточно прописать путь к шаблону и скриптам.

    Кроме того, все директории должны закрываться слэшем, а параметры продолжены символом *, в противном случае некоторые роботы (замечено за Google), воспринимают такие пути как канонические ссылки и пытаются по ним перейти.

    P.S. В ближайшее время будет представлен специальный модуль в каналах продвижения OpenCart, который позволит очень точно формировать файл robots.txt в реальном времени для каждого поискового робота.

    Подписывайтесь на обновления и следите за комментариями.

    ОтветитьУдалить
    Ответы
    1. Роман, здравствуйте. Модуль появился?

      Удалить
    2. Здравствуйте! Да, описание уже доступно: http://opencartsoftware.blogspot.com/2016/02/opencart-robots-module.html

      Удалить
  4. Этот комментарий был удален администратором блога.

    ОтветитьУдалить
    Ответы
    1. Не стоит рекламировать свои ресурсы в комментариях, это неэффективно. В остальном все "разжовано" в этой теме дальше некуда.

      Удалить

  • RSS
  • Twitter
  • Youtube