Ошибки, часто встречающиеся в файле robots.txt

Автор Владимир75, 02-12-2016, 12:44:15

« назад - далее »

Владимир75Topic starter

Цитата: alex115 от 09-12-2016, 09:40:10
У Яндекса написано, что протокол в директиве Host указывается только в том случае, если сайт работает по https. Так что все правильно.

Да это с тех времён, когда в вебмастере яндекса можно, как в гугле вебмастере прописывать главное зеркало сайта, но яндекс тормозной поэтому прописывать не помешает.
Услуги: Сайты в топ за две неделм Мобильный, WatsApp., Viber +79964788889, telegram @xiceer.
  •  


Skyer

1. Из практики если сайт без http:// то указываю Host: site.com
2. Если сайт с https:// то указываю Host: https://site.com  в противном случае яндекс ругается на Host

Вопрос:
Кто-то разобрался как сделать чтобы гугл не ругался на параметр Clean-param: даже если он в блоке User-agent: Yandex
Проверенный хостинг, использую не один год: www.ukraine.com.ua [nofollow]
  •  


alexis54

Есть еще один нюанс. который нигде не увидел - директива Sitemap. Если на сайте постоянно добавляется уникальный контент, то лучше НЕ добавлять в robots.txt ссылку на карту сайта.
  •  

Владимир75Topic starter

Цитата: alexis54 от 09-11-2017, 23:50:10
Есть еще один нюанс. который нигде не увидел - директива Sitemap. Если на сайте постоянно добавляется уникальный контент, то лучше НЕ добавлять в robots.txt ссылку на карту сайта.
Почему не добавлять, карта сайта может и автоматически обновлятся при размещении нового контента, как правило в любой cms есть такой плагин или модуль, который на автомате добавляет новый адрес в карту.
Услуги: Сайты в топ за две неделм Мобильный, WatsApp., Viber +79964788889, telegram @xiceer.
  •  

kirkirkir

Особенно важно для начинающих :D
Избыточное наполнение robots.txt. Начинающие вебмастера впечатляются статьями, где сказано, что все ненужное необходимо закрыть в robots.txt и начинают закрывать вообще все, кроме текста на строго определенных страницах. Это, мягко говоря, неверно.
Во-первых, существует рекомендация Google не закрывать скрипты, CSS и прочее, что может помешать боту увидеть сайт так же, как видит его пользователь.
Во-вторых, очень большое количество ошибок связано с тем, что закрывая одно, пользователь закрывает другое тоже. Безусловно, можно и нужно проверять доступность страницы и ее элементов.
Как вариант ошибки - путаница с последовательностью Allow и Disallow.
Лучше всего закрывать в robots.txt только очевидно ненужные боту вещи, вроде формы регистрации, страницы перенаправления ссылок и т.п., а от дубликатов избавляться с помощью canonical.
Обратите внимание, что то, что Вы поправили robots.txt совсем не обозначает, что Yandex- bot и Google-bot его сразу перечитают. Для ускорения этого процесса достаточно посмотреть на robots.txt, соответствующем разделе вебмастера.
Лучше всего для начала прогоните сайт через Лабрику ( labrika ), в техническом аудите будет видно- правильно ли настроен  robots, каноникал, есть ли редиректы, есть ли битые 404 страницы и т.д.


  •  


Leonova

Спасибо.
У меня было: "User-agent:", как оказалось, это не правильно... Сделала "User-agent: *"

Андрейкерч

Спасибо за информацию! Хотя бы по этому чек листу проведу проверку
Веду бизнес по рыболовным принадлежностям
  •  

seoquick.com.ua

Нужно еще знать, что прописанные в robots.txt директивы являются рекомендациями, которых придерживаются лишь роботы крупных поисковых систем. Сторонние боты чаще всего на них внимания не обращают. Поэтому их лучше блoкировать по IP.
К тому, же заблoкированные в robots.txt страницы все еще продолжают быть доступными интернет-пользователям. Поэтому если цель – скрыть веб-страницу не только от роботов, но и от пользователей, на нее нужно установить пароль.
Поддомены рассматриваются поисковиками как отдельные сайты. Поэтому рекомендации по их индексации следует прописывать в отдельных robots.txt в корне каждого поддомена.
Учитывать регистр не стоит, так как robots.txt нечувствителен к регистру. Поэтому директивы можно писать как строчными, так и прописными. Но имена файлов и директорий должны прописываться только так, как они выглядят в адресной строке браузера.
Указанный в директиве User-agent реагирует на все указанные под ним директивы вплоть до следующей строки с User-agent. Поэтому не стоит надеяться, что директивы под вторым User-agent будут выполнены роботом, указанным в первом User-agent. Для каждого робота указания нужно дублировать.
https://seoquick.com.ua/keyword-grouping/ - кластеризатор,  20,000  ключевых слов за 1 минуту.
https://seoquick.com.ua/adwords-generator/ - Генератор объявлений Google Ads.
  •  




aleksohotnik

Цитата: vold57 от 23-09-2019, 11:06:50
Это уже не работает - User-agent: * ?
работает, все зависит от потребности
newbielink:http://webmarketinggroup.ru/services/razrabotka-saytov [nonactive]
  •