Ошибки, часто встречающиеся в файле robots.txt

Автор Владимир75, 02-12-2016, 12:44:15

« назад - далее »

Shokoladnet

Цитата: warlord от 08-12-2016, 05:41:24
а что делать с host если сайт на https? прописывать host: https://www.site.ru или оставлять как есть www.site.ru?

Яндекс в этом случае рекомендует прописывать так:  https://www.site.ru

Но видела недавно аудит по сайту, выполненный известной компанией, так они пишут без протокола.

Так что я тоже в сомнениях, но разве Яндексу не виднее?))
  •  


warlord

Ну вот тоже по рекомендации Яндекса прописали с протоколом. И все равно в сомнениях, а стоит ли так делать...


Надежда Хачатурова

Цитата: Владимир75 от 02-12-2016, 12:44:15Отдельные роботы (например googlebot) понимают директиву Allow
Все верно. С помощью allow открываем заблoкированные ресурсы в запрещенных к сканированию папках для googlebot'ov.

Аудит и оптимизация сайтов
Хостинг - надежный, SSL - бесплатный
  •  

Иван Маслов

Очень полезная инфа, спасибо Владимир!
  •  

alex115

Цитата: warlord от 08-12-2016, 05:41:24
а что делать с host если сайт на https? прописывать host: https://www.site.ru или оставлять как есть www.site.ru?

Как написано в руководстве Яндекса по поводу директивы Host (см. https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml#host ):
"Директива Host должна содержать указание на протокол HTTPS, если зеркало доступно только по защищенному каналу (Host: https://myhost.ru)."
Оптимизация и поисковое продвижение
http://alexandrov.by
  •  


beesyst

1. Просьба объяснить, зачем указывать каждого бота, когда, по идее, можно указать:

User-agent: *

2. Можете точно указать по поводу host, если https:

Host: www.example.com (у меня так указано)
Host: https://www.example.com/
Host: https://www.example.com

3. Зачем указывать:

Crawl-delay: 4

4. Нужно ли указывать Sitemap? Если да, то как?

Спасибо.

alex115

Цитата: beesyst от 08-12-2016, 15:18:44
1. Просьба объяснить, зачем указывать каждого бота, когда, по идее, можно указать:

User-agent: *

Единственное объяснение, зачем нужен блок "User-agent: Yandex" - это то, что директиву Host могут понимать не все роботы. Эксперименты показали, что если правила для всех роботов одинаковы, то сайт великолепно себя чувствует с одним блоком "User-agent: *".

Цитата: beesyst от 08-12-2016, 15:18:44
2. Можете точно указать по поводу host, если https:

Host: www.example.com (у меня так указано)
Host: https://www.example.com/
Host: https://www.example.com

У Яндекса написано (https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml#host ), что директива должны быть такая:
Host: https://www.example.com

Дополнительно можете посмотреть https://devaka.ru/articles/moving-to-https Раздел 3.

Цитата: beesyst от 08-12-2016, 15:18:44
3. Зачем указывать:

Crawl-delay: 4

Crawl-delay обычно используют, если сервер перегружен. Тогда можно установить задержку, через сколько секунд грузить следующую страницу.

Цитата: beesyst от 08-12-2016, 15:18:44
4. Нужно ли указывать Sitemap? Если да, то как?


Sitemap нужно указывать, причем всегда с укзазанием протокола (не важно http или https). Смотрите здесь: https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml#sitemap
Оптимизация и поисковое продвижение
http://alexandrov.by
  •  



ClubTravels

#18
Цитата: Владимир75 от 02-12-2016, 12:44:15
   Непосредственно ошибки

Url в директиве Host
Следует писать без аббревиатуры протокола передачи гипертекста, то есть без http:// и без закрывающего слеша /
Неправильно:
User-agent: Yandex
Disallow: /cgi-bin
Host: http://www.site.ru/
Правильно:
User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru
Директива host Является корректной только для робота Яндекса

Т.е. вот так неправильно?
User-agent: *
---
---
Host: https://club-travels.ru

У меня https - основной, а http и www - зеркала

  •  


alex115

Цитата: ClubTravels от 09-12-2016, 08:52:24
Т.е. вот так неправильно?
User-agent: *
---
---
Host: https://club-travels.ru

У меня https - основной, а http и www - зеркала


У Яндекса написано, что протокол в директиве Host указывается только в том случае, если сайт работает по https. Так что все правильно.
Оптимизация и поисковое продвижение
http://alexandrov.by
  •