Чек-лист ошибок robots.txt

Автор Тема: Чек-лист ошибок robots.txt  (Прочитано 3818 раз)

Оффлайн Владимир75Автор темы

  • Администратор
  • Бизнес оценка: (4, 100%)
  • *****
  • СПАСИБО: 7268
  • Сообщений: 10743
  • Карма: 651
  • Пол: Мужской
  • Это я такой уже старый
  • Награды Гроссмейстер поисковой оптимизации SEO Профессионал Более трех тысяч спасибо За благотворительность Почетный гражданин нашего форума
    • Оптимизация и Продвижение

Оффлайн Владимир75Автор темы

  • Администратор
  • *****
  • Доп. информация
    • Бизнес оценка: (4, 100%)
    • СПАСИБО: 7268
    • Сообщений: 10743
    • Карма: 651
    • Пол: Мужской
    • Это я такой уже старый
    • Награды Гроссмейстер поисковой оптимизации SEO Профессионал Более трех тысяч спасибо За благотворительность Почетный гражданин нашего форума
      • Оптимизация и Продвижение
Чек-лист ошибок robots.txt
« : 22-06-2015, 17:10:03 »
12

Непосредственно ошибки
Перепутанные инструкции
Одна из самых распространённых ошибок в robots.txt – перепутаные между собой инструкции. Например:


User-agent: /
Disallow: Yandex


Правильно писать вот так:


User-agent: Yandex
Disallow: /


Указание нескольких каталогов в одной инструкции Disallow
Многие владельцы сайтов пытаются поместить все запрещаемые к индексации каталоги в одну инструкцию Disallow.


Disallow: /css/ /cgi-bin/ /images/


Такая запись нарушает стандарт, и невозможно угадать, как ее обработают разные роботы. Некоторые могут «отбросить» пробелы и интерпретируют эту запись как «Disallow: /css/cgi-bin/images/». Некоторые могут использовать только первую или последнюю папки (/css/ или /images/ соответственно). Кто-то может просто отбросить непонятную инструкцию полностью.


Конечно, какие-то роботы могут обработать эту конструкцию именно так, как расчитывал веб-мастер, но расчитывать на это все же не стоит. Правильно надо писать так:


Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/


Имя файла содержит заглавные буквы
Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT.


Использование файла robot.txt вместо robots.txt
Еще раз – файл должен называться robots.txt.


Пустая строка в User-agent
Так неправильно:


User-agent:
Disallow:


Так правильно:


User-agent: *
Disallow:


Url в директиве Host
Следует писать без аббревиатуры протокола передачи гипертекста, то есть без http:// и без закрывающего слеша /


Неправильно:


User-agent: Yandex
Disallow: /cgi-bin
Host: http://www.site.ru/


Правильно:


User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru


Директива host Является корректной только для робота Яндекса


Использование в Disallow символов подстановки
Иногда хочется написать что-то вроде:


User-agent: *
Disallow: file*.html


для указания все файлов file1.html, file2.html, file3.html и т.д. Но нельзя, к сожалению (некоторые роботы поддерживают символы подстановки).


Плохой стиль
Комментарии на одной строке с инструкциями
По стандарту, такая запись вполне возможна:


Disallow: /cgi-bin/ #запрещаем роботам индексировать cgi-bin


В прошлом некоторые роботы не обрабатывали такие строки. Вероятно, сейчас ни у одной из основных поисковых систем уже нет такой проблемы, но стоит ли рисковать? Лучше помещать комментарии отдельно.


Редирект на страницу 404-й ошибки:
Довольно часто, на сайтах без файла robots.txt при запросе этого файла делается переадресация на другую страницу. Иногда такая переадресация происходит без отдачи статуса 404 Not Found. Пауку самому приходится разбираться, что он получил – robots.txt или обычный html-файл. Эта ситуация вряд ли создаст какие-то проблемы, но все-таки лучше всегда класть в корень сайта пустой файл robots.txt.


Заглавные буквы – это плохой стиль
USER-AGENT: GOOGLEBOT
DISALLOW:


Хотя по стандарту robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файов и директорий. Кроме того, написание robots.txt сплошь заглавными буквами считается плохим стилем.


User-agent: googlebot
Disallow:


Перечисление всех файлов
Еще одной ошибкой является перечисление каждого файла в директории:


User-agent: *
Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html


Вместо этого можно просто закрыть от индексации директорию целиком:


User-agent: *
Disallow: /AL/
Disallow: /Az/


Инструкции Allow не существует! [перевод устаревший]
Примечание: Не существовало на момент перевода данного текста, сейчас эта инструкция поддерживаетcя и Гуглом, и Яндексом. Уточняйте по использованию для других роботов.


Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!


Отдельные роботы (например googlebot) понимают директиву Allow


Так неправильно:


User-agent: Yandex
Disallow: /john/
Allow: /jane/


А вот так – правильно:


User-agent: Yandex
Disallow: /john/
Disallow:


Использование дополнительных директив в секции *
Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции «*».
То есть рекомендуется создавать специальные секции для нестандартных директив, таких как «Host».


Так неправильно:


User-agent: *
Disallow: /css/
Host: www.example.com


А вот так – правильно:


User-agent: *
Disallow: /css/


User-agent: Yandex
Disallow: /css/
Host: www.example.com


Отсутствие инструкции Disallow
Даже если мы хотим просто использовать дополнительную директиву и не хотим ничего запрещать, лучше всего указать пустой Disallow. По стандарту интрукция Disallow является обязательной, и робот может «неправильно вас понять».


Так неправильно:


User-agent: Yandex
Host: www.example.com


Так правильно:


User-agent: Yandex
Disallow:
Host: www.example.com




Отсутствие слешей при указании директории
Как в этом случае поступит робот?


User-agent: Yandex
Disallow: john


По стандарту, он не будет индексировать файл с именем “john” и директорию с именем “john”. Для указания только директории надо писать так:


User-agent: Yandex
Disallow: /john/


Неправильный http-заголовок
Сервер должен возвращать в HTTP-заголовке для robots.txt «Content-Type: text/plain» а, например, не «Content-Type: text/html». Неправильный заголовок может привести к тому, что некоторые роботы не обработают файл.
Источник


Оффлайн xwildx

  • Бизнес оценка: (0)
  • Постоялец
  • ***
  • СПАСИБО: 29
  • Сообщений: 144
  • Карма: 5
  • Пол: Мужской
  • Нет ВОЙНЕ!
    • Все о рыбалке.

Оффлайн xwildx

  • Постоялец
  • ***
  • Доп. информация
    • Бизнес оценка: (0)
    • СПАСИБО: 29
    • Сообщений: 144
    • Карма: 5
    • Пол: Мужской
    • Нет ВОЙНЕ!
      • Все о рыбалке.
Re: Чек-лист ошибок robots.txt
« Ответ #1 : 02-07-2015, 05:52:06 »
В дерективе host должен быть указан протокол в случае если используется ssl.
https://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml#host
Рыбалка - Все о рыбалке в России.

Оффлайн MBR

  • Бизнес оценка: (0)
  • Рекрут
  • *
  • СПАСИБО: 0
  • Сообщений: 17
  • Карма: 0

Оффлайн MBR

  • Рекрут
  • *
Re: Чек-лист ошибок robots.txt
« Ответ #2 : 02-07-2015, 12:03:33 »
не всё рассмотрено, что можно записать в роботс

Оффлайн Dogica

  • Бизнес оценка: (0)
  • Ветеран
  • *****
  • СПАСИБО: 441
  • Сообщений: 1314
  • Карма: 36
  • Пол: Мужской
  • www.dogica.com
  • Награды SEO-специалист
    • DOGICA

Оффлайн Dogica

  • Ветеран
  • *****
  • Доп. информация
    • Бизнес оценка: (0)
    • СПАСИБО: 441
    • Сообщений: 1314
    • Карма: 36
    • Пол: Мужской
    • www.dogica.com
    • Награды SEO-специалист
      • DOGICA
Re: Чек-лист ошибок robots.txt
« Ответ #3 : 02-07-2015, 14:55:08 »
очень полезный материал
спасибо вам!
DOGICA® 3D World of Dog & Puppy
HTTP://WWW.DOGICA.COM  ;)

Оффлайн Владимир75Автор темы

  • Администратор
  • Бизнес оценка: (4, 100%)
  • *****
  • СПАСИБО: 7268
  • Сообщений: 10743
  • Карма: 651
  • Пол: Мужской
  • Это я такой уже старый
  • Награды Гроссмейстер поисковой оптимизации SEO Профессионал Более трех тысяч спасибо За благотворительность Почетный гражданин нашего форума
    • Оптимизация и Продвижение

Оффлайн Владимир75Автор темы

  • Администратор
  • *****
  • Доп. информация
    • Бизнес оценка: (4, 100%)
    • СПАСИБО: 7268
    • Сообщений: 10743
    • Карма: 651
    • Пол: Мужской
    • Это я такой уже старый
    • Награды Гроссмейстер поисковой оптимизации SEO Профессионал Более трех тысяч спасибо За благотворительность Почетный гражданин нашего форума
      • Оптимизация и Продвижение
Re: Чек-лист ошибок robots.txt
« Ответ #4 : 02-07-2015, 14:57:38 »
не всё рассмотрено, что можно записать в роботс
Ну так дополняйте, на то и форум.


Оффлайн Русская-Майолика

  • Бизнес оценка: (1, 100%)
  • КМС
  • *****
  • СПАСИБО: 640
  • Сообщений: 1679
  • Карма: 162
  • Пол: Женский
  • Меня зовут Юлия
  • Награды КМС поисковой оптимизации SEO-специалист продвинутого уровня SEO-специалист
    • Русская майолика - керамика ручной работы
  • Доп. информация
    • Бизнес оценка: (1, 100%)
    • СПАСИБО: 640
    • Сообщений: 1679
    • Карма: 162
    • Пол: Женский
    • Меня зовут Юлия
    • Награды КМС поисковой оптимизации SEO-специалист продвинутого уровня SEO-специалист
      • Русская майолика - керамика ручной работы
Re: Чек-лист ошибок robots.txt
« Ответ #5 : 28-07-2015, 04:26:49 »
Ну так дополняйте, на то и форум.

Владимир, cкажите, пожалуйста, могу я прописать в роботсе следующее указание:
Disallow:/*?  или правильнее будет Disallow: *?
чтобы закрыть от индексирования бесчисленно генерируемые дубли, например, такого вида:
www.site.ru/category/figures/?sort=name&dir=asc

Или это вообще не годится и надо что-то другое писать?
Всю голову сломала, как мне убрать эти дубли....???

Спасибо заранее.


Оффлайн Krokodilchik

  • Бизнес оценка: (1, 100%)
  • Постоялец
  • ***
  • СПАСИБО: 54
  • Сообщений: 191
  • Карма: 5
    • Информационный портал о натяжных потолках

Оффлайн Krokodilchik

  • Постоялец
  • ***
Re: Чек-лист ошибок robots.txt
« Ответ #6 : 28-07-2015, 06:58:03 »
Disallow: /*?
закрывает все ссылки содержащие знак вопроса.

Оффлайн alexburn

  • Бизнес оценка: (1, 100%)
  • КМС
  • *****
  • СПАСИБО: 1058
  • Сообщений: 3388
  • Карма: 72
  • Пол: Мужской
  • Нужна прога для компа?
    • Прикладные программы на заказ

Оффлайн alexburn

  • КМС
  • *****
  • Доп. информация
    • Бизнес оценка: (1, 100%)
    • СПАСИБО: 1058
    • Сообщений: 3388
    • Карма: 72
    • Пол: Мужской
    • Нужна прога для компа?
      • Прикладные программы на заказ
Re: Чек-лист ошибок robots.txt
« Ответ #7 : 28-07-2015, 09:40:24 »
Приветствую. Не могли бы помочь с настройкой файла.
В файле прописываю такую констуркцию: Dissalow: /tag/*, но один фиг, поисковики индексируют такие страницы :(, пните пожалуйста в нужном направлении :(


 

Похожие темы

  Тема / Автор Ответов Последний ответ
29 Ответов
6133 Просмотров
Последний ответ 24-01-2013, 11:56:58
от Andrew_L
0 Ответов
1496 Просмотров
Последний ответ 01-10-2011, 11:02:19
от mixa33rus
1 Ответов
1455 Просмотров
Последний ответ 11-01-2013, 01:56:04
от Mankevich
1 Ответов
4623 Просмотров
Последний ответ 04-03-2014, 05:00:05
от rikitiki
1 Ответов
592 Просмотров
Последний ответ 15-12-2019, 16:38:05
от Карина.