При обращении к странице роботу не удалось получить её содержимое - уже достало!

Автор StanStella, 11-03-2019, 11:36:51

« назад - далее »

StanStellaTopic starter

Привет всем! :)
Подскажите пожалуйста! Уже невозможно так жить! Это у Яндекса бывало и ранее, но в последнее время просто жесть! Каждый день страницы выпадают из индекса по причине
Цитировать"Не удалось скачать страницу. при обращении к странице роботу не удалось получить её содержимое. Проверьте ответ сервера и отсутствие запрещающих HTML-тегов."
Проверяю - есть ответ, 200 ОК! Отправляю на переобход - обходит, возвращает в индекс! На завтра - другие выпадают по этой ошибке! :o
Утро начинается с анализа Вебмастера и ручной отправки выпавших страниц на переобход - это капец уже! :o

Хостер мне ответил так:
Цитировать"По поводу недоступности страниц, на тот момент для Вашего сайта была включена фильтрация из-за атаки на него."
Прав ли он?

И какое вообще основание у Яндекса для МОМЕНТАЛЬНОГО исключения страниц из индекса? Наконец почему я не вижу таких ошибок, например, в Вебмастере Google, равно как ни разу не видел в нем ошибки "Долгий ответ сервера. При обращении к страницам сайта среднее время ответа сервера превышает 3 секунды.", которая тоже время от времени появляется в ЯндексВебмастере?

Короч, написал платонам - ответ как всегда
ЦитироватьПришлите, пожалуйста, 2-3 примера таких исключенных страниц. Это поможет изучить ситуацию с их индексированием более подробно и сообщить больше информации по вопросу.
Мне все УРЛы сайта присылать? ;D
  •  


Северянин

  •  


StanStellaTopic starter

Цитата: Северянин от 12-03-2019, 15:52:00
Чего за хостер-то? Родина должна знать своих героев.
А что хостер? Я причину хочу понять, почему это происходит.

Добавлено: 14-03-2019, 09:39:05


В общем мне Платоны ответили еще так:
Цитировать"Ситуация связана с тем, что ранее данные страницы отвечали на запросы робота следующим сообщением:
<html><body><script>document.cookie="bpc=b2d2efec1bb89dc4bb3a5a77d31eb1c6;Path=/";document.location.href="https://site.ru/novosty/?attempt=1";</script></body></html>

Так как в контенте страниц не было никакого текстового содержимого, которое робот мог бы загрузить в результаты поиска, страницы были исключены из выдачи. Для выяснения причин появления проблемы вы можете обратиться к администратору сервера, на котором расположен сайт, либо вашему хостинг-провайдеру. Проблема возникала, например, при обращении робота к странице https://site.ru/novosty/ 2019-03-07 в 17:53:29. Чтобы страницы могли корректно индексироваться, рекомендуем убедиться, что они постоянно доступны и отдают актуальный контент.

Если страницы будут недоступны из поиска, то они действительно будут исключаться из выдачи, какой-либо ошибки в этом нет. В случае кратковременной недоступности страниц мы рекомендуем настраивать http-код ответа 503 со страниц. Именно такой код ответа может помочь избежать исключения ссылок, если они будут недоступны недолгое время.

Хостер же на мой вопрос "что происходит?" упoрно отвечает
ЦитироватьНа тот момент для Вашего сайта была включена фильтрация на уровне сервера из-за атаки Ваш сайт. Сейчас фильтрации уже нет.
Вроде нормальный ответ... Что вроде странного, что сайт атакуют...
Что касается указанного выше кода <body><script>document.cookie.. - то это, как я понимаю, всего лишь всему JavaScript код для установки куки? Что в этом такого?

Почему в ГуглеВебмастере таких ошибок нет? - вот главный вопрос!
  •  

alexakap

Цитата: StanStella от 14-03-2019, 09:29:56Я причину хочу понять, почему это происходит.
Хотите знать причину, анализируйте как минимум логи доступа и ошибок сервера. Ваш сайт скорее всего не фейсбук, чтобы вас досили и чтобы хостер включал некие фильтрации от непонятных атак. Далеко не фейсбук, если хостер так говорит и вы, понятно, не знаете что происходит на сервере. В остальном, остается только голову к решению вопроса приложить
  •  

StanStellaTopic starter

Цитата: alexakap от 14-03-2019, 23:00:20
Хотите знать причину, анализируйте как минимум логи доступа и ошибок сервера. Ваш сайт скорее всего не фейсбук, чтобы вас досили и чтобы хостер включал некие фильтрации от непонятных атак. Далеко не фейсбук, если хостер так говорит и вы, понятно, не знаете что происходит на сервере.

Согласен с Вами. Не Фейсбук, да. И странно, что хостер ссылается на какие то фильтрации. Я спрашивал его, где мол, узнать инфу - он да, сказал, только в error logs. Но для меня там темный лес - вернее не совсем темный. но в глазах рябит изрядно. :)

Я почему выделил https жирным в
<html><body><script>document.cookie="bpc=b2d2efec1bb89dc4bb3a5a77d31eb1c6;Path=/";document.location.href="https://site.ru/novosty/?attempt=1";</script></body></html>
А потому что 1 марта делал попытку перейти на https - но все закончилось обломом - часть сайта поломалась, вернее именно посты и статич.страницы были недоступны, потому что браузеры выдавали такое
Цитировать"На этой странице обнаружена циклическая переадресация" или ERR_TOO_MANY_REDIRECTS
Это сообщение означает, что зафиксировано слишком много попыток перенаправить вас на другой адрес.
Ошибка может быть связана с файлами cookie. Чтобы устранить проблему, удалите их.
Вот! Поэтому я вернул все обратно - но именно после этого отката и началась эта котовасия, ежедневная канитель! (хотя такая ошибка возникала и ранее - но все же достаточно редко...)
И вот все же, что это за проблема с куки - скрипт этот, и что это в УРЛЕ за attempt такой? - вроде как браузер пытается страницу получить, но не может?
И я же, как обычный юзер, свой сайт вижу - верно? И другие люди видят. А вот Яндексбот ругается...
  •  


alexakap

Чтот дофига вы всего понаписали. Понятно, каша в голове. Если по порядку
1. Циклическая переадресация - он же циклический редирект. Возникает чаще всего из-за неправильной настройки редиректа в htaccess, других причин давно не встречал
2. При переезде на https может возникать высокая нагрузка на хост от поисковиков, тем более, если сайт большой. Но я так понимаю, у вас от логов в глазах рябит, здесь помочь не могу
  •  

StanStellaTopic starter

Цитата: alexakap от 15-03-2019, 22:05:23
Но я так понимаю, у вас от логов в глазах рябит, здесь помочь не могу
Конеч рябит - потому что строк много и все однообразные. ;D
А и не нужно там много чего смотреть, потому что все написано уже ранее. Страницы выдают
<html><body><script>document.cookie="bpc=b2d2efec1bb89dc4bb3a5a77d31eb1c6;Path=/";document.location.href="https://site.ru/novosty/?attempt=1";</script></body></html>
Это тесткуки пашут на сервере, защищая от ДоС. По поводу чего хостер мне сказал
ЦитироватьКогда включена фильтрация, идет проверка соединения по специальной куке.
Но
У нас для поисковых ботов включено исключение по их IP-адресам, и они не испытывают проблем с доступом.
Ага! Я им тогда - а что ж тогда яндексбот достучаться не может. На что ответили
ЦитироватьВозможно у поисковых ботов Яндекса сменились IP-адреса.
Они по айпишникам их блокируют!  :)
И еще
ЦитироватьУ Вас в файле .htaccess указаны IP-адреса для запрета им доступа к сайту. Это действия плагина iThemes Security , он автоматически может добавлять IP-адреса и удалять их из списка заблoкированных.
Я отключил этот плагин совсем - нет, все равно та же зараза.
  •