Вопрос к гуру по поводу индексации картинок в ВП

Автор art_gud, 30-10-2013, 02:55:23

« назад - далее »

art_gudTopic starter

Добрый день. Продолжаю оптимизировать блог therumdiary.ru. Посещалка уже выросла почти в 2 раза, за что спасибо этому замечательному форуму. Но сегодня обнаружил серьезное упущение: в индексе ни Яши ни Гугла нет картинок с блога. Как оказалось, они все были закрыты от индексации в robots.txt. Картинки были загружены, что вполне логично, в папку http://therumdiary.ru/wp-content/uploads/. Я удалил строку, которая это делала. Теперь жду.
Правильно ли я сделал, что разрешил индексацию папки uploads, там же хранятся всевозможные размеры картинок, включая миниатюры и т.д ? Может ест другой способ решения этой проблемы? И еще, я привык при добавлении картинок в редакторе удалять на них ссылку, то есть картинки у меня на блоге преимущественно не активные. Влияет ли это каким то образом на их выдачу в поиске? Буду очень признателен за ответ и больше не потревожу  :)

Добавлено: 30-10-2013, 02:56:30


Цитата: art_gud от 30-10-2013, 02:55:23И еще, я привык при добавлении картинок в редакторе удалять на них ссылку, то есть картинки у меня на блоге преимущественно не активные

то есть не кликабельные


NetEnt

Добрый день. Я не претендую на роль гуру, конечно. Насколько я знаю после того, как Вы разрешили роботу индексировать картинки, он их затянет в свой каталог картинок согласно title указанный при размещении, при следующем проходе бота.
Покупаю ссылки азартной тематики на bestnetentcasino.info
  •  


Cyrus

art_gud, а все картинки всех размеров кучей там лежат? может они по папкам там как-то? тогда имеет смысл оставить закрытой папку uploads и открыть более глубокую папку (с нужными картинками) с помощью Allow: /wp-content/uploads/какая-то папка.
  •  

art_gudTopic starter

Цитата: Cyrus от 30-10-2013, 10:05:28art_gud, а все картинки всех размеров кучей там лежат? может они по папкам там как-то? тогда имеет смысл оставить закрытой папку uploads и открыть более глубокую папку (с нужными картинками) с помощью Allow: /wp-content/uploads/какая-то папка.

К сожалению, структура там другая: uploads/год/месяц/картинки за весь месяц всех размеров
Уважаемый Cyrus, я знаю, что вы неплохо разбираетесь в robots.txt. можете глянуть на мой =) Дело в том, что Гугл индексирует намного больше, чем Яндекс, получается много соплей. В основном это страницы пагинации. Как все это дело запретить? Буду вам очень благодарен.

Cyrus

#4
art_gud,
- Ну небольшая кучка страниц в выдаче гугла с /category/ и идет редирект на нужное, я так понимаю раньше было дублем, теперь закрыли это редиректом, значит со временем отвалятся или можно в вебмастере руками убрать эти урлы.
- Пагинация идет с /page/ - её и запрещайте Disallow: /page/, но тогда надо хорошо sitemap сделать, со всеми страницами и материалами, мешать индексации это вроде не должно, но я бы подстрaховался с помощью sitemap, чтобы материал лучше индексировался.
- У вас не выдается ответ сервера 404 для 404 страницы, по мнению поисковиков страница существует и может попасть в выдачу. Надо настроить ответ сервера 404 для несуществующих страниц (http://therumdiary.ru/qwerty).
- Не нашел на сайте ни /vote/, ни /navigator/, тогда они не нужны в robots.txt, если их нет.
- В самом robots.txt есть правила, которые дублируют друг друга это feed в основном, можно сделать его короче:
[spoiler]
User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback/
Disallow: /page/
Disallow: /tag/
Disallow: /*feed
Disallow: /*?
Host: therumdiary.ru

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /xmlrpc.php
Disallow: /wp-content/themes
Disallow: /trackback/
Disallow: /page/
Disallow: /tag/
Disallow: /*feed
Disallow: /*?

Sitemap: http://therumdiary.ru/sitemap.xml.gz
Sitemap: http://therumdiary.ru/sitemap.xml
[/spoiler]
И так, до кучи)
- Уберите шортлинки (http://therumdiary.ru/?p=187) с сайта, все равно у вас редирект на нормальный адрес с них стоит, толку то от них, лишние редиректы на сайте только.
- У вас иногда колонки съезжают в разные места (http://therumdiary.ru/napitki/alkogolnye-krepkie/tekila-eto-meksika-chto-takoe-tekila-i-istoriya-ee-proisxozhdeniya.html), надо бы исправить, в хроме только вниз свалилась правая колонка, в лисе её ещё и растянуло в разные стороны)
  •  


art_gudTopic starter

#5
Cyrus, спасибо огромное. Вы однозначно один из самых полезных специалистов на этом форуме (другие без обид =)).

Цитата: Cyrus от 30-10-2013, 14:03:33У вас иногда колонки съезжают в разные места

Бала ошибка из-за плагина, исправил, спасибо =)

Цитата: Cyrus от 30-10-2013, 14:03:33Пагинация идет с /page/ - её и запрещайте Disallow: /page/, но тогда надо хорошо sitemap сделать, со всеми страницами и материалами, мешать индексации это вроде не должно, но я бы подстрaховался с помощью sitemap, чтобы материал лучше индексировался.

sitemap генерируется автоматически плагином. есть отдельная страница под содержание, в верхнем правом углу. это имеется в виду? Или xml siemap для поисковиков.

Цитата: Cyrus от 30-10-2013, 14:03:33Уберите шортлинки (http://therumdiary.ru/?p=187) с сайта, все равно у вас редирект на нормальный адрес с них стоит, толку то от них, лишние редиректы на сайте только.

с линками тоже не понятно, вроде ж ЧПУ прописаны. откуда они могут браться?

Цитата: Cyrus от 30-10-2013, 14:03:33В самом robots.txt есть правила, которые дублируют друг друга это feed в основном, можно сделать его короче:

Анализировал роботсы с разных авторитетных ресурсов. Мой был полностью скопирован с блогка Дмитрия, автора Ктонановенького. У него своеобразное представление о многих вещах, но блог у него авторитетный и ровняться во многом стоит. А вот у Вовки еще больше роботс, там еще есть отдельная таблица для Гугла. Нужно ли ее делать или только Яндекс требует к себе такого пристального внимания? ))

Обещаю, это последние вопросы по моему ресурсу =)


Добавлено: 31-10-2013, 00:46:44


Цитата: Cyrus от 30-10-2013, 14:03:33- У вас не выдается ответ сервера 404 для 404 страницы, по мнению поисковиков страница существует и может попасть в выдачу. Надо настроить ответ сервера 404 для несуществующих страниц (http://therumdiary.ru/qwerty).

Беда сама не ходит =) Потратил 4 часа так ни чего и не смог решить. Выставляю ответ сервера в .htaccess такого вида ErrorDocument 404 http://сайт.ру/полный адрес до файла 404.php, при этом  пробовал и просто http://сайт.ру/404.php и вообще всевозможные варианты. Ни чего не работает - просто показывает пустую страницу. При этом, по-моему, мешает как раз сам файл 404.php, который я поместил в папку с темой. Что с этим делать, не знаю. Если есть кто сведущий, буду очень благодарен за помощь. В выдаче естественно одно и то же.

Добавлено: 31-10-2013, 01:01:38


Ах, да. В .htaccess прописано следующее:
# BEGIN WordPress
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
RewriteRule ^index\.php$ - [L]
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule . /index.php [L]
</IfModule>
# END WordPress

Насколько знаю, этот кусок кода влияет на ответ сервера. Собственно, это единственное, что у меня написано в этом файле - как обезьяна увидел, что это все рекомендуют и вставил, не разобравшись. Еще и тема у меня оказалась без 404 страницы, что весьма печально. Когда выдает 404 ошибку, у меня просто появляется запись, прописанная в следующем коде:
<div class="single_post">
<div style="font-size:22px; font-weight:normal; font-family:calibri; margin-bottom:10px;">Не найдено</div>
<p>Извините, но по вашему запросу ни чего не найдено.</p>
</div>

telexs

Шара на форекс
  •  

Cyrus

#7
art_gud,
1. Html карта - это для пользователей, а xml карта для поисковиков, лучше чтобы xml карта была пополнее, со всеми категориями и подкатегориями и конечными материалами, а вот html карта может быть просто на все разделы, без углубления, тем более рекомендуется не больше 250 ссылок из неё, иначе нужно 2-ую часть тогда делать, 2-ую страницу.
2. Шортлинки в исходном коде прописаны, значит берутся из самого движка, там и нужно смотреть и выключать эту функцию. В коде имеют такой вид, например, <link rel='shortlink' href='http://therumdiary.ru/?p=1357' />.
3. Я обычно в robots.txt выделяю только отдельно Яндекс, а для Гугла общие правила как и для остальных поисковиков (User-agent: *), так как Host: - это его фишка и гугл раньше мог не понимать её, сейчас, скорее всего, все всё понимают, но немного подстрaховаться всё же будет не лишним. Много правил в robots.txt не страшно и если одни дублируются другими тоже не ошибка, там хоть для каждой страницы правила прописывать отдельно можно, просто хочется чтобы он был чистый и красивый и если кто знающий и дотошный пришел, было некчему привязаться. Особенно это важно, на мой взгляд, для всяких сеошных блогов и сайтов компаний, как можно продавать услуги и давать своё мнение, если ты не следуешь правилам на своем же сайте, это как с гнилыми зубами рассказывать как важно чистить зубы и что ты знаешь в этом толк.
4. Насчет 404 ошибки не особо подскажу, может поможет что-то вроде этого - http://fairheart.ru/wordpress/osnovy-sozdaniya-bloga/sozdanie-stranicy-oshibki-404-dlya-wordpress-otslezhivanie-bityx-ssylok-na-stranicax-bloga-plagin-broken-link-checker.html, ну или погуглить вида "настроить 404 на wordpress".

telexs, сама страничка - да, от неё нужно, чтобы она давала понять пользователю что произошла ошибка и материала тут нет или ссылка не верная и позволяла вернуться "на предыдущую", в поиск или на главную, ну и быть оформлена в стиле сайта, а не отдельная белая страница с ошибкой и невозможностью совершить какие-либо действия кроме как или закрыть её в браузере или там же нажать "назад" (кстати, "назад" не факт что нажмут). Вам же не нужно повышать процент отказов на сайте и чтобы пользователя уходили от вас? Думаю нет.

А ответ сервера правильный нужен поисковым системам, для того чтобы не индексировать эти страницы и вам, точно для того же, так как роботы на вашем сайте сидеть до посинения не будут, пока не проиндексируют все все страницы, потыкаются, посмотрят что у вас пустые однотипные страницы (если куча 404 страниц с ответом 200ОК) и уйдут, вам же это не выгодно, правильно?

http://www.megaindex.tv/programs/praktika_seo/poiskovye_operatory_yandeksa_i_google/ - во 2-ой или 3-ей части рассказывают про 404 ошибку. В индексе яндекса находится около 1000 страниц 404 ошибки (как я из видео помню, может немного и по другому), это конечно не много, если учесть весь объем сайтов и страниц, но вы же не хотите чтобы с вашего сайта страница 404 стала 1001 в выдаче и висела там?)
  •  


art_gudTopic starter



Драйвер

Яша долго индексирует картинки, апы редко бывают, так что появятся в поиске они скорее всего не скоро.
  •