Часто задаваемые вопросы по индексации страниц сайта (FAQ по индексации)

Автор STRIJ, 01-12-2010, 21:44:18

« назад - далее »

STRIJTopic starter

В связи с большим количеством вопросов по индексации, решил создать FAQ – вопросы и ответы, надеюсь, он будет полезен тем, кто собирается задать свой вопрос. В этом ФАКе рассматриваем индексацию двух наиболее популярных систем – google и yandex

Что такое индексация?

Индексация - это обход поисковыми роботами  интернет страниц и добавление их (страниц) в свою базу для последующей обработки, систематизации и вывода в результатах поиска.

Каков механизм индексации?

Механизм прост. Поисковой робот находит ссылку на ваш сайт, или на отдельную страницу, в интернете. Переходит по этой ссылки и начинает загружать страницы себе в базу. Робот будет переходить по ссылкам на вашем сайте и таким образом обойдет их все. Если страница или целый сайт недоступен, робот не будет задерживаться и пойдет дальше.    


Как добавить мой сайт на индексацию?

Для индексации сайта, достаточно разместить ссылку на ваш сайт на уже проиндексированном ресурсе. Но, стоит добавить сайт, непосредственно в аддурилки (панель добавления новых сайтов) поисковых систем -

http://webmaster.yandex.ru/addurl.xml

http://www.google.ru/addurl/?continue=/addurl


Что такое робот поисковой системы?

Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса.
Какие бывают индексирующие роботы

В Яндексе есть несколько видов роботов, которые выполняют разные функции. Например, есть робот, который индексирует rss-ленту для поиска по блогам. Или робот, который индексирует только картинки. Самый важный — основной индексирующий робот, функция которого — поиск и индексирование информации для формирования базы основного поиска.

В помощь основному есть быстрый робот — он предназначен для оперативного индексирования свежей, актуальной на данный момент информации. Если среди проиндексированных страниц своего сайта вы видите две копии какого-либо документа — скорее всего это означает, что помимо основного робота документ также был проиндексирован и быстрым роботом.

Взято из хелпа яндекса
- http://help.yandex.ru/webmaster/?id=995324

С более полным списком роботов ПС и тем, как они представляются в логах можно ознакомиться тут - http://www.tengy.ru/bot.html

Каково среднее время индексации сайта?

Время индексации сайта может варьироваться от нескольких часов, до нескольких недель и даже месяцев, тут все зависит от вас и вашего ресурса.


Как ускорить процесс индексации?

Для ускорения процесса индексации, нужно добавить свои ссылки в социальные закладки, которые любят ПС (поисковые системы) Приведу несколько наиболее любимых закладок у ПС:

http://memori.ru/
http://zakladki.yandex.ru/
http://bobrdobr.ru/
https://www.google.com/bookmarks/
http://www.delicious.com/

Другие закладки, можно посмотреть, например, ТУТ

 
Так же добавьте свой сайт в панели веб мастера ПС

http://webmaster.yandex.ru/
http://www.google.ru/webmasters/

Позже они вам пригодятся не только для индексации, но и для анализа.

Влияет ли качество хостинга на скорость индексации?

Да влияет, если ваш хостинг работает с перебоями и ваш сайт часто не работает, либо имеет длительное время отклика, то роботы ПС не смогу проиндексировать ваш сайт во время его недоступности. А это увеличивает время индексации сайта. Будьте внимательны и следите за постоянной доступностью сайта, ведь неизвестно, когда к вам заглянет робот.


Влияет ли имя домена на качество индексации?


Вопрос спoрный, но лучше не извращаться и присваивать своим сайтам понятные и не сильно длинные имена.

Что такое Ап выдачи или когда ждать результатов индексации?

Ап - апгрейд, это обновление чего либо, в данном случае – это обновление результатов выдачи. После обработки загруженных роботом страниц при индексации, они появляются в поиске. Так вот, при каждом апе происходит обновления списка поисковой выдачи, списка ранжирования сайтов. У Яндекса такой ап происходит в определенные дни 1-2 раза в неделю. А другие дни поиск не обновляется. У гугла наоборот, ап происходит постоянно и в любое время ваши страницы могут быть проиндексированы и добавлены в поиск.


Что такое ЧПУ?

ЧеловекоПонятный урл, то есть ссылки вида - http://www.sbup.com/seo-forum/indeksaciya_saita/  - удобные для восприятия человеком. Эти ссылки помогают сайтам занимать более высокие места в поисковой выдачи, за счет дополнительного ключа в адресе страницы.


Страницы были проиндексированы, но я поменял контент и дизайн?

Ничего страшного, со временем, все страницы в поиске обновятся на новые, но у яндекса это может затянуться на несколько месяцев, с гуглом должно быть быстрее.


Почему поисковые системы не индексируют страницы сайта?

Тут несколько вариантов:

Flash и Java ссылки
Запрет в Robots.txt
Слишком большое количество ссылок на странице
Бан сайта поисковыми системами
Запрет в мета-тегах
Вход на страницы через заполнение форм
Неуникальный контент



Что такое карта сайта и для чего она нужна?

Карта сайта (Sitemap)это содержание нашего сайта, аналогично содержанию любой книги. В файле карты представлены все раздела и материалы сайта. И служит карта для быстрого и полного индексирования сайта, а так же для удобства навигации пользователей. Для разных CMS (систем управления сайтом) существуют разные карты сайта, например на WordPress существуют специальные плагины для простоты создания.
Подробнее о создании карты -


http://htmlweb.ru/analiz/sitemap.php


Как настроить robots.txt?

Robots.txt специализированный файл, с его помощью мы ограничиваем доступ поисковым роботам к тому или другому разделу сайта. Любой поисковой робот сначала прочитает Robots.txt, а только потом  начнет индексировать страницы сайта.
Так же с помощью файла robots.txt  можно ограничить индексацию сайта, однако некоторые недобросовестные боты могут игнорировать наличие этого файла.
Тема довольно обширная, поэтому более подробно о robots.txt советую прочесть по этим ссылкам –


http://ktonanovenkogo.ru/seo/uluchshaem-indeksaciyu-sajta-poiskovikami-robots-txt-dlya-joomla-smf-wordpress-chast-2.html

http://www.stasv.ru/articles/robotstxt/


Как узнать когда был поисковой робот на моем сайте?

Можно посмотреть логи, если робот был на сайте, там это будет зафиксировано, как представляются роботы ПС смотрите тут - http://www.tengy.ru/bot.html

А можно пойти, на мой взгляд, по более простому пути, а именно, добавить свой сайт в панель вебмастера ПС

http://webmaster.yandex.ru/
http://www.google.ru/webmasters/


Что такое ранжирование?

Это процесс выстраивания найденных по запросу пользователя страниц в порядке наибольшего соответствия искомому запросу.



Как попасть в топ по поисковой выдаче?

Очень обширный вопрос, это исследует и изучает такое понятие как SEO. Ответ на этот вопрос – это комплекс мероприятий направленных на поисковую оптимизацию. На это влияет большой ряд факторов. Этому посвящено множество тем на этом форуме.


Что такое бан и за что его можно получить?

Своими словами на этот вопрос ответить не получится, потому как ПС банят за определенные провинности и для раскрытия этого вопроса обратимся к статье взятой из блога http://www.cavablog.pp.ua/seo/ban-sajta-ot-yandeksa-i-google/

Бан сайта выброс сайта из индекса поисковой системы и невозможность добавления сайта в индекс ПС.
Давайте разберемся, с помощью, каких действий можно попасть в бан.
Я собрал "данные правила" в виде тезисов.

За что можно получить бан от Яндекса

1.Клоакинг (подмена содержимого сайта при обращении к ней ПС и пользователя);
2.Высокая плотность ключевых слов (больше чем 7%);
3.Большое количество исходящих ссылок;
4.Низкий процент уникальности контента на сайте;
5.Бессмысленый текст (генерируется в автоматическом режиме);
6.Скрытый текст (текст, который совпадает с цветом фона);
7.Большое количество рекламы;
8.Участие сайта в линкфарме;
Выше были приведены основные правила, по которым происходит бан сайта от Яндекса.

За что можно получить бан от Google

1.Чужой контент;
2.Скрытый текст (белый текст на белом фоне довольно популярное явление);
3.Частое использование ключевиков;
4.Участие в линкфарме;
5.Клоакинг;
6.Исходящие ссылки в большом количестве;
7.Распостранение вирусов с вашего домена;
8.Спам с домена;
Только что привел основные "правила", следуя которым можно получить бан сайта от яндекса и google.
Разделение на бан от яндекса и google очень условное.
Вы ж понимаете, что это два топовых поисковика в RUS и UA.


Примечание*
Линкфармы – сайты или группы сайтов, интенсивно ссылающиеся друг на друга



Что такое фильтры и какими они бывают?

Фильтры это определенные алгоритмы, которые направлены на удаление из поиска ненужных страниц, хлама. Фильтром достаточно много, каждый я тут описывать не буду, а приведу лишь их названия, а описания уже прочтете по ссылкам.



Фильтры Яндекса:

Непот-фильтр
Редирект фильтр
Фильтр плотности ключевых слов
Фильтр «Ты последний»
АГС-30 и АГС-17
Аффилирование


Фильтры Google:

"Песочница" (sandbox)
Фильтр "Дополнительные результаты"
Фильтр Bombing
Фильтр Bowling
Фильтр "Возраст домена"
Фильтр "Дублирующийся контент"
Фильтр -30
Фильтр "Опущенные результаты"
Фильтр "Социтирование"
Фильтр "Links"
Фильтр "Много ссылок сразу"
Фильтр "Чрезмерная оптимизация"
Фильтр "Битые ссылки"
Общий фильтр "Степень доверия" (Google Trust Rank)


Подробно о фильтрaх можно прочесть тут -

http://tytto.ru/Ссылки/2009-09-24-07-55-43.html
http://dlepro.com/310-filtry-ps-yandeks-i-google.html

Так же занимательный видео семинар по фильтрам -

http://rutube.ru/tracks/2573947.html?v=da0c25e363a81642bfeb53b3082aefa5

Что делать если ничего не помогает и мой сайт не индексируется яндексом?

Если вы все перепробовали и прошло уже достаточно времени, а ваш сайт так и не появился в поисковой выдаче Яндекса, остается одно – писать письмо Платону Щукину - http://feedback.yandex.ru/?from=webmaster Подробно опишите суть вашей проблемы и вам в скором времени ответят и расскажут ваши дальнейшие действия.

Кто такой Платон Щукин?

Это очень хороший вопрос и конкретного ответа на него нет, многие считают что это команда саппорта яндекса, кто-то говорит, что это один человек. Прочтите вот эту статью - http://www.terehoff.com/platot-schukin-living-person.html может что-то проясниться для вас.

Чем страшны дубли страниц?

Из книги «Продвижение сайта в поисковых системах» (И.Ашманов, А.Иванов)

Еще одной проблемой для крупных сайтов могут стать дубликаты страниц. После того как на сайте была изменена адресация страниц, может возникнуть ситуация, когда для каждой страницы сайта существует еще несколько ее копий. Приведем в качестве примера несколько адресов, которые для робота будут разными страницами, но на самом деле ведут на одну и ту же страницу (предположим, что на сайте были введены псевдостатические адреса):
•   www.site.ru/script.php?page=service&mode=show
•   vww.site.ru/service/
•   www.site.ru/service.html
•   www.site.ru/service.htm
Если на этом сайте, к примеру, было 1000 страниц, то поисковая система получит 4000 ссылок, а позже вынуждена будет выбирать из четырех копий наиболее релевантную страницу на сайте. Чтобы этого не случилось, нужно проверять страницы сайта и исключать ситуации, когда по нескольким разным адресам находятся совершенно одинаковые страницы.
Отдельно следует отметить механизм Яндекса по удалению дубликатов: когда количество одинаковых страниц сайта достигает определенного порога, запускается специальная программа, которая удаляет лишние страницы из индекса поисковой системы. Иногда после такой процедуры в индексе просто не остается документов с сайта, и процесс индексации начинается с самого начала.

Какой вид адреса для индексирования поисковиком лучше?

Из книги «Продвижение сайта в поисковых системах» (И.Ашманов, А.Иванов)

Если на сайте адреса страниц приводятся из динамического в псевдостатический вид, то может возникнуть вопрос: какой вид адреса для индексирования поисковиком лучше — с расширением файла (www. site . ru/realty-broker-sarvice.html) или без (www.site.ru/realty-broker-service/). В первом случае все хорошо — робот поисковика сразу принимает с сайта HTML-файл. Во втором случае появляется одна особенность: дело в том, что браузер Internet Explorer, как и робот поисковой системы Yahoo, отбрасывает завершающий слеш в адресе, даже если он явно указан. Поэтому вам нужно будет настраивать обработку адресов в файле .htaccess так, чтобы они создавали еще один ад¬рес страницы — без слеша. Получается, что сервер выполняет двoйную работу. В случае с небольшим или средним по размеру сайтом это не страшно, но если на сайте несколько тысяч страниц, то желательно заранее обдумать вид адресов страниц и избежать лишних нагрузок.


Если вы не нашли в этом сборнике ответ на ваш вопрос, пишите, с удовольствием ответим и добавим его сюда.







Sevab

Отличная тема! :)

По закладкам добавлю:
https://www.google.com/bookmarks/
http://www.delicious.com/

Их очень уважает Гугл, и закладки на этих сайтах значительно ускоряют индексацию именно в этом поисковике.
Этих, плюс приведенных выше, достаточно для быстрой и качественной индексации страниц.


STRIJTopic starter


Sereda_V_V

Спасибо за информацию очень даже пригодиться.
Но у меня возник вопрос:
Прошла первая индексация яндекса - из нее в индекс попало 14 страниц, а в гугле проиндексировано 87 :o
Почему яше что то не нравиться?
Сайт на ВП. Уникальность 100%.
Возможно ли то что он проиндексирует остальные страницы в другой раз? Или он должен индексировать все сразу, и если этого не сделал то что то не правильно сделал я?
Сайт для начинающих вебмастеров:Заработок в интернете все о создании, раскрутке и заработку на сайте.
  •  

Sevab

Яндекс всегда медленнее индексирует. Просто подождите.
Если в течении месяца (двух) не попадут в индекс, тогда можно беспокоится.


ВИЛКА

Приглашаю в ГородМам. www.CityMam.ru
Автоклуб нового KIA RIO www.KiaRio-Club.com
  •  

Генадий

Честно сказать когда решил зайти в тему,то не думал что тут столько вопросов,и еще хуже надо столько читать!Думал будет гораздо меньше если честно! :D
А добавлять ответы с вопросами отдельно или все в месте можно?Тут малость не понял.
  •  

STRIJTopic starter

Цитата: Генадий от 17-12-2010, 15:17:21

А добавлять ответы с вопросами отдельно или все в месте можно?Тут малость не понял.

Добавляйте как вам удобно, если не знаете ответа, то мы ответим и я добавлю в первый пост, или просто отсанется в этой теме, все равно поможет новичку.


gigadim

28 декабря 10года, запустили Яндекс Директ на сайт, в Январе непонятно почему упал ТИЦ и понизили сайт на вылете в Яндексе, 14.01.2011 была переделана структура сайта, соответственно поменялись ссылки, сделал карту залил сюда http://webmaster.yandex.ru и вот что произошло смотрите ниже.
ЦитироватьТИЦ    меньше 10   
Страниц в поиске   30
Внешних ссылок на страницы сайта   176   
Время последнего посещения сайта роботом   18.01.2011   
Загружено роботом   54   
Исключено роботом   21
Путь                   Добавлен      Проверен  Загружен    Файл содержит          Ошибки и замечания      
/sitemap.xml   8.11.2010  20.01.2011 14.01.2011  50 ссылок                нет ошибок нет замечани
Можете пояснить, что произошло с сайтом?
Нужен пингвин, акула, крокодил ? ...да не вопрос, мы  привезем  8)
Заказывать тут!
  •  


STRIJTopic starter

gigadim,

Желательно адрес сайта.  И сколько всего в нем страниц?
Если есть подозрения какие, сразу пишете Платону, не стесняйтесь.