В связи с большим количеством вопросов по индексации, решил создать
FAQ – вопросы и ответы, надеюсь, он будет полезен тем, кто собирается задать свой вопрос. В этом ФАКе рассматриваем индексацию двух наиболее популярных систем –
google и
yandexЧто такое индексация? Индексация - это обход поисковыми роботами интернет страниц и добавление их (страниц) в свою базу для последующей обработки, систематизации и вывода в результатах поиска.Каков механизм индексации? Механизм прост. Поисковой робот находит ссылку на ваш сайт, или на отдельную страницу, в интернете. Переходит по этой ссылки и начинает загружать страницы себе в базу. Робот будет переходить по ссылкам на вашем сайте и таким образом обойдет их все. Если страница или целый сайт недоступен, робот не будет задерживаться и пойдет дальше. Как добавить мой сайт на индексацию?Для индексации сайта, достаточно разместить ссылку на ваш сайт на уже проиндексированном ресурсе. Но, стоит добавить сайт, непосредственно в аддурилки (панель добавления новых сайтов) поисковых систем -
http://webmaster.yandex.ru/addurl.xmlhttp://www.google.ru/addurl/?continue=/addurlЧто такое робот поисковой системы?Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса.
Какие бывают индексирующие роботы
В Яндексе есть несколько видов роботов, которые выполняют разные функции. Например, есть робот, который индексирует rss-ленту для поиска по блогам. Или робот, который индексирует только картинки. Самый важный — основной индексирующий робот, функция которого — поиск и индексирование информации для формирования базы основного поиска.
В помощь основному есть быстрый робот — он предназначен для оперативного индексирования свежей, актуальной на данный момент информации. Если среди проиндексированных страниц своего сайта вы видите две копии какого-либо документа — скорее всего это означает, что помимо основного робота документ также был проиндексирован и быстрым роботом.
Взято из хелпа яндекса -
http://help.yandex.ru/webmaster/?id=995324 С более полным списком роботов ПС и тем, как они представляются в логах можно ознакомиться тут -
http://www.tengy.ru/bot.html Каково среднее время индексации сайта?Время индексации сайта может варьироваться от нескольких часов, до нескольких недель и даже месяцев, тут все зависит от вас и вашего ресурса. Как ускорить процесс индексации?Для ускорения процесса индексации, нужно добавить свои ссылки в социальные закладки, которые любят ПС (поисковые системы) Приведу несколько наиболее любимых закладок у ПС: http://memori.ru/http://zakladki.yandex.ru/http://bobrdobr.ru/https://www.google.com/bookmarks/http://www.delicious.com/Другие закладки, можно посмотреть, например,
ТУТ Так же добавьте свой сайт в панели веб мастера ПСhttp://webmaster.yandex.ru/http://www.google.ru/webmasters/Позже они вам пригодятся не только для индексации, но и для анализа.Влияет ли качество хостинга на скорость индексации?Да влияет, если ваш хостинг работает с перебоями и ваш сайт часто не работает, либо имеет длительное время отклика, то роботы ПС не смогу проиндексировать ваш сайт во время его недоступности. А это увеличивает время индексации сайта. Будьте внимательны и следите за постоянной доступностью сайта, ведь неизвестно, когда к вам заглянет робот.
Влияет ли имя домена на качество индексации?
Вопрос спoрный, но лучше не извращаться и присваивать своим сайтам понятные и не сильно длинные имена.Что такое Ап выдачи или когда ждать результатов индексации?Ап -
апгрейд, это обновление чего либо, в данном случае – это обновление результатов выдачи. После обработки загруженных роботом страниц при индексации, они появляются в поиске. Так вот, при каждом апе происходит обновления списка поисковой выдачи, списка ранжирования сайтов. У Яндекса такой ап происходит в определенные дни 1-2 раза в неделю. А другие дни поиск не обновляется. У гугла наоборот, ап происходит постоянно и в любое время ваши страницы могут быть проиндексированы и добавлены в поиск.
Что такое ЧПУ?ЧеловекоПонятный урл,
то есть ссылки вида - http://www.sbup.com/
seo-forum/indeksaciya_saita/ -
удобные для восприятия человеком. Эти ссылки помогают сайтам занимать более высокие места в поисковой выдачи, за счет дополнительного ключа в адресе страницы.
Страницы были проиндексированы, но я поменял контент и дизайн?Ничего страшного, со временем, все страницы в поиске обновятся на новые, но у яндекса это может затянуться на несколько месяцев, с гуглом должно быть быстрее.
Почему поисковые системы не индексируют страницы сайта?Тут несколько вариантов:Flash и Java ссылки
Запрет в Robots.txt
Слишком большое количество ссылок на странице
Бан сайта поисковыми системами
Запрет в мета-тегах
Вход на страницы через заполнение форм
Неуникальный контент
Что такое карта сайта и для чего она нужна?Карта сайта (Sitemap) –
это содержание нашего сайта, аналогично содержанию любой книги. В файле карты представлены все раздела и материалы сайта. И служит карта для быстрого и полного индексирования сайта, а так же для удобства навигации пользователей. Для разных CMS (систем управления сайтом) существуют разные карты сайта, например на WordPress существуют специальные плагины для простоты создания.
Подробнее о создании карты - http://htmlweb.ru/analiz/sitemap.php Как настроить robots.txt?Robots.txt —
специализированный файл, с его помощью мы ограничиваем доступ поисковым роботам к тому или другому разделу сайта. Любой поисковой робот сначала прочитает Robots.txt, а только потом начнет индексировать страницы сайта.
Так же с помощью файла robots.txt можно ограничить индексацию сайта, однако некоторые недобросовестные боты могут игнорировать наличие этого файла.
Тема довольно обширная, поэтому более подробно о robots.txt советую прочесть по этим ссылкам – http://ktonanovenkogo.ru/seo/uluchshaem-indeksaciyu-sajta-poiskovikami-robots-txt-dlya-joomla-smf-wordpress-chast-2.htmlhttp://www.stasv.ru/articles/robotstxt/Как узнать когда был поисковой робот на моем сайте?Можно посмотреть логи, если робот был на сайте, там это будет зафиксировано, как представляются роботы ПС смотрите тут -
http://www.tengy.ru/bot.html А можно пойти, на мой взгляд, по более простому пути, а именно, добавить свой сайт в панель вебмастера ПС http://webmaster.yandex.ru/http://www.google.ru/webmasters/Что такое ранжирование?Это процесс выстраивания найденных по запросу пользователя страниц в порядке наибольшего соответствия искомому запросу.
Как попасть в топ по поисковой выдаче?Очень обширный вопрос, это исследует и изучает такое понятие как SEO. Ответ на этот вопрос – это комплекс мероприятий направленных на поисковую оптимизацию. На это влияет большой ряд факторов. Этому посвящено множество тем на этом форуме.
Что такое бан и за что его можно получить?Своими словами на этот вопрос ответить не получится, потому как ПС банят за определенные провинности и для раскрытия этого вопроса обратимся к статье взятой из блога http://www.cavablog.pp.ua/seo/ban-sajta-ot-yandeksa-i-google/ Бан сайта –
выброс сайта из индекса поисковой системы и невозможность добавления сайта в индекс ПС.
Давайте разберемся, с помощью, каких действий можно попасть в бан.
Я собрал “данные правила” в виде тезисов.
За что можно получить бан от Яндекса
1.Клоакинг (подмена содержимого сайта при обращении к ней ПС и пользователя);
2.Высокая плотность ключевых слов (больше чем 7%);
3.Большое количество исходящих ссылок;
4.Низкий процент уникальности контента на сайте;
5.Бессмысленый текст (генерируется в автоматическом режиме);
6.Скрытый текст (текст, который совпадает с цветом фона);
7.Большое количество рекламы;
8.Участие сайта в линкфарме;
Выше были приведены основные правила, по которым происходит бан сайта от Яндекса.
За что можно получить бан от Google
1.Чужой контент;
2.Скрытый текст (белый текст на белом фоне довольно популярное явление);
3.Частое использование ключевиков;
4.Участие в линкфарме;
5.Клоакинг;
6.Исходящие ссылки в большом количестве;
7.Распостранение вирусов с вашего домена;
8.Спам с домена;
Только что привел основные “правила”, следуя которым можно получить бан сайта от яндекса и google.
Разделение на бан от яндекса и google очень условное.
Вы ж понимаете, что это два топовых поисковика в RUS и UA.
Примечание*
Линкфармы – сайты или группы сайтов, интенсивно ссылающиеся друг на друга
Что такое фильтры и какими они бывают?Фильтры –
это определенные алгоритмы, которые направлены на удаление из поиска ненужных страниц, хлама. Фильтром достаточно много, каждый я тут описывать не буду, а приведу лишь их названия, а описания уже прочтете по ссылкам.
Фильтры Яндекса:Непот-фильтр
Редирект фильтр
Фильтр плотности ключевых слов
Фильтр «Ты последний»
АГС-30 и АГС-17
АффилированиеФильтры Google:"Песочница" (sandbox)
Фильтр "Дополнительные результаты"
Фильтр Bombing
Фильтр Bowling
Фильтр "Возраст домена"
Фильтр "Дублирующийся контент"
Фильтр -30
Фильтр "Опущенные результаты"
Фильтр "Социтирование"
Фильтр "Links"
Фильтр "Много ссылок сразу"
Фильтр "Чрезмерная оптимизация"
Фильтр "Битые ссылки"
Общий фильтр "Степень доверия" (Google Trust Rank)
Подробно о фильтрaх можно прочесть тут - http://tytto.ru/Ссылки/2009-09-24-07-55-43.htmlhttp://dlepro.com/310-filtry-ps-yandeks-i-google.htmlТак же занимательный видео семинар по фильтрам -
http://rutube.ru/tracks/2573947.html?v=da0c25e363a81642bfeb53b3082aefa5 Что делать если ничего не помогает и мой сайт не индексируется яндексом?Если вы все перепробовали и прошло уже достаточно времени, а ваш сайт так и не появился в поисковой выдаче Яндекса, остается одно – писать письмо Платону Щукину -
http://feedback.yandex.ru/?from=webmaster Подробно опишите суть вашей проблемы и вам в скором времени ответят и расскажут ваши дальнейшие действия. Кто такой Платон Щукин?Это очень хороший вопрос и конкретного ответа на него нет, многие считают что это команда саппорта яндекса, кто-то говорит, что это один человек. Прочтите вот эту статью -
http://www.terehoff.com/platot-schukin-living-person.html может что-то проясниться для вас. Чем страшны дубли страниц?Из книги «Продвижение сайта в поисковых системах» (И.Ашманов, А.Иванов)
Еще одной проблемой для крупных сайтов могут стать дубликаты страниц. После того как на сайте была изменена адресация страниц, может возникнуть ситуация, когда для каждой страницы сайта существует еще несколько ее копий. Приведем в качестве примера несколько адресов, которые для робота будут разными страницами, но на самом деле ведут на одну и ту же страницу (предположим, что на сайте были введены псевдостатические адреса):
• www.site.ru/script.php?page=service&mode=show
• vww.site.ru/service/
• www.site.ru/service.html
• www.site.ru/service.htm
Если на этом сайте, к примеру, было 1000 страниц, то поисковая система получит 4000 ссылок, а позже вынуждена будет выбирать из четырех копий наиболее релевантную страницу на сайте. Чтобы этого не случилось, нужно проверять страницы сайта и исключать ситуации, когда по нескольким разным адресам находятся совершенно одинаковые страницы.
Отдельно следует отметить механизм Яндекса по удалению дубликатов: когда количество одинаковых страниц сайта достигает определенного порога, запускается специальная программа, которая удаляет лишние страницы из индекса поисковой системы. Иногда после такой процедуры в индексе просто не остается документов с сайта, и процесс индексации начинается с самого начала.
Какой вид адреса для индексирования поисковиком лучше?Из книги «Продвижение сайта в поисковых системах» (И.Ашманов, А.Иванов)
Если на сайте адреса страниц приводятся из динамического в псевдостатический вид, то может возникнуть вопрос: какой вид адреса для индексирования поисковиком лучше — с расширением файла (www. site . ru/realty-broker-sarvice.html) или без (www.site.ru/realty-broker-service/). В первом случае все хорошо — робот поисковика сразу принимает с сайта HTML-файл. Во втором случае появляется одна особенность: дело в том, что браузер Internet Explorer, как и робот поисковой системы Yahoo, отбрасывает завершающий слеш в адресе, даже если он явно указан. Поэтому вам нужно будет настраивать обработку адресов в файле .htaccess так, чтобы они создавали еще один ад¬рес страницы — без слеша. Получается, что сервер выполняет двoйную работу. В случае с небольшим или средним по размеру сайтом это не страшно, но если на сайте несколько тысяч страниц, то желательно заранее обдумать вид адресов страниц и избежать лишних нагрузок.
Если вы не нашли в этом сборнике ответ на ваш вопрос, пишите, с удовольствием ответим и добавим его сюда.