PageRank

Материал из Seo Wiki - Поисковая Оптимизация и Программирование

Перейти к: навигация, поиск

PageRank — один из алгоритмов ссылочного ранжирования. Алгоритм применяется к коллекции документов, связанных гиперссылками (таких, как веб-страницы из World Wide Web), и назначает каждому из них некоторое численное значение, измеряющее его «важность» или «авторитетность» среди остальных документов. Вообще говоря, алгоритм может применяться не только к веб-страницам, но и к любому набору объектов, связанных между собой взаимными ссылками, то есть к любому графу.

Содержание

История

В 1996 году Сергей Брин и Ларри Пейдж, тогда ещё аспиранты Стэнфордского университета, начали работу над исследовательским проектом BackRub[1] — поисковой системой по Интернету, использующую новую тогда идею о том, что веб-страница должна считаться тем «важнее», чем больше на неё ссылается других страниц, и чем более «важными» в свою очередь являются эти страницы.[2] Через некоторое время BackRub была переименована в Google. Первая статья с описанием применяющегося в ней алгоритма ранжирования, названного PageRank, появилась в начале 1998 года[3], за ней следом вышла и статья с описанием архитектуры самой поисковой системы.[4] По качеству возвращаемых поисковых результатов их система значительно превосходила все существовавшие тогда поисковые системы, и Брин с Пейджем, осознав её потенциал, основали в сентябре 1998 года компанию Google Inc., для дальнейшего её развития как коммерческого продукта.

С тех пор алгоритмы и математические модели, применяемые при ранжировании в Google значительно улучшились. В интервью в 2007 году Амит Сингхал, представитель отдела качества поиска Google, заявил, что их поисковая система использует более 200 ранжирующих сигналов, лишь одним из которых является PageRank,[5] но он до сих пор играет существенную роль в поисковых продуктах Google.[6] Стоит отметить, что алгоритм PageRank, в том виде, в каком он был изложен Пейджем в статье 1998 года[3], может быть улучшен в некоторых практических аспектах (например, ссылкам могут назначаться разные веса), и алгоритмы, применяемые в современных поисковых системах, являются скорее лишь его вариантами.

PageRank можно перевести с английского языка как «ранг страницы», однако Google Inc. связывает слово Page в названии алгоритма не с английским словом «страница», а с именем Лэрри Пейджа (англ. Larry Page).[7]

Название «PageRank» является торговой маркой компании Google Inc. Алгоритм запатентован в США 4 сентября 2001 года[8], в качестве изобретателя алгоритма в патенте указан Ларри Пейдж. Официальным владельцем патента является не Google Inc., а Стэнфордский университет, в котором учились Ларри Пейдж и Сергей Брин в момент подачи заявки на патент.

В 1998 году Google был одной из первых поисковых систем, внедривших ссылочное ранжирование, благодаря чему добился значительного улучшения качества поиска по сравнению с конкурентам. В дальнейшем многие крупные поисковые системы разработали и внедрили свои аналоги PageRank и другие методы статического (то есть запросо-независимого) ранжирования документов.[9]

Описание

PageRank — это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она становится «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank — это метод вычисления веса страницы путём подсчёта важности ссылок на неё.

PageRank в продуктах Google

Надстройка для браузера Google Toolbar показывает для каждой веб-страницы целое число от 0 до 10, которое она называет PageRank, или важностью этой страницы с точки зрения Google. Однако механизм его расчета и что в точности обозначает это значение не раскрывается. По некоторым данным, эти значения обновляются лишь несколько раз в год (в то время, как внутренние значения PageRank пересчитываются непрерывно[10]) и показывают значения PageRank страниц на логарифмической шкале.[11]

Значения PageRank (возможно, в сочетании с другими факторами) показываются также в виде зелёной полоски в каталоге сайтов Google Directory, где они используются для сортировки сайтов внутри разделов каталога.[12]


Google учитывает не все ссылки. Поисковая система отфильтровывает ссылки с сайтов, специально предназначенных для скопления ссылок. Некоторые ссылки могут не только не учитываться, но и отрицательно сказаться на ранжировании ссылающегося сайта (такой эффект называется поисковой пессимизацией). В Google понимают, что вебмастер не в состоянии повлиять на входящие внешние ссылки, но полностью контролирует исходящие ссылки со своего сайта. Поэтому ссылки на сайт не могут повредить ему, но ссылки с сайта — могут. Следует внимательно относиться к сайтам, на которые вы ссылаетесь.

Google использует показатель PageRank найденных по запросу страниц, чтобы определить порядок выдачи этих страниц посетителю в результатах поиска.

Это означает, что поиск в Google работает следующим образом:

  1. ищутся все страницы, в которых есть слова из запроса пользователя;
  2. найденные страницы ранжируются на основе текстовых критериев;
  3. учитывается текст ссылок на сайт;
  4. результаты корректируются с учётом PageRank каждой страницы.

Шкала PageRank может изменяться от 0 до 10. Разделение на единицы по шкале основано на логарифмической зависимости или на чём-то весьма схожем, но только не на равномерном разделении. Перерасчёт значимости страниц происходит во время так называемого «Google Dance». Можно придерживаться примерно такой градации: PageRank от 4 до 5 — наиболее типичный для большинства сайтов средней «раскрученности». 6 — очень хорошо «раскрученный» сайт. 7 — величина, практически недостижимая для множества сайтов, но иногда встречается. Значения 8, 9, 10 имеют исключительно популярные и значимые проекты. Например, в данный момент у сайта русской Википедии PR равен 8, у английской Википедии, gnu.org и у сайта Microsoft — 9. Значение 10 имеют всего несколько десятков сайтов. В их числе сам Google. Ранее это были также http://www.whitehouse.gov, http://www.adobe.com, http://w3c.org и т. д.

Следует отметить, что PageRank — это параметр относящийся к каждой отдельной странице, но не всему сайту в целом. На одном сайте могут находиться страницы с разным PageRank.

Примечания

См. также

Ссылки

ar:ترتيب الصفحة

ca:PageRank cs:PageRank de:PageRank en:PageRank es:PageRank eu:PageRank fi:PageRank fr:PageRank he:PageRank hu:PageRank id:PageRank it:PageRank ja:ページランク kk:PageRank ko:페이지랭크 lt:PageRank nl:PageRank no:PageRank pl:PageRank pt:PageRank ro:PageRank sk:PageRank sv:Pagerank th:เพจแรงก์ tr:PageRank zh:PageRank

Источник — «http://www.sbup.com/wiki/PageRank»
Личные инструменты

Served in 0.423 secs.