Если вам нравится SbUP Форум, вы можете поддержать его - BTC: bc1qppjcl3c2cyjazy6lepmrv3fh6ke9mxs7zpfky0 , TRC20 и ещё....

 

Правильный ли robots.txt ?

Автор Nikita214, 16-12-2013, 15:12:57

« назад - далее »

Nikita214Topic starter

Цитата: listik от 16-12-2013, 20:54:46
В смысле, не на сайт сохраняете, а на комп, чтобы проанализировать и поравить под свой ресурс
Чтобы проанализировать нужно понимать в этом, а мне вряд ли получится править.
Например вот с одного вареза.

User-agent: *
Disallow: /?
Disallow: /*?
Disallow: /*?*
Disallow: /js/
Disallow: /url/
Disallow: /user/
Disallow: /engine/
Disallow: /*do=pm
Disallow: /newposts/
Disallow: /*do=stats
Disallow: /*do=register
Disallow: /*do=addnews
Disallow: /engine/go.php
Disallow: /*do=feedback
Disallow: /statistics.html
Disallow: /*do=lostpassword
Disallow: /*do=lastcomments
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /engine/download.php

Host: sity.ru
Sitemap: http://sity.ru/sitemap.xml
  •  


listik

#21
Цитата: Nikita214 от 16-12-2013, 20:59:14
Чтобы проанализировать нужно понимать в этом...
Рассмотрим Ваш пример:

User-agent: *                     <- Для любого робота ПС
Disallow: /?                         <-закрыть от индекс. страницы начинающиеся с "?"
Disallow: /*?                       <-закрыть от индекс. страницы содержащие в адресе "?"
Disallow: /*?*                     <-закрыть от индекс. стр.содержащие в адресе "?"
Disallow: /js/                       <-закрыть от индекс. папку "js" со всем ее содержимым
...
Disallow: /*do=feedback     <-закрыть от индекс. стр.содержащие в адресе после любых символов  "do=feedback"
...
Host: sity.ru                      <-главное (основное) зеркало сайта
Sitemap: http://sity.ru/sitemap.xml
                      <-адрес карты сайта

Прочитайте здесь http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml#additional-info

И чтобы избежать основные ошибки прочитайте про них здесь http://help.yandex.ru/webmaster/error-dictionary/robots-txt.xml


Nikita214Topic starter

Спасибо, попробую завтра разобраться, а то у нас уже почти утро.)


ЦитироватьDisallow: /?                         <-закрыть от индекс. страницы начинающиеся с "?"

Извиняюсь за тупой вопрос. Для примера, что значит страницы начинающиеся с "?"


  •  

listik

#23
Цитата: Nikita214 от 16-12-2013, 21:28:41
Спасибо, попробую завтра разобраться, а то у нас уже почти утро.)


Извиняюсь за тупой вопрос. Для примера, что значит страницы начинающиеся с "?"

Disallow: /?          <- означает, что адрес к примеру     http://Ваш_сайт/?_и далее_любой набор_символов - закрыт от индексации
Т.е. например, такой адрес как http://www.sbup.com/?seo-forum/indeksaciya_saita/pravilnyi_li_robots_txt_/new

Nikita214Topic starter

Цитата: listik от 16-12-2013, 21:34:06
Disallow: /?          <- означает, что адрес к примеру     http://Ваш_сайт/?_и далее_любой набор_символов - закрыт от индексации
Понял, только что то не нравится мне всё это, пугает, как бы хуже не сделать.
  •  


listik

Цитата: Nikita214 от 16-12-2013, 21:36:58
Понял, только что то не нравится мне всё это, пугает, как бы хуже не сделать.
А вот здесь ( http://webmaster.yandex.ru/robots.xml ) можете предварительно проверить свой роботс.тхт

Nikita214Topic starter

#26
Цитата: listik от 16-12-2013, 21:40:54
А вот здесь ( http://webmaster.yandex.ru/robots.xml ) можете предварительно проверить свой роботс.тхт
Да, спасибо! Я уже дня два назад там проверял, но только понять трудно, что значит внизу заключение.
Сейчас вот проверил новый robots  Адрес сайта заменил, чтобы не сверкать.
Что значит это? И даже, если робот будет посещать сайт, значит ли это, что он будет индексировать то, что нужно и нет ли дублей.

    Используемые секции

   Строка   
   
1-26   
User-agent: *
Disallow: /?
...
Disallow: /2016/
   
   
28-29   
Host: sity.ru
Sitemap: http://sity.ru/sitemap.xml
   
   

Добавлено: 17-12-2013, 06:33:11


Короче поставил я свой файл robots.txt на место. Глупо с моей стороны толкать на свой сайт чужой robots.txt. Для этого нужно понимать, что творишь. ) Потом, в ближайшее время буду искать продвинутого оптимизатора, чтобы настроил robots.txt именно для моего сайта, как должно быть и возможно в файле htaccess нужно произвести тоже изменения.
Спасибо всем, кто откликнулся.
  •  

Cyrus

#27
Nikita214, вы немного не правильно воспользовались - http://webmaster.yandex.ru/robots.xml. После того как добавили свой robots.txt для проверки надо нажать на "Список URL" на слово "добавить" и вписать страницы, для которых вы эти правила проверить хотите и посмотреть, закрыто все правильно или нет.

И немного по приведенному robots.txt в вашем примере:
User-agent: *
Disallow: /?
Disallow: /*?
Disallow: /*?*
Disallow: /js/
Disallow: /url/
Disallow: /user/
Disallow: /engine/
Disallow: /*do=pm
Disallow: /newposts/
Disallow: /*do=stats
Disallow: /*do=register
Disallow: /*do=addnews
Disallow: /engine/go.php
Disallow: /*do=feedback
Disallow: /statistics.html
Disallow: /*do=lostpassword
Disallow: /*do=lastcomments
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /engine/download.php


Много правил, которые дублируют друг друга, все можно сделать короче:

Disallow: /?
Disallow: /*?
Disallow: /*?*

Делают одно и тоже, ну почти, Disallow: /? - некорректен, вряд ли есть страницы начинающиеся сразу с знака ?, 2 других дублируют друг друга, вполне хватит одного Disallow: /*?

Disallow: /*do=pm
Disallow: /*do=stats
Disallow: /*do=register
Disallow: /*do=addnews
Disallow: /*do=feedback
Disallow: /*do=lostpassword
Disallow: /*do=lastcomments

Это все можно закрыть одним Disallow: /*do=, даже если помимо указанных функций на сайте есть другие "do=", "do=" в адресе указывает на действие (переход к регистрации, забыли пароль, личная почта и остальное), к индексации это лишнее всё.


Disallow: /engine/
Disallow: /engine/go.php
Disallow: /engine/download.php

2 последующих после Disallow: /engine/ не нужны, они и так закрыты уже правилом Disallow: /engine/

Более чистый robots.txt будет выглядеть так:
User-agent: *
Disallow: /*?
Disallow: /js/
Disallow: /url/
Disallow: /user/
Disallow: /engine/
Disallow: /*do=
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts

Host: sity.ru
Sitemap: http://sity.ru/sitemap.xml
  •  


Nikita214Topic starter

#28
Спасибо за развёрнутый ответ!

Цитата: Cyrus от 17-12-2013, 09:42:39Более чистый robots.txt будет выглядеть так:Код: [Выделить]User-agent: *Disallow: /*?Disallow: /js/Disallow: /url/Disallow: /user/Disallow: /engine/Disallow: /*do=Disallow: /newposts/Disallow: /statistics.htmlDisallow: /*subaction=userinfoDisallow: /*subaction=newpostsHost: sity.ruSitemap: http://sity.ru/sitemap.xml

А как быть с этим? Тоже ведь дубли.

Disallow: /2013/
Disallow: /2014/
Disallow: /2015/
Disallow: /2016/
Disallow: /page/
Disallow: */page/

И нужно ли закрывать

Disallow: /webstat/ 
Disallow: /admin.php





Добавлено: 17-12-2013, 10:53:53


Сейчас у меня вот такой robots.txt , путём частичного сложения. Будет ли он нормальным считаться по мнению ПС? Так для яндекса будут ли закрыты дубли и остальной мусор?

User-agent: *
Disallow: /*print
Disallow: /js/
Disallow: /autоbackup.php
Disallow: /admin.php
Disallow: /user/
Disallow: /index.php?do=register
Disallow: /index.php?do=lastcomments
Disallow: /index.php?do=stats
Disallow: /index.php?do=pm
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?do=addnews
Disallow: /index.php?do=register
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?subaction=newposts
Disallow: /engine/
Disallow: /webstat/
Disallow: /2013/
Disallow: /2014/
Disallow: /2015/
Disallow: /2016/
Disallow: /page/
Disallow: */page/

Host: sity.ru
Sitemap: http://sity.ru/sitemap.xml
  •  

Cyrus

Nikita214, а я рассматривал пример не из первого сообщения, а из верхнего сообщения на этой странице.

Возьмем ваш robots.txt:
User-agent: *
Disallow: /*print
Disallow: /js/
Disallow: /autоbackup.php
Disallow: /admin.php
Disallow: /user/
Disallow: /index.php?do=register
Disallow: /index.php?do=lastcomments
Disallow: /index.php?do=stats
Disallow: /index.php?do=pm
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?do=addnews
Disallow: /index.php?do=register
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?subaction=newposts
Disallow: /engine/
Disallow: /webstat/
Disallow: /2013/
Disallow: /2014/
Disallow: /2015/
Disallow: /2016/
Disallow: /page/
Disallow: */page/

Host: sity.ru
Sitemap: http://sity.ru/sitemap.xml


Не видя сайт и исходя только из текущего robots.txt, я бы сделал robots.txt таким:
User-agent: *
Disallow: /*print
Disallow: /js/
Disallow: /user/
Disallow: /*do=
Disallow: /engine/
Disallow: /webstat/
Disallow: /2013/
Disallow: /2014/
Disallow: /2015/
Disallow: /2016/
Disallow: */page/

Host: sity.ru
Sitemap: http://sity.ru/sitemap.xml


Для autоbackup.php и admin.php я бы стандартные адреса бы сменил, все же это важные части сайта и лучше чтобы только вы знали их правильные адреса, а не оставлять их на стандартных позициях.

Если не хотите показывать адрес сайта, можете в ЛС написать, я вам поточнее robots.txt напишу.
  •  



Если вам нравится SbUP Форум, вы можете поддержать его - BTC: bc1qppjcl3c2cyjazy6lepmrv3fh6ke9mxs7zpfky0 , TRC20 и ещё....