Если вам нравится SbUP Форум, вы можете поддержать его - BTC: bc1qppjcl3c2cyjazy6lepmrv3fh6ke9mxs7zpfky0 , TRC20 и ещё....

 

Вопрос о возможностях robots.txt

Автор IndigoHollow, 20-11-2012, 17:20:18

« назад - далее »

IndigoHollowTopic starter

Стал у меня не понятно откуда Гугл вытаскивать и засовывать к себе в индекс непонятные ссылки, которые мне совсем не нужны. Вроде этих:

/statji/ventiljatcija-himicheskih-laboratoriy?PAGEN_1=1
/statji/remont-ventiljatciy/undefined?PAGEN_1=4


Дело в том, что реально существуют только такие ссылки:

/statji/ventiljatcija-himicheskih-laboratoriy/
/statji/remont-ventiljatciy/

а откуда берутся левые ссылки известно только одной CMS Битрикс и Гуглу.

Хочу запретить левые ссылки в robots.txt. Не прописывать же все их, нужно какое-то правило.

Вопрос1: можно ли в robots.txt прописать правило, которое запретит все ссылки, имеющие в своем содержании "?PAGEN_1" кроме "/?PAGEN_1"?

Вопрос2: Если я пропишу:
Disallow: /statji/remont-ventiljatciy/*
то у меня запретится сам URL "/statji/remont-ventiljatciy/" ?

P.S.: знаю, что сейчас начнутся советы о том, что легче разобраться почему такие адреса появляются и т.д., но подобных советов не нужно. Сейчас над этим работаю.
http://ventprodukt.ru - все о вентиляции и кондиционировании
  •  


IndigoHollowTopic starter

Отвечаю сам же на свои вопросы:
1) Можно. Выглядит оно так:
Disallow: /*?PAGEN_1*
Allow: /*/?PAGEN_1*
2) Да. И это Великая печаль.
http://ventprodukt.ru - все о вентиляции и кондиционировании
  •  


ignatye

Или ещё лучше. Запретить в robors.txt ссылки со знаком вопрос, так: Disallow: /*?* и всё.

ewdokimow

Цитата: ignatye от 05-01-2013, 04:15:14
Или ещё лучше. Запретить в robors.txt ссылки со знаком вопрос, так: Disallow: /*?* и всё.
Это хороший вариант, но правило для 3-го слеша.

Я бы так прописал:
Disallow: *?*

Андрей
  •  

Alex46

У меня такая проблема.

На блоге пост имеет, к примеру, такой URL:  http://домен/название поста.html .
Если пост открываю по ссылке "читать полностью", то его URL  будет http://домен/название поста.html#more-354.
И подобных примеров много.

Не получается в robots.txt запретить индексацию 2 типа URL.  Что- нибудь подскажете?



  •  


Alex46

Прошу не напрягаться специалистов по robots.txt.

Я уже закрыл этот вопрос.
Решить проблему файлом robots.txt невозможно.
Решил путем указания канонического URL страницы через атрибут rel="canonical" тега Link.
  •  

Exitoso

скажите првильно у меня роботс настроен, интересует последняя строка, она закрывает индексацию результатов поиска на сайте?
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /search/

ewdokimow

Exitoso, с таким роботом на Джумле ( у Вас этот движок?)  будут дубли. Правильность робота проверяйте в Вебмастере. Поищите на форуме. Эта тема ни один раз поднималась.
Андрей
  •  


Exitoso




Если вам нравится SbUP Форум, вы можете поддержать его - BTC: bc1qppjcl3c2cyjazy6lepmrv3fh6ke9mxs7zpfky0 , TRC20 и ещё....