robots.txt
robots.txt — файл ограничения доступа к содержимому роботам на http-сервере. Файл должен находиться в корне сайта (то есть иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.
Использование файла добровольно. Стандарт был принят консорциумом 30 января 1994 года в списке рассылки robots-request@nexor.co.uk и с тех пор используется большинством известных поисковых машин.
Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться.
Файл robots.txt может использоваться для указания расположения файла и может показать, что именно нужно, в первую очередь, проиндексировать поисковому роботу.
Описание структуры
Файл состоит из записей. Записи разделяются одной или более пустых строк (признак конца строки: символы CR, CR+LF, LF). Каждая запись содержит непустые строки следующего вида:
<поле>:<необязательный пробел><значение><необязательный пробел>
где поле — это либо User-agent, либо Disallow.
Сравнение производится методом простого поиска подстроки. Например, запись Disallow: /about запретит доступ как к разделу http://example.com/about/, так и к файлу http://example.com/about.php, а запись Disallow: /about/ — только к разделу http://example.com/about/.
Проверка синтаксиса
Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб.
- Служба Яндекса (выполняет только проверку синтаксиса) (рус.)
- Google webmasters tools (позволяет проверить разрешения для каждой отдельной страницы) (рус.)
Существует специализированная поисковая система BotSeer, которая позволяет осуществлять поиск по файлам robots.txt.
Примеры
Запрет доступа всех роботов ко всему сайту:
<source lang="robots">
User-agent: * Disallow: /
</source>
Запрет доступа определенного робота к каталогу /private/:
<source lang="robots">
User-agent: googlebot Disallow: /private/
</source>
Нестандартные директивы
Crawl-delay: устанавливает время, которое робот должен выдерживать между загрузкой страниц. Если робот будет загружать страницы слишком часто, это может создать излишнюю нагрузку на сервер. Впрочем, современные поисковые машины по умолчанию задают достаточную задержку в 1-2 секунды.
<source lang="robots">
User-agent: * Crawl-delay: 10
</source>
Allow: имеет действие, обратное директиве Disallow — разрешает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.
<source lang="robots">
Allow: /album1/photo.html Disallow: /album1/
</source>
Расширенный стандарт
В 1996 году был предложен расширенный стандарт robots.txt, включающий такие директивы как Request-rate и Visit-time. Например:
<source lang="robots">
User-agent: * Disallow: /downloads/ Request-rate: 1/5 # загружать не более одной страницы за пять секунд Visit-time: 0600-0845 # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.
</source>
См. также
Ссылки
- A Standard for Robot Exclusion (англ.)
- Как проверить файл robots.txt (рус.)
- Robots.txt по-русски (рус.)
- Зачем нужен robots.txt (рус.)
- Спецификация robots.txt (рус.)
- Как правильно написать файл robots.txt? Советы и рекомендации. (рус.)
- Роботы рунета. Проверено 5 мая 2009.
- Список отловленных роботов Название и краткое описание реально действующих роботов в Рунете
Поисковая оптимизация |
|
|---|---|
| Исключения |
robots.txt • Мета-теги • nofollow • noindex |
| Маркетинг | |
| Поисковый маркетинг |
|
| Спам | |
| Ссылки |
Внешние факторы в поисковой оптимизации • Популярность ссылки • Обмен ссылками • Взаимные ссылки • Многолинки • Биржа ссылок • Бэклинки (ссылки на сайт) |
| Прочее | |
Веб и веб-сайты |
|
|---|---|
| Глобально | |
| Локально | |
| Виды сайтов и сервисов |
Виртуальный атлас • Баннерная сеть • Блог (Блог-платформа) • Видеохостинг • Вики-движок (Вики-хостинг • список) • Сайт-визитка • Вопрос-ответ • Закладки • Службы знакомств • Каталог ресурсов • Сервис контекстной рекламы • Интернет-магазин • Микроблог • Новостной сайт • Поисковая система (список) • Порносайт • Социальная сеть • Торрент-трекер • Файлообменник • Форум (сервис форумов) • Фотохостинг • Чат |
| Создание и обслуживание |
|
| Техническое |
Веб-сервер (список) • Браузер (список • сравнение) • Веб-фреймворк • Система управления содержимым (Список CMS) • HTTP (ответы • заголовки) • SPDY • CGI • HTML • XHTML • CSS • JavaScript • DHTML • DOM • XML • AJAX • JSON • Flash • RSS • Atom • Микроформаты • favicon.ico • robots.txt • Sitemaps • Карта сайта • .htaccess |
| Маркетинг | |
| Социум и культура | |
Если вам нравится SbUP.com Сайт, вы можете поддержать его - BTC: bc1qppjcl3c2cyjazy6lepmrv3fh6ke9mxs7zpfky0 , TRC20 и ещё....