Все о файле «robots.txt» по-русски — как составить robots.txt

serafim

Житель Разулы
Команда форума
Разула в сердце
Регистрация
25 Апр 2016
Сообщения
78.865
Реакции
186.684
Ra
243.511
Файл robots.txt

Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Если вы – вебмастер, вы должны знать назначение и синтаксис robots.txt.

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.​


Создание robots.txt
Спойлер
Чтобы создать файл robots.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл robots.txt.

Для Рунета самой часто встречающейся задачей является создание файла robots.txt для Яндекса, так как сейчас Яндекс – самая популярная поисковая система. Важно уметь правильно использовать директиву Host, которую соблюдает этот поисковик.

Мета-тег Robots

Спойлер
МЕТА-тег “Robots” позволяет указывать Роботам, можно ли индексировать данную страницу и можно ли использовать ссылки, приведенные на странице. Этот тег указывается на каждой конкретной странице, доступ к которой требуется ограничить.
В этом простом примере:
Код:
META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"
робот не должен ни индексировать документ, ни анализировать стоящие на нем ссылки.

МЕТА-тег “Robots” – это простой инструмент для указания роботам, может ли страница быть проиндексирована и можно ли следовать по ссылкам со страницы.

Он отличается от Стандарта исключения для роботов тем, что вам не нужно тратить много усилий или получать доступ у Администратора cервера.



Куда писать META-тег “Robots”
Спойлер
Как и любой META-тег он должен быть помещен в область HEAD HTML страницы:
Код:
<html> <head> <meta name=“robots” content=“noindex,nofollow”> <meta name=“description” content=“Эта страница ….”> <title>…</title> </head> <body>

Что писать в META-теге “Robots”
Спойлер
META-тег “Robots” содержит указания, разделенные запятыми. В настоящее время определены существующие указания [NO]INDEX и [NO]FOLLOW. Директивы INDEX указывают, может ли робот индексировать страницу. Директива FOLLOW указывает роботу, может ли он следовать по ссылкам со страницы. Значения по умолчанию – INDEX и FOLLOW. Значения ALL и NONE обозначают активность всех директив и, соответственно, наоборот: ALL=INDEX,FOLLOW и NONE=NOINDEX,NOFOLLOW.

Несколько примеров:
Код:
<meta name=“robots” content=“index,follow”> <meta name=“robots” content=“noindex,follow”> <meta name=“robots” content=“index,nofollow”> <meta name=“robots” content=“noindex,nofollow”>
Следует учесть, что параметр content тега “robots” нечувствителен к регистру.

Вы не должны включать конфликтующие и повторяющиеся директивы, как например:

PHP:
<meta name=“robots” content=“INDEX,NOINDEX,NOFOLLOW,FOLLOW,FOLLOW”>
Правильный синтаксис атрибутов META-тега “Robots”:

content = all | none | directives
all = «ALL»
none = «NONE»
directives = directive ["," directives]
directive = index | follow
index = «INDEX» | «NOINDEX»
follow = «FOLLOW» | «NOFOLLOW»

это программы, помогающие пользователям – например в выборе продукта, заполнении форм или даже в поиске. Такие программы имеют очень небольшое отношение к сетевому взаимодействию.

Где размещать файл robots.txt

Спойлер
Робот просто запрашивает на вашем сайте URL «/robots.txt», сайт в данном случае – это определенный хост на определенном порту.
На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. Если вы хотите иметь возможность создавать файлы robots.txt в поддиректориях, то вам нужен способ программно собирать их в один файл robots.txt, расположенный в корне сайта. Вместо этого можно использовать Мета-тег Robots. Не забывайте, что URL-ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре.



Что писать в файл robots.txt

Спойлер
В файл robots.txt обычно пишут нечто вроде:
PHP:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

В этом примере запрещена индексация трех директорий.

Затметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.

Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*» не поддерживаются.

Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации. Вот несколько примеров:

Запретить весь сайт для индексации всеми роботами

PHP:
User-agent: *
Disallow: /

Разрешить всем роботам индексировать весь сайт

PHP:
User-agent: *
Disallow:

Или можете просто создать пустой файл «/robots.txt».

Закрыть от индексации только несколько каталогов


PHP:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

Запретить индексацию сайта только для одного робота

PHP:
User-agent: BadBot
Disallow
: /

Разрешить индексацию сайта одному роботу и запретить всем остальным

PHP:
User-agent: Yandex
Disallow
:

User-agent: *
Disallow: /

Запретить к индексации все файлы кроме одного
Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:
PHP:
User-agent: *
Disallow: /docs/

Либо вы можете запретить все запрещенные к индексации файлы:

PHP:
User-agent: *
Disallow: /private.html
Disallow
: /foo.html
Disallow
: /bar.html
 
Похожие темы Форум История
vitriol0674 Психология/саморазвитие
vitriol0674 Психология/саморазвитие
vitriol0674 Психология/саморазвитие
vitriol0674 Хобби и рукоделие
vitriol0674 Психология/саморазвитие
vitriol0674 Психология/саморазвитие
vitriol0674 Психология/саморазвитие
vitriol0674 Психология/саморазвитие

Похожие темы

Сверху