Как создать файл robots.txt


01.08.2012, 20:18

Автор статьи: Михаил



Зачем нужен файл robots.txt

Любой поисковый робот при заходе на сайт сначал ищет файл robots.txt. Даже если Вы ещё не вебмастер, а как говориться: только учитесь, то сейчас мы узнаем зачем нужен файл robots.txt и как правильно его заполнить.

Файл robots.txt – это обычный текстовый файл. Он находится в главной директории сайта. В этот файл нужно записать специальные правила для поисковых роботов таких как Яндекс, Гугл, Маил и т.д. Правила могут или разрешать или запрещать поисковикам индексировать страницы или целые папки или, наоборот, разрешать индексировать что то конкретное. В этом файле так же можно указать какой адрес вашего сайта с www или без него является главным и т.д.

Один авторитеный сайт выложил на Youtube обучающий фильм. В нём рассказывается как правильно создать файл robots.txt для своего сайта. Смотрим:



Как стало понятно из фильма, можно использовать простые конструкции для создания своего файла. Рассмотрим пример того, как создать файл robots txt:

1
2
3
4
5
6
7
8
9
User-agent: *

Disallow: /404.html
Disallow: /admin/
Disallow: /forum/tools.php

Sitemap: https://www.site.ru/sitemap.xml

Host: www.site.ru

В простейшем случае, файл robots.txt должен выглядеть так.

Здесь, первая строка:
1. User-agent: *
указывает на то, что правила распространяются на все поисковые системы.

Строки 3,4,5:
Disallow: /404.html
Disallow: /admin/
Disallow: /forum/tools.php
Указывают поисковым роботам какие папки и страницы необходимо исключить из поисковой выдачи! Получается, что мы закрываем от индексации файл 404.html - это файл ошибок. Тот файл, который показывается посетителю сайта если он пришёл по старой или ошибочной ссылке.

Так же исключаем папку "admin". Логично, в нашем примере это панель администрирования нашего сайта. Нам не нужно чтобы поисковый роботот приходил сюда.

И последнее - мы исключаем страницу находящуюся в папке "forum" под именем tools.php - "/forum/tools.php". Эта страница у нас служебная, поэтому не нужна для индексации поисковыми роботами.

Отметим важную особенность: Исключая папку "admin" мы исключаем также из поисковой выдаче все файлы находящиеся в этой папке. Аналогичная ситуация с файлом tools.php. Мы исключаем все страницы, которые могут быть получены путём обращения к эту файлу с запросом, например, мы исключаем такую страницу:
- "/forum/tools.php?profile=Petrov"
- "/forum/tools.php?profile=Ivanov"
- "/forum/tools.php?profile=Sidorov"

То есть все не нужны ("мусорные" с точки зрения поисковиков) страницы.

В строке 7 нашего примера есть команда:
Sitemap: https://www.site.ru/sitemap.xml
. Она означает, что у нас на сайте в корневой папке есть специальный файл, так называемая карта сайта, в котором находятся ссылки на все нужные нам для индексации поисковыми роботами страницы.

Как создать карту сайта? Я, например, для этих целей использую программу "Sitemap Generator". Она бесплатная, Вы можете легко найти такую программу в Интернете.

И последняя строка № 9 это у нас
Host: www.site.ru
Данная строка говорит поисковику какая же страница является главной с www или без.

Отмечу, что файл robots.txt может содержать пустые строки, а может и не содержать. Это разрешается. Создав такой простейший файл на своём сайте Вы гарантировано можете исключить все ненужные страницы из поисковой выдачи, указать как индексировать Ваш сайт с www или без и дать поисковикам ссылку на карту сайта.


Ключевые слова:
robots
файл robots для сайта
исключаем страницы
файл robots
файл robot.txt
Disallow
индексировать
нужен на сайте
разрешать поисковикам
правила для поисковых роботов
Яндекс
Гугл
Маил
робот


Вернуться в рубрику:

Статьи посетителей


Хотите видеть на нашем сайте больше статей? Кликните Поделиться в социальных сетях! Спасибо!

Смотрите также:

Обратите внимание полезная информация.

Робототехника для каждого. 2024г.