Помогаем поисковым роботам индексировать сайт при помощи robots.txt

Автор: Ярослав Перелыгин / Дата: 18/01/2013

kak-sozdat-pravilnyj-robots-txt-dlya-wordpress-i-joomla

Блог Ярослава Перелыгина

yaroslaff.su

Конечно же поисковые системы и сами неплохо справляются с индексацией сайта, то есть с закачиванием его страниц с целью в дальнейшем сделать их доступными для поиска, но чтобы ускорить и улучшить этот процесс, им нужно оказать небольшую помощь. Для этого используем правильный robots.txt, представляющий из себя обычный текстовый файл, который можно создать при помощи любого редактора, к примеру, wordpad или блокнота, но я бы вам посоветовал воспользоваться редактором notepad. Для чего нужен robots.txt? Все очень просто, при помощи этого файла можно указать поисковым роботам, какие страницы вашего сайта индексировать можно, а какие нельзя.

В принципе, поисковики и так достаточно умны и сами в состоянии понять, какие файлы сайта не несут абсолютно никакой смысловой нагрузки, и исключить их из индекса, но для этого им потребуется больше времени, чем при наличии на сайте правильного robots.txt. Если данный файл присутствует, поисковые роботы в первую очередь закачивают и анализируют именно его, а уже потом на основе полученных инструкций постепенно индексируют весь сайт. Что такое robots.txt, мы с вами разобрались, теперь давайте поговорим о том, как он правильно пишется.

Как создать robots.txt

Как вы понимаете, в robots.txt нужно записывать определенные правила, при помощи которых можно управлять доступом поисковых роботов к содержимому сайта. Большинство сайтов создаются на готовых движках, так называемых cms. Штука очень удобная, так как совершенно не нужно быть программистом, чтобы создать вполне приличный сайт. Мы еще, кстати, не раз поговорим о многих современных движках для создания сайтов, поэтому ждите статей на эту тему. К примеру, этот блог, как вы уже догадались, создан на wordpress. Движок отличный, но он, как и многие другие, делает слишком много дублей контента в пределах одного сайта. Другими словами, одна и та же информация может быть доступна по разным адресам. К этому очень плохо относятся поисковики. Они любят уникальный контент. А когда в индекс попадают разные страницы с одним и тем же или похожим контентом, то уникальность конечно же снижается. Этого допускать нельзя. Чем полезнее и уникальнее контент вашего сайта, тем лучше к нему будут относиться поисковики. Что делать? Необходимо закрыть ряд страниц, которые не несут абсолютно никакой полезной информации пользователям, от индексации. Также необходимо закрыть доступ поисковым роботам к файлам и папкам движка. В этом нам поможет, как вы уже поняли, правильный robots.txt.

Все вебмастера хотят, чтобы их сайт проиндексировался как можно быстрее, но далеко не все из них что-либо делают для этого. Ведь разработать сайт и наполнить его контентом недостаточно, нужно его еще также правильно оптимизировать под поисковые системы. Если бы каждому владельцу сайта изначально было бы известно, как сделать robots.txt, и для чего этот файл нужен, то индексация и отношение поисковых систем к его сайту заметно бы улучшилась. Казалось бы, всего лишь один неприметный файлик, но на самом деле он может оказать заметное влияние на продвижение сайта в поисковых системах. Естественно существуют определенные правила написания robots.txt, которые сводятся к правильному оформлению специальных директив. О них и поговорим.

Директивы robots.txt

Для написания robots.txt используются директивы. Мы с вами разберем основные и самые важные из них. Первая директива, которая должна присутствовать абсолютно в каждом robots.txt, это «User-agent«. Она указывает, какому именно поисковому роботу предназначены следующие за ней инструкции. В качестве значения директивы используются названия роботов или звездочка «*», при помощи которой можно указать директивы для всех поисковиков. Googlebot и Yandex являются соответственно поисковыми роботами гугла и яндекса. Запись директивы «User-agent» выглядит следующим образом:

User-agent: * # для всех поисковых роботов
Disallow:

User-agent: Yandex # для поискового робота яндекса
Disallow:

Символ «#» предназначен для написания комментариев. Все, что после него написано, поисковыми роботами не учитывается. Он помогает не запутаться в будущем в своих же записях, если директив слишком много, но такое бывает крайне редко. Как вы уже заметили, в примере появилась новая директива «Disallow«. О ней и поговорим. Именно при помощи этой директивы можно закрывать доступ роботов к определенным разделам сайта. К примеру, на вашем сайта есть папка «photo», в которой находятся ваши личные фотографии, но вы не хотите, чтобы они попадали в индекс поисковых систем. Тогда поступаем следующим образом:

User-agent: *
Disallow: /photo/

User-agent: Yandex
Disallow: /photo/

Теперь всем поисковым роботам доступ к содержимому данного каталога будет закрыт. Если на вашем сайте имеются какие-либо файлы и папки, названия которых начинаются с «photo», к примеру, «photo28», «photo1», «photo.html», «photo.img», и вы хотите закрыть от индексации и их, тогда записываем в robots.txt следующие строки:

User-agent: *
Disallow: /photo

User-agent: Yandex
Disallow: /photo

Также существуют спецсимволы «*» и «$». Звездочка означает любую последовательность символов, в том числе и пустую. Приведу пример:

User-agent: *
Disallow: *img

Теперь все файлы, имеющие расширение img, не будут индексироваться поисковыми роботами. В индекс не попадет ни mylove.img, ни yanamore.img. По умолчанию в конце каждого правила добавляется спецсимвол «*». То есть, если в robots.txt имеется запись Disallow: /photo, то, как мы уже говорили выше, в индекс не попадет ни один файл, чье название начинается со слова «photo». Чтобы это отменить, используем спецсимвол «$»:

User-agent: *
Disallow: /photo$

Теперь поисковому роботу будет запрещен доступ к каталогу «photo», но не будет запрещен к файлу «photo.img».

Также существует директива «Allow«, о которой упоминается даже в Яндекс.Помощи, но используют ее крайне редко. Данная директива, в отличие от «Disallow», открывает доступ поисковому роботу к определенным файлам и папкам. Пример:

User-agent: Yandex
Disallow: /
Allow: /photo

Доступ поисковому роботу яндекса закрыт ко всему сайту кроме страниц, начинающихся с «photo». Раз уж мы сами к этому подошли, то приведу примеру того, как закрыть сайт от индексации. Все, что для этого нужно, это лишь пару строк в файле robots.txt.

User-agent: *
Disallow: /

Теперь абсолютно всем роботам без исключения индексация сайта запрещена. Просто, не правда ли?

Существует еще такая директива robots.txt, как «Host«. При помощи нее можно указать для поискового робота яндекса главное зеркало вашего сайта. Даже если у него только одно зеркало, все равно не поленитесь и укажите данную директиву, к примеру, чтобы не вышло путаницы с www.

User-agent: Yandex
Disallow: /photo
Host: wp

Также очень полезна директива «Sitemap«, которая укажет путь поисковому роботу к карте вашего сайта, если она, конечно, существует.

User-agent: *
Disallow: /photo
Host: wp
Sitemap: http://yaroslaff.su/sitemap.xml

Не забудьте поменять домен на свой.

После того как вы определитесь с директивами, вам останется лишь создать файл robots.txt и загрузить его в корневой каталог вашего сайта. Для этого можно воспользоваться протоколом FTP. Файл, как уже говорилось выше, представляет из себя обычный текстовый документ, заполнить который можно при помощи любого текстового редактора. Чтобы вы понимали, как он должен выглядеть, я приведу вам примеры правильного robots.txt для некоторых известных движков.

Правильный robots.txt для wordpress

Начну я с того движка, на котором создан мой блог и еще тысячи блогов и сайтов других вебмастеров. И так, robots.txt для wordpress должен выглядеть следующим образом:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /razdel/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/cache/
Disallow: */trackback
Disallow: /trackback
Disallow: /feed
Disallow: */feed
Disallow: /*feed
Disallow: /comments
Disallow: */comments
Disallow: /*?
Disallow: /*?*
Disallow: /?*
Disallow: /?s=

User-agent: Yandex
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /razdel/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/cache/
Disallow: */trackback
Disallow: /trackback
Disallow: /feed
Disallow: */feed
Disallow: /*feed
Disallow: /comments
Disallow: */comments
Disallow: /*?
Disallow: /*?*
Disallow: /?*
Disallow: /?s=
Host: wp

Sitemap: http://yaroslaff.su/sitemap.xml

В качестве примера я привел robots.txt для своего блога. На нем я не пользуюсь метками, а также рубрики имеют префикс «razdel» (просто мне так захотелось :)), а не стандартный «category». В большинстве случаев robots.txt для wordpress должен выглдяеть примерно так:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /category/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/cache/
Disallow: */trackback
Disallow: /trackback
Disallow: /feed
Disallow: */feed
Disallow: /*feed
Disallow: /comments
Disallow: */comments
Disallow: /*?
Disallow: /*?*
Disallow: /?*
Disallow: /?s=

User-agent: Yandex
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /category/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/cache/
Disallow: */trackback
Disallow: /trackback
Disallow: /feed
Disallow: */feed
Disallow: /*feed
Disallow: /comments
Disallow: */comments
Disallow: /*?
Disallow: /*?*
Disallow: /?*
Disallow: /?s=
Host: site.ru

Sitemap: http://site.ru/sitemap.xml

Конечно, нужно понимать, что в зависимости от сайта robots.txt может отличаться. Кто-то не закрывает категории и теги от индексации, а наоборот оптимизирует их и делает их содержимое как можно более уникальным. Некоторые закрывают от индексации содержимое временных архивов или картинки. Лично меня на данный момент полностью устраивает тот robots.txt, который я привел в качестве примера.

Правильный robots.txt для joomla

В принципе, стандартный файл robots.txt для joomla выглядит вполне себе прилично. Туда лишь стоит добавить отдельные директивы для поискового робота Yandex, продублировав их, и директивы «host» и «sitemap», и тогда получим что-то вроде этого:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: site.ru

Sitemap: http://site.ru/sitemap.xml

Здесь также стоит помнить о том, что robots.txt для вашего сайта на joomla может немного отличаться. К примеру, многие вебмастера открывают доступ поисковым роботам к папке с картинками images. В вашем случае тоже могут быть внесены в файл какие-либо коррективы. Но общий вид правильного robots.txt для joomla выглядит именно так.

Теперь вам известно, как создать robots.txt, для чего он нужен и как он правильно записывается. Ни в коем случае не пренебрегайте этим файлом. Он окажет исключительно благоприятное влияние на индексацию вашего сайта в поисковых системах. Удачи!

Поделись с друзьями: