В Оружейной веб-мастера" читают о том, как создать сайт или блог на Wordpress, как раскрутить сайт или блог самостоятельно, а также о том, как заработать на своём сайте и получать пассивный доход в Интернет.

Robots.txt и sitemap.xml в блоге на WordPress

robots2

Доброго времени суток! :)

Настало время поговорить о двух файлах, занимающих не последнее по важности место в продвижении сайтов. Это файлы robots.txt и sitemap.xml. Эти файлы должны быть на каждом сайте, и многие источники сходятся во мнении, что без них ни о какой seo-оптимизации говорить не стоит. Давайте разберемся зачем нужны эти файлы и как добавить их в блог на WordPress.

Зачем нужен robots.txt?

Данный файл, находящийся в корневой директории сайта, содержит инструкции для забредших поисковых роботов.

“Паук” имеет строго определенное время на анализ одного сайта, поэтому следует всемерно помогать ему управиться в срок и при этом следить, чтобы он не “наломал дров”. Например, некоторые разделы сайта стоит запретить для индексации, т.к. они содержат дублирующуюся информацию или сведения, которые не должны быть доступны через поисковик.

Как выглядит этот робот?

Текст типичного robots.txt для WordPress таков:

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*

Host: seo-armory.ru

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments

Disallow: /*?*

Sitemap: http://seo-armory.ru/sitemap.xml.gz
Sitemap: http://seo-armory.ru/sitemap.xml

Обратите внимание! Если на вашем блоге не включены ЧПУ (как сделать ссылки ЧПУ или даешь URL для народа), то строчку Disallow: /*?* надо удалить. Иначе у вас не будут индексироваться записи. Если ЧПУ включены, то всё в порядке.

Если вы хотите закрыть от индексации категории или тэги, то добавьте следующие строчки:

Disallow: /category
Disallow: /tag

Внимание! Хорошенько подумайте перед тем, как закрыть тэги и категории. Я сам так сделал сначала для этого блога, но сейчас считаю, что это была ошибка. Без тэгов и категорий Яндекс не смог добраться до многих страниц моего блога, и количество страниц в индексе резко уменьшилось, после чего я убрал блокировку тэгов и категорий.

Думаю, по хорошему стоит закрыть от индексации либо тэги, либо категории, но что-то одно надо оставить открытым.

Рассмотрим вкратце, что обозначает та или иная часть заклинания. Директива User-agent определяет, “пауку” какой поисковой системы предназначен дальнейший текст. Видно, что первая часть robots.txt адресована роботу Яндекса, а вторая – всем остальным (* – звездочка обозначает любых роботов).

Директивы Allow и Disallow разрешают и запрещает роботам индексации той или иной папки (обычно с целью избежать дублирования контента). В данном случае от индексации закрыты папки cgi-скриптов, админская папка, файлы плагинов, темы оформления, трэкбэки, новостные фиды, метки. Всё остальное – пожалуйста, роботы, индексируйте.

Директива Host, понимаемая только яндексом, позволяет задать основное зеркало вашего сайта (с www или без). Я предпочитаю без, хотя не знаю, есть ли какая-то разница.

Директива Sitemap позволяет задать путь к карте сайта, о которой мы поговорим чуть позднее.

Файл robots.txt создается для сайта раз и навсегда (скорее всего), так что нет смысла особенно вникать в его синтаксис. Но почитать обзорно рекомендую – вот замечательный сайт по этой теме.

Добавляем robots.txt в блог на WordPress

Создайте текстовый файл (например, в Блокноте) и назовите его robots.txt (все буквы маленькие). Скопируйте приведенный выше текст типичного “робота” в файл. Замените в трех местах адрес “Оружейной” на адрес своего блога.

Помните, как делается доступ к блогу с помощью FTP? Загрузите подготовленный robots.txt в корневую директорию вашего блога (что-то типа /domains/seo-armory.ru/public_html).

Проверяем наличие файла, набрав в адресной строке браузера: http://seo-armory.ru/robots.txt. Естественно, замените seo-armory.ru на свой блог.

Файл на месте?

Всё! :) С “роботом” закончили.

Теперь поговорим о том…

Зачем нужен sitemap.xml и как его добавить в блог на WordPress

Задача этого файла – предоставить зашедшему на сайт поисковому роботу как можно более подробную карту сайта, то есть список всех его страниц. Это не то же самое, что robots.txt, который чаще всего запрещает “паукам” ползать по той или иной папке. Это скорее обратная задача.

Я немножко упростил назначение sitemap, но тот, кто захочет глубже изучить тему, может почитать, например, здесь.

Карты бывают двух видов: в виде HTML (ее часто можно видеть в меню сайта) и в виде xml. Первый предназначен и для людей, а вот второй создается исключительно для роботов.

Если вас интересует карта сайта, предназначенная для посетителей блога, т.е. карта сайта в формате HTML, то читайте другую мою статью – “Геодезия и картография блога“, а далее мы поговорим о карте для роботов.

Создание и обновление sitemap.xml вручную – довольно хлопотное занятие, поэтому следует поблагодарить судьбу, что в WordPress для этой цели есть ряд плагинов. Один из них – Google XML Sitemap.

Не надо думать, что карта сайта, созданная с помощью этого плагина, подходит только для гугла. Нет, она сгодится всем поисковым системам.

Устанавливаем плагин (как установить?) и во вкладке “Параметры” видим новый пункт XML-Sitemap, поражающий нас обилием настроек.

Не пугайтесь. Подробное описание этих настроек – тема для отдельной статьи, но большинство из них можно оставить как есть. Лично я изменил только одну:

  • The virtual robots.txt generated by WordPress is used. A real robots.txt file must NOT exist in the blog directory!) Эта галочка добавляет путь к карте сайта в виртуальный robots.txt вордпресса. Написано: настоящего robots.txt быть не должно. А у нас он уже есть. Значит снимаем галочку.

Ознакомившись с настройками и представив возможности плагина, жмем ссылку “Построить карту сайта” (или как ее там?) вверху страницы. Если всё прошло без ошибок, то ваша карта сайта готова и доступна по адресу: http://seo-armory.ru/sitemap.xml, где вместо моего сайта вы подставляете ваш.

Если верить настройкам плагина, карта должна обновляться автоматически при изменениях в блоге.

Теперь у вашего блога есть файлы robots.txt и sitemap.xml, которые многие гуру считают совершенно необходимым условием продвижения в поисковых системах.

Ну, вот и всё, кажется. :) Вопросы в комменты.

В следующей статье мы поговорим о том, как подсунуть эти файлы яндексу и гуглу для скорейшего пережёвывания. :) А пока смотрим лучшие сцены из фильма про индийского робота (оторваться невозможно, я пробовал :) ):

 

С уважением, Оружейник

Ваша оценка статьи:

Ух ты! А тут еще есть:

Комментариев: 36

  1. Анатолий:

    Алексей, можете глянуть на мой файл и подсказать, что в нем не так? А может все и так, просто меня смущают вопросительные знаки.
    Чтобы не загромождать комменты, я отправлю по почте.

  2. Анатолий:

    Видео-ролик супер! Я тоже не мог оторваться, классные спецэффекты.
    А у меня еще один вопрос, когда открыл по ссылке свою карту сайта, оказалось, что у меня ссылки правильно через раз пишутся – вот так примерно
    вчерашняя статья -
    http://annasel.ru/retseptyi/sousyi-i-podlivyi/gribnoy-sous-iz-shampinonov
    и сегодняшняя статья -
    http://annasel.ru/retseptyi/%d1%81%d0%b0%d0%bb%d0%b0%d1%82%d0%b8%d0%ba%d0%b8/salat-vinigret
    А почему не знаю, все вроде одинаково делаю…

    • Оружейник:

      Вот такие цифири с процентами появляются, бывает, вместо кириллицы. Может название категории или подкатегории не меняется на транслит? Надо смотреть, что там с форматом ЧПУ.

      • Анатолий:

        Перед тем как написать вопрос по ссылкам, специально прошелся по всем категориям, то бишь рубрикам, альтернативное название везде, где была кирилица исправил на латиницу. Но не сработало.
        Захожу сейчас – почти все нормально, одно название только с процентами. Исправил, перезагрузил просмотр – ничего не изменилось.
        Сделал вывод, что наверное, изменения входят в силу после перезагрузки или как правильно сказать?
        Так что все в порядке уже.
        Но если бы не Ваша статья, я бы и не знал об этих непорядках.

  3. Галина:

    Алексей спасибо Вам за очень полезную информацию, которую Вы излагаете очень доступно, даже для таких “чайников”, как я. У меня вопрос такой: плагин Google XML Sitemap у меня установлен, robots.txt установила также, но для посетителей карты сайта нет. Я что-то сделала не так?

    • Оружейник:

      Галина, если вы имеете в виду что-то вроде пункта меню “Карта сайта” для посетителей, то об этом речь и не шла. В этой статье речь о карте сайта в формате XML (для индексации поисковиками, не для людей).

  4. Григорий:

    По индексации тегов и категорий: разрешать или нет? Подробнее задал в разделе вопрос/ответ. Спасибо!

  5. Евгения:

    Здравствуйте! Моя подруга сейчас учится в Старт Апе, и никак не может сделать карту сайта. У неё почему-то URL сайта выглядит не как обычно, а после названия идет .xsph.ru. Что это такое? Говорит, что их научили, что так надо сначала делать.Скажите, должно быть видно файл робота, если туда приписать еще .robots.txt?

    • Оружейник:

      Названиесайта.xsph.ru – этот домен дается в спринтхосте бесплатно. А вот чтобы был нормальный домен второго уровня типа сайт.ru, его надо оплатить и подождать некоторое время (возможно, сутки), пока домен подключится к сайту. В Старт Апе, насколько помню, учат сразу подключать домен, на странице первого домашнего задания должен быть видеоурок об этом .

      Если написать названиесайта.xsph.ru/robots.txt, то его все равно будет видно. Естественно, если robots.txt уже загрузили в корневую папку.

    • Оружейник:

      Евгения, приводите подругу сюда. :)

      • Евгения:

        Да, я ей уже давала пару ссылок на Ваш сайт, у неё просто мало времени, ненормированный рабочий день. Спасибо за ответы!

  6. Евгения:

    Да, и ещё, в корневую папку public можно попасть только через хостинг или как-то по-другому?

  7. Евгения:

    Подскажите, что это за индийский фильм про робота, первый раз вижу!

  8. Автор:

    Спасибо за информацию! Очень нужный для меня материал :) Я все с индексацией никак не разберусь – не любит меня Яндекс за что-то :( Ну да ничего! Все наладим :)

  9. Автор:

    Здравствуйте.
    Не подскажите, для чего в файле robots.txt нужна директива
    Sitemap: http://sozdaniesaytov.tw1.ru/sitemap.xml.gz
    ?

  10. Автор:

    Доброго времени суток!!! А у меня беда с роботом. я его установила и все статьи написанные до его установке в google перестали объявляться а пишут “Описание веб-страницы недоступно из-за ограничений в файле robots.txt.” Я с испугу удалила робот вообще.С чем может быть связано такое сообщение. Может мне нужно все равно установить робот, а потом заново восстановить статьи. На сайте у меня ворох проблем пытаюсь разобраться по мере их появления. при условии что с компьютером я на Вы и шепотом работа идет тяжко, но я настойчива.поэтому на остальные ошибки пока не смотрите. Заранее благодарна за дельный совет.

    • Оружейник:

      Значит вы заблокировали URL статей в вашем robots.txt. Не видя текст роботса, не могу сказать, в чем конкретно проблема.

  11. Автор:

    А посмотрите пожалуйста!!! Буду очень признательна, заранее благодарна!!
    User-agent: *
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /feed/
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /wp-trackback
    Disallow: */comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /?s=

    User-agent: Yandex
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /feed/
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /?s=
    Host: pelenashka.com

    Sitemap: http://pelenashka.com/sitemap.xml.gz
    Sitemap: http://pelenashka.com/sitemap.xml

    Огромное спасибо!!!

    • Оружейник:

      Мария, запрета ваших статей в данном robots.txt нет. Возможно, он был и гугл еще не проиндексировал сайт заново.
      А вы уверены, что у вас запрещены именно статьи, а не, к примеру, страницы поиска или категорий? В адресах статей у вас обязательно должно быть “?p=”. Покажите какую-нибудь ссылку из панели вебмастера гугла, которая там показана как запрещенная.

    • Оружейник:

      P.S. Ваши статьи в индексе гугла есть, проверил самую первую. Видимо, у вас все-таки не статьи запрещены.

  12. Автор:

    Вы правы, это я новый текст robots.txt вам прислала, что бы не повторить свою ошибку. значит в нем все хорошо. большое спасибо что посмотрели.

  13. Простой:

    Такой вот вопрос возник. А нужно ли / как скрывать /скрыть такое: сайт.ру/2012/08??
    А то в яндекс вебмастере показывается, что это вот про индексировалось: сайт.ру/2012/08.
    То есть как я понимаю архив в индексацию влез?

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*

Пожалуйста, скопируйте этот пароль:

И вставьте его сюда (антиспам):


  • Оружейник
    on Google+