Как создать правильный файл robots.txt для WordPress

Как создать правильный файл robots.txt для WordPress

Правильно составленный файл robots.txt для вашего WordPress блога, это гарантия того что поисковые системы проиндексируют Ваш сайт так как нужно.именно ВАМ.

Многие новички, по наивности, считают что чем больше станиц в поиске тем лучше для сайта.

Однако это совсем не так. В поиске должно быть ровно столько страниц сколько статей на вашем сайте плюс еще одна-главная.

Таким образом если на Вашем сайте 23 статьи плюс 5 страниц( страница о сайте, контакты, карта сайта и т.п.), значит в поиске должно быть 23+5+1, 29 страниц но не больше.

Возможно будет меньше, если поисковик проиндексировал не все страницы, это нормально и бывает на всех молодых сайтах.

Теперь попробуем разобраться почему иногда в поиске больше страниц, насколько это вредно для сайта и как решить проблему с помощью файла robots.txt

Попробуем как можно проще объяснить, для чего нужен robots.txt.

Мы используем для ведения сайта CMS WordPress. Эта система автоматически генерирует страницы с контентом.

Рассмотрим как получаются дубли контента.

1. Так получается, что мы можем получить похожие дубли контента, например анонсов статей, на страницах поиска, архивов, рубрик

2. Страницы, которые автоматически создаются при комментировании.

Чтоб было понятно на примере вот этой статьи Создание общей структуры блога

ее ссылка вот такая //wp-home.info/videouroki/sozdanie-obshhej-struktury-bloga.html

И смотрите комментарий посетителя Леонида создает дубль этой статьи, но уже с адресом

//wp-home.info/videouroki/sozdanie-obshhej-struktury-bloga.html#comment-372

Так создается не нужный дубль контента при комментариях.

3. Когда мы вставляем катринки в запись, наш WordPress создает для них отдельные страницы, это так же дубль, но для картинок.

Все мы знаем, что любой дубль Вашего контента — это дополнительный минус его уникальности в глазах поисковых систем. И никого не волнует, что этот дублированный контент на Вашем сайте, а не на чужом и что вы его не воруете.

Любой дубль снижает уникальность контента.

Вот для решения вот таких проблем и был создан файл robots.txt.

С помощью файла robots.txt,  мы можем четко прописать поисковым роботам, что нужно индексировать а что не стоит.

Рассмотрим как поисковый робот заходит на сайт.

Нет он не ломится к Вам в гости  и не начинает с главной страницы. Нет он сначала ищет файл robots.txt в котором получает информацию куда ему лучше пойти в первую очередь, например на hml-карту сайта, и в какие укромные места сайта, не нужно заглядывать вообще.

Наверняка на блоге есть каталоги, которые нужно закрыть от индексации, чтоб туда не попал случайный посетитель, например каталоги администрирования или различные закрытые разделы.

Элементы управления в robots.txt

Рассмотрим с помощью каких  инструментов-операторов, мы сможем управлять действиями поискового робота на нашем сайте.

Их на придумывали достаточно много, но я Вам предлагаю не забивать голову.

Нам в работе с WordPress понадобится несколько основных:

User-agent – в этой директиве вы указываете для какого робота данные задачи.

Например, для Яндекса вот так

User-agent: Yandex

Для остальных поисковых роботов

User-agent: *

Сейчас еще добавился поиск по картинкам поэтому

User-agent: Googlebot-Image для Гугла

User-agent: YandexImages для Яндекса

Следующая директива Disallow: в ней мы прописываем директории, которые не нужно индексировать

Например

Disallow: /wp-admin

Значит каталог wp-admin запрещён для индексации.

Оператор Allow: с его помощью мы наоборот указывает какие каталоги нужно индексировать.

Например

User-agent: Googlebot-Image

Allow: /wp-content/uploads/

Этот код можно прочитать, так-роботу Googlebot-Image можно индексировать каталог /wp-content/uploads/ в котором как мы знаем находятся картинки к статьям WordPress.

Еще нам стоит знать директивы:

Host: указываем главное зеркало сайта

Sitemap: указываем путь к файлу Sitemap.hml , облегчаем работу роботу.

Вот пожалуй и все что нам нужно знать, чтоб правильно создать файл robots.txt для WordPress

Создаем идеальный файл robots.txt для WordPress

Процесс создания очень простой.  Создаете в программе блокнот файл текстовый файл  robots с расширением txt.

После его нужно будет залить с помощью любого FTP менеджера в корень Вашего сайта.

Если мы обратимся на сайт разработчиков WordPress то они советуют использовать вот такой.

———————————————————

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

User-agent: Yandex

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Host: site.ru

Sitemap: //site.ru/sitemap.xml

User-agent: Googlebot-Image

Allow: /wp-content/uploads/

User-agent: YandexImages

Allow: /wp-content/uploads

——————————————————————-

Можете брать его на вооружение, подправьте свой домен site.ru и в целом файл будет работать не плохо.

Но я бы добавил в него еще несколько строчек.

Так например:

Disallow: /feed/ закрыть RSS ленту, там ведь то же идут анонсы новостей

Disallow: */feed закрываем всевозможные фиды комментариев и т.п.

Disallow: /trackback закрыть страницы, которые создаются для загружаемых картинок

Disallow: */trackback то же самое

Disallow: */comment-page-* закрываем страницы создаваемый при добавлении комментариев на отдельных страницах, например странице контактов

Disallow: */comments закрываем страницы создаваемый при добавлении комментариев к статьям.

Disallow: /*/?replytocom=* закрываем страницы создаваемые при ответах на комментарии

Сейчас мой файл robots.txt к данному сайту wp-home.info

Вот такой.

Вы можете для примера посмотреть, как прописан этот файл на любом сайте, они не закрываются от просмотра.

Для этого набираем нужный нам домен/robots.txt

Советую посмотреть по сравнивать и по анализировать для себя.

Желаю вам удачи в составлении правильного файла robots.txt для WordPress.

Прилаживаю к этой статье видео о том как проверять robots.txt на Яндекс-вебмастере

//youtu.be/CtxXmZXU9zE

Если есть вопросы по составлению файла robots.txt, пишите их в комментариях, будем решать.


Обсуждение: 8 комментариев
  1. Пишите, как советует автор и любой плохой человек увидит какая у вас.

    CMS. А ЭТО РИСКОВАННО.
    Все ли я верно говорю?
    Вопрос оставляю открытым!

    Ответить
    1. На самом деле определить движок сайта может практически каждый и не нужно быть гуру или лезть в код, есть куча сервисов.
      Поверьте тот кто захочет поковырять сайт определит Вашу CMS и без robots.txt
      Так что не согласен!

      Ответить
  2. Юрий:

    Добрый день,у многих блогеров немного отличаются файлы но я скомпоновал файл от всех и получился большой файл может я что то лишнее напихал может поправите?

    User-agent: *
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /xmlrpc.php
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /wp-content/languages
    Disallow: /category/*/*
    Disallow: */comment-page-*
    Disallow: */comments
    Disallow: /*/?replytocom=*
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: /tag/
    Disallow: /feed/
    Disallow: */*/feed/*/
    Disallow: */feed$
    Disallow: */*/feed$
    Disallow: /?feed=
    Disallow: /*?*
    Disallow: /?s=
    Sitemap: _http://мой сайт/sitemap.xml.gz
    Sitemap: _http://мой сайт/sitemap.xml

    User-agent: Yandex
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /xmlrpc.php
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /wp-content/languages
    Disallow: /category/*/*
    Disallow: */comment-page-*
    Disallow: */comments
    Disallow: /*/?replytocom=*
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: /tag/
    Disallow: /feed/
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: */*/feed
    Disallow: /?feed=
    Disallow: /*?*
    Disallow: /?s=
    Host: мой сайт

    User-agent: Googlebot-Image
    Allow: /wp-content/uploads/
    User-agent: YandexImages
    Allow: /wp-content/uploads

    Мне не понятно если запретить комментарии то они не будут индексироваться?

    Ответить
    1. Комментарии будут индексироваться, не будут попадать в индекс дубли страниц которые они создают.
      Вот например ваш комментарий создал дубль этой страницы с адресом _http://wp-home.info/raskrutka-sajta/fajl-robots-txt-dlya-wordpress.html#comments1506
      И он в индексацию не попадает.
      Насчет проверки robots.txt , я же показал как проверять в Яндексе. Смотрите чтоб основные страницы были открыты, остальное нужно закрывать.
      Чтоб хорошо проверить нужно время, а у меня сейчас его катастрофически не хватает.

      Ответить
  3. Есть папка на сервере templates, и в ней файлы .htm Я создал файл чатес и в нем прописал Options All -Indexes все норм просмотреть не возможно папку но и сайт тогда не подгружает шаблон.. Как сделать так что бы в папку templates по прямой ссылке нельзя было зайти, а сайт при этом нормально работал и подгружал шаблон?

    Ответить
    1. Попробуй такой оператор, только остальное убери
      deny from all

      или еще проще моя старая статья http://infomaster.su/stati/kak-zakryt-papku-ot-prosmotra.html

      Ответить
  4. Подскажите нужно ли блокировать строчки wp-comment или */comments?

    Ответить
    1. Да нужно, ведь каждый комментарий создает дополнительный дубль страницы.

      Ответить

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Скачать новый WordPress с фирменным набором плагинов
Следите за нашими новостями
Подпишись на мой канал
Поиск по сайту
Бесплатный видео курс по созданию сайта на WordPress