Идеальный robots.txt для Wordpress — 2

Продолжаю создавать идеальный robots.txt для Wordpress. По сравнению с прошлой версией накопилось много изменений, поэтому выкладываю новую.

Новая версия
User-agent: YandexBlog
Disallow:

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag/
Disallow: /page/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Allow: /wp-content/uploads/
Sitemap: http://domain/sitemap.xml

Комментарии
Добавлены следующий строчки:
«Disallow: /tag/» — запрет индексации листинга постов по определенному тегу, закрывается с целью избежать дублирование контента, ускорения индексации.
«Disallow: /page/» — запрет индексации листинга постов в отсчте от главной, закрывается с целью избежать дублирование контента, ускорения индексации.
«Disallow: /?s=» — запрет индексации листинга результатов поиска, закрывается с целью избежать дублирование контента, ускорения индексации.
«Sitemap: http://denis.boltikov.ru/sitemap.xml» — ссылка на Sitemap. Подробнее о тонкостях работы с sitemap в одном из следующих постов, когда сам до конца разберусь с некоторыми мелочами.

Что дальше
Дальше буду проводить исследования и думать в следующих направлениях — редкоиспользумые типы страниц Wordpress; — отдельного блока директив для Google где будут открыты фиды; — если есть sitemap, то стоит ли закрыть от индексации рубрики.

----------
Реклама: Аренда недвижимости в Лондоне

Теги: , ,

Еще по теме

Posted on января 23, 2009 
Filed Under Как вести и продвигать блог

Комментарии

Всего комментариев: 24

  1. AlexVolkov - января 23, 2009 11:19

    Я так понял Host будет через .htaccess определятся.

    Может использовать более короткий вариант, вместо:

    Disallow: /wp-login.php

    Disallow: /wp-register.php

    Disallow: /wp-admin

    Disallow: /wp-includes

    Disallow: /wp-content

    написать вот так

    Disallow:/wp-*

    ?

    И вот тут:

    Disallow: /comments/

    Disallow: */trackback/

    Disallow: */feed/

    Disallow: */comments/

    Зачем звездочка впередил и комментс два раза?

  2. Денис Болтиков - января 23, 2009 11:46

    AlexVolkov

    >> Disallow:/wp-*

    Теоретически можно. Практически  в 99.9% тоже можно. В окончательном варианте наверно использую твое решение. А пока пусть будет как есть, так более наглядно.

    >> И вот тут:

    Там не только комментс два раза,  а тракбэк и фид тоже два раза. Вариант со звездочкой впереди нужен для того чтобы закрыть от индексации трекбеки и фид комментариев к постам, так как там адрес типа /2009/01/postname/feed/

    Но если оставлять только со звездочкой, то другие поисковики могут ее не понять.

    >> */comments/

    Эта конструкция скорее всего избыточная. К следующей версии выясню точно.

  3. AlexVolkov - января 23, 2009 12:58

    >>2009/01/postname/feed/

    Т.е. вариант подходит только для блогов с чпу как у тебя.

    Я тут  пофилософствовал немного на тему прописывать ли хост или делать редирект через хтакссес.

    alexvolkov.ru/host-dlya-w...hen-ili-net.html

    Прокоментируешь?

  4. Денис Болтиков - января 23, 2009 13:38

    >> Т.е. вариант подходит только для блогов с чпу как у тебя.

    Да. Как закрыть индексацию ссылок заданные через  параметры в QUERY_STRING пока не смотрел.

  5. Vit@L - января 23, 2009 13:44

    Можно добавить ещё:

    Sitemap: domain/sitemap.xml.gz

    конечно, если есть карта в архиве.

  6. Alex - января 24, 2009 22:18

    Спасибо, попробую применить на паре блог-проектов, чтобы оценить отличия.

  7. Роман - января 26, 2009 12:32

    ХМ... а сам-то не применил новый robots.txt на своем блоге... ))))

    Помоему реально не за чем вводить новые строки

    Disallow: /tag/

    Disallow: /page/

    Не нужно уж в конец ради скорости индексации жертвовать позициями в поисковиках и количеством страниц, который содержат в себе полезную информацию, а это именно те страницы!!! А если стоит вопрос индексации новых статей то они в любом случае, даже без роботс.тхт бысро индексируются!

    А вот эти строки, реально нужны в robors.txt:

    Disallow: /?s=

    Sitemap: domain/sitemap.xml

    Удачи в строительстве роботс.тхт, только нужно прикладывать к этому больше благоразумия, не преследуя цель: только увеличения скорости индексации, не нужно забывать про качество в общем.

  8. Денис Болтиков - января 26, 2009 21:50

    Роман

    Теги закрою, а вот page на этом блоге пока не могу закрыть, но собираюсь. Зато на всех других блогах у меня сделано именно так.

    Теги надо закрываь от индексации потому что на этих страницах контент дублируется, все что есть на странице тегов есть и на странице сооветсвующих постов. То же самое и со страницами.

  9. Mig - января 31, 2009 18:53

    А почему category не закрываем? Ведь так же как и метки — тоже дублирует контент

  10. seoplayer - февраля 1, 2009 15:37

    испытал на одном блоге.

    в индекс яндекса влетело всё — и tags, и page.

  11. Денис Болтиков - февраля 1, 2009 16:14

    seoplayer

    А зачем они тебе там? Если только в SAPE продавать )

    У тебя кстати стандартная ошибка в robots.txt. Директива «Host:  www.seoplayer.ru» отделен пустой строкой от последнего disallow, а значит не будет работать. Прочитай доки от яндекса.

  12. seoplayer - февраля 1, 2009 16:53

    >А зачем они тебе там? Если только в SAPE продавать )

    имел ввиду, что по твоему robots.txt так получается.

    на seoplayer стоит редирект с основного домена на ввв, поэтому я разницы не заметил :)

  13. Денис Болтиков - февраля 1, 2009 18:22

    seoplayer

    Ну у тебя ведь не такой robots.txt, а свой вариант :)

  14. seoplayer - февраля 1, 2009 22:34

    Денис, я испытывал на другом сайте ;)

  15. Денис Болтиков - февраля 1, 2009 23:16

    Понял. Странно. Я проверял через тестер robots.txt от яндекса — он сказал что данные страницы закрыты от индексирования.

  16. женатый сеошник - февраля 3, 2009 14:29

    Если блог под биржы ссылок — ничего закрывать не стоит. Да и на СДЛ я не закрываю, пессимизации не было

  17. Новичок в СЕО - февраля 4, 2009 02:22

    Яндекс считает что

    Disallow: */trackback/

    уже включает в себя

    Disallow: /trackback/

    help.yandex.ru/webmaster/?id=996567

  18. MLMовка - февраля 4, 2009 06:06

    Денис, добавляй тогда ещё строчку :)

    Sitemap: domain/sitemap.xml.gz

    тем более что плагин сам этот архив создаёт.

  19. Mig - февраля 4, 2009 18:15

    Так что про категории все забыли или там какой секрет?

  20. Денис Болтиков - февраля 5, 2009 12:33

    Mig

    По идеи их тоже надо закрывать. Но у себя я не буду. Вместо этого у меня просто вывод всех заголовков постов в качестве ссылок на нужные страницы. Этакая миникарта сайта, а точнее отдельной категории.

  21. Денис Болтиков - февраля 5, 2009 12:36

    MLMовка

    gz или обычный xml это уже не принципиально :)

  22. Денис Болтиков - февраля 5, 2009 12:40

    Новичок в СЕО

    Яндекс включает, но * не включена в стандарт robots.txt, поэтому есть вероятность, что встреттся поисковики, которые эту инструкцию не поймут и проигнорируют. Поэтому я использую оба варианта.

  23. РоботЯга - февраля 7, 2009 13:15

    Помоему не стоит слишком сильно увлекаться запретами, а то так в индексе ничего кроме главной страницы не останется...

  24. Grafek3d - февраля 12, 2009 21:09

    Ага, спасибо, это я попробую, вне не было желание лезть самому в htaccess.

Комментарии закрыты.

Тема Vertigo Blue Theme от Brian Gardner.
Движок WordPress.

Рейтинг блогов