Денис Болтиков
Мысли вслух
блог дениса болтикова

Главная > 2009 > Идеальный robots.txt для Wordpress — 2

 

 

Идеальный robots.txt для Wordpress — 2

Идеальный robots.txt для Wordpress — 2

Продолжаю создавать идеальный robots.txt для Wordpress. По сравнению с прошлой версией накопилось много изменений, поэтому выкладываю новую.

Новая версия
User-agent: YandexBlog
Disallow:

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag/
Disallow: /page/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Allow: /wp-content/uploads/
Sitemap: http://domain/sitemap.xml

Комментарии
Добавлены следующий строчки:
«Disallow: /tag/» — запрет индексации листинга постов по определенному тегу, закрывается с целью избежать дублирование контента, ускорения индексации.
«Disallow: /page/» — запрет индексации листинга постов в отсчте от главной, закрывается с целью избежать дублирование контента, ускорения индексации.
«Disallow: /?s=» — запрет индексации листинга результатов поиска, закрывается с целью избежать дублирование контента, ускорения индексации.
«Sitemap: http://denis.boltikov.ru/sitemap.xml» — ссылка на Sitemap. Подробнее о тонкостях работы с sitemap в одном из следующих постов, когда сам до конца разберусь с некоторыми мелочами.

Что дальше
Дальше буду проводить исследования и думать в следующих направлениях — редкоиспользумые типы страниц Wordpress; — отдельного блока директив для Google где будут открыты фиды; — если есть sitemap, то стоит ли закрыть от индексации рубрики.

----------
Реклама: Аренда недвижимости в Самаре

Ещё по теме:

 

Написано Январь 23, 2009


Комментарии

AlexVolkov - января 23, 2009 11:19
Я так понял Host будет через .htaccess определятся.
Может использовать более короткий вариант, вместо:
Disallow: /wp-login.ph
Disallow: /wp-register.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
написать вот так
Disallow:/wp-*
?
И вот тут:
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Зачем звездочка впередил и комментс два раза?

Денис Болтиков - января 23, 2009 11:46
AlexVolkov
>> Disallow:/wp-*
Теоретически можно. Практически в 99.9% тоже можно. В окончательном варианте наверно использую твое решение. А пока пусть будет как есть, так более наглядно.
>> И вот тут:
Там не только комментс два раза, а тракбэк и фид тоже два раза. Вариант со звездочкой впереди нужен для того чтобы закрыть от индексации трекбеки и фид комментариев к постам, так как там адрес типа /2009/01/postname/feed/
Но если оставлять только со звездочкой, то другие поисковики могут ее не понять.
>> */comments/
Эта конструкция скорее всего избыточная. К следующей версии выясню точно.

AlexVolkov - января 23, 2009 12:58
>>2009/01/postname/feed/
Т.е. вариант подходит только для блогов с чпу как у тебя.
Я тут пофилософствовал немного на тему прописывать ли хост или делать редирект через хтакссес.
alexvolkov.ru/host-dlya-w...hen-ili-net.html
Прокоментируешь?

Денис Болтиков - января 23, 2009 13:38
>> Т.е. вариант подходит только для блогов с чпу как у тебя.
Да. Как закрыть индексацию ссылок заданные через параметры в QUERY_STRING пока не смотрел.

Vit@L - января 23, 2009 13:44
Можно добавить ещё:
Sitemap: domain/sitemap.xml.gz
конечно, если есть карта в архиве.

Alex - января 24, 2009 22:18
Спасибо, попробую применить на паре блог-проектов, чтобы оценить отличия.

Роман - января 26, 2009 12:32
ХМ... а сам-то не применил новый robots.txt на своем блоге... ))))
Помоему реально не за чем вводить новые строки
Disallow: /tag/
Disallow: /page/
Не нужно уж в конец ради скорости индексации жертвовать позициями в поисковиках и количеством страниц, который содержат в себе полезную информацию, а это именно те страницы!!! А если стоит вопрос индексации новых статей то они в любом случае, даже без роботс.тхт бысро индексируются!
А вот эти строки, реально нужны в robors.txt:
Disallow: /?s=
Sitemap: domain/sitemap.xml
Удачи в строительстве роботс.тхт, только нужно прикладывать к этому больше благоразумия, не преследуя цель: только увеличения скорости индексации, не нужно забывать про качество в общем.

Денис Болтиков - января 26, 2009 21:50
Роман
Теги закрою, а вот page на этом блоге пока не могу закрыть, но собираюсь. Зато на всех других блогах у меня сделано именно так.
Теги надо закрываь от индексации потому что на этих страницах контент дублируется, все что есть на странице тегов есть и на странице сооветсвующих постов. То же самое и со страницами.

Mig - января 31, 2009 18:53
А почему category не закрываем? Ведь так же как и метки — тоже дублирует контент

seoplayer - февраля 1, 2009 15:37
испытал на одном блоге.
в индекс яндекса влетело всё — и tags, и page.

Денис Болтиков - февраля 1, 2009 16:14
seoplayer
А зачем они тебе там? Если только в SAPE продавать )
У тебя кстати стандартная ошибка в robots.txt. Директива «Host: www.seoplayer.ru» отделен пустой строкой от последнего disallow, а значит не будет работать. Прочитай доки от яндекса.

seoplayer - февраля 1, 2009 16:53
>А зачем они тебе там? Если только в SAPE продавать )
имел ввиду, что по твоему robots.txt так получается.
на seoplayer стоит редирект с основного домена на ввв, поэтому я разницы не заметил :)

Денис Болтиков - февраля 1, 2009 18:22
seoplayer
Ну у тебя ведь не такой robots.txt, а свой вариант :)

seoplayer - февраля 1, 2009 22:34
Денис, я испытывал на другом сайте ;)

Денис Болтиков - февраля 1, 2009 23:16
Понял. Странно. Я проверял через тестер robots.txt от яндекса — он сказал что данные страницы закрыты от индексирования.

женатый сеошник - февраля 3, 2009 14:29
Если блог под биржы ссылок — ничего закрывать не стоит. Да и на СДЛ я не закрываю, пессимизации не было

Новичок в СЕО - февраля 4, 2009 02:22
Яндекс считает что
Disallow: */trackback/
уже включает в себя
Disallow: /trackback/
https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html#allow-disallow

MLMовка - февраля 4, 2009 06:06
Денис, добавляй тогда ещё строчку :)
Sitemap: domain/sitemap.xml.gz
тем более что плагин сам этот архив создаёт.

Mig - февраля 4, 2009 18:15
Так что про категории все забыли или там какой секрет?

Денис Болтиков - февраля 5, 2009 12:33
Mig
По идеи их тоже надо закрывать. Но у себя я не буду. Вместо этого у меня просто вывод всех заголовков постов в качестве ссылок на нужные страницы. Этакая миникарта сайта, а точнее отдельной категории.

Денис Болтиков - февраля 5, 2009 12:36
MLMовка
gz или обычный xml это уже не принципиально :)

Денис Болтиков - февраля 5, 2009 12:40
Новичок в СЕО
Яндекс включает, но * не включена в стандарт robots.txt, поэтому есть вероятность, что встреттся поисковики, которые эту инструкцию не поймут и проигнорируют. Поэтому я использую оба варианта.

РоботЯга - февраля 7, 2009 13:15
Помоему не стоит слишком сильно увлекаться запретами, а то так в индексе ничего кроме главной страницы не останется...

Grafek3d - февраля 12, 2009 21:09
Ага, спасибо, это я попробую, вне не было желание лезть самому в htaccess.

 

Денис Болтиков

Архив

Сайт создан в 2007 г. © Блог Дениса Болтикова | Seoded.ru — Создание сайта