Robots.txt — очень важная новость

Особенность определения своей секции у Яндекса
Оказывается, что Яндекс проверяет user-agent не на точное соответсвие строки, а на совпадение по подстроке в формате «*yandex*». То есть если, например, написать в robots.txt «User-agent: Yandex_Ty_neprav» или «User-agent: BlyaYandexBlogFuck», то робот Яндекс-поисковика решит, что эта секция для него.

Как следствие нельзя сделать отдельную секцию в robots.txt для для бота Яндекс-блогов, как я описывал в прошлых постах. То решение полностью открывает весь сайт для индексации за счет следующих строкв самом начале файла.
User-agent: YandexBlog
Disallow:

Теперь интересно, реагирует ли вообще паук Яндекс-блога на секцию написанную специально для него? Сейчас проведу эксперимент. Перед публикацией этого поста закрою именно для него весь сайт, а для паука Яндекс-поиска открою.
User-agent: Yandex
Disallow:

User-agent: YandexBlog
Disallow: /

В результате тестов было установлена, что паук Яндекс-поиска реагирует на первую секцию подходящую для него по подстроке (вернее он реагирует и не последующие, если они не противоречат первой). То есть вышеприведенный вариант robots.txt откроет страницу для паука Яндекс-поиска, но теоретически закроет для паука Яндекс-блогов. Если это так, то данный пост не появится в поиске по блогам. Если же появится, то значит паук Яндекс-блогов секцию предназначенную для него не учитывает и нет смысла ему что-то указывать.

Обычно посты из этого блога попадают в поиск по блогам через 3−5 часов. То есть если к завтрашнему утру там не будет этого поста по запросу «Robots.txt — очень важная новость», то все сработало.

Местоположение директивы Sitemap
Было установлено, что пауку Яндекс-поиска без разницы в каком месте robots.txt находится директива Sitemap. То есть в начале файла, в конце, в секции для другого поисковика — не важно, он все равно ее учтет.

----------
Реклама: Сайт бесплатных объявлений работа в Одессе — вакансии, резюме.

Теги: , ,

Еще по теме

Posted on февраля 10, 2009 
Filed Under Как вести и продвигать блог

Комментарии

Всего комментариев: 20

  1. Денис Болтиков - февраля 10, 2009 02:15

    «35 мин. назад»

    В общем данный пост в поиске Яндекс-блогов.

  2. AlexVolkov - февраля 10, 2009 02:18

    >>в начале файла, в конце, в секции для другого поисковика

    А существует ли вообще порядок расположения директив в роботсе? Не нашел ни в гугле ни на оффсайте никаких упоминаний на эту тему

  3. Los Maniacos - февраля 10, 2009 02:42

    Спасибо:)за такой эксперимент как всегда полезен... а откуда такая информация?

  4. Los Maniacos - февраля 10, 2009 02:49

    А и еще чуть не забыл в разделе онлайн сервисы для веб-разработчиков ссылка в меню администрирования не работает больше

  5. Денис Болтиков - февраля 10, 2009 03:58

    Los Maniacos

    Спасибо, исправлю.

    >> откуда такая информация?

    Из анализа данных в панели Яндекс Вебмастер.

  6. Денис Болтиков - февраля 10, 2009 04:00

    >> А существует ли вообще порядок расположения директив в роботсе?

    Для «Host» порядок следования точно имеет значение. Эту инфу надо искать в хелпах поисковиков.

  7. Омский студент - февраля 10, 2009 13:09

    Спасибо за эксперимент и полученную полезную информацию.

  8. Los Maniacos - февраля 10, 2009 16:02

    Спасибо по больше таких анализов...очень интересно

  9. Dreamer - февраля 10, 2009 16:27

    весьма любопытно, спасибо!

  10. Lecactus - февраля 10, 2009 16:59

    Вообще-то насколько мне известно на личном опыте ЯНДЕКС-БЛОГИ индексируют только RSS блогов и форумов и до роботс.txt им по барабану. можете легко это проверить — в выдаче яндекс-блоги всегда только сам пост как он есть в рсс без оформления страницы

  11. Lecactus - февраля 10, 2009 16:59

    ну и РСС-ленту комментариев блогов тоже индексирует _отдельно_

  12. Денис Болтиков - февраля 10, 2009 17:28

    Lecactus

    В хелпе поиска по Яндекс-блогам сказано, что если вы хотите удалить свой сайт из поиска, то закройте доступ к фиду через robots.txt.

  13. Lecactus - февраля 11, 2009 14:21

    там много чего в хелпе написано :) тем не менее факт — можешь проверить и по своему блогу и по моему что там в выдаче попадается. ЯБЛОГИ сам ищет урл фида и индексирует его. может то что ты закрыл и повлияет на яблоги но не сразу, а через месяц-другой...

    ЗЫ коменты на мыло не приходят что то

  14. Красуля - февраля 12, 2009 02:25

    Знаю сайты где нет файла Robots.txt и сайты все равно по ряду ключевиков в первых позициях яндекса.

    Значит этот файл не обязателен?

  15. Богдан - февраля 12, 2009 19:52

    У меня его нет но я собираюсь его сделать.

    Инфа очень кстати. Спасибо.

  16. Денис Болтиков - февраля 12, 2009 20:00

    Я продолжаю эксперименты с robots.txt

  17. Grafek3d - февраля 12, 2009 23:16

    Какой вообще смысл закрывать доступ для робота блогов или поиска? Помойму либо все открыть, либо закрыть. Это теги было бы смысл закрывать, что бы не было дубляжа текста, а тут то зачем?

    Спасибо заранее за ответ)

  18. Техник - февраля 13, 2009 17:23

    Я тоже что-то не врубился в практическую значимость эксперимента... Суть понял, но это хоть как-то можно использовать?Oo

  19. Нейтроник - февраля 20, 2009 07:21

    Добавил предложенный сайтмап и блог не может никак проиндексироваться :( писал в поддержку — говорят автоматически сгенерированные страницы...

  20. Денис Болтиков - февраля 20, 2009 12:22

    Нейтроник

    Ну а sitemap тут причем если блог автоматически наполняется?)

Комментарии закрыты.

Тема Vertigo Blue Theme от Brian Gardner.
Движок WordPress.

Рейтинг блогов