Денис Болтиков
Мысли вслух
блог дениса болтикова

Главная > 2009 > Robots.txt — очень важная новость

 

 

Robots.txt — очень важная новость

Robots.txt — очень важная новость

Особенность определения своей секции у Яндекса
Оказывается, что Яндекс проверяет user-agent не на точное соответсвие строки, а на совпадение по подстроке в формате «*yandex*». То есть если, например, написать в robots.txt «User-agent: Yandex_Ty_neprav» или «User-agent: BlyaYandexBlogFuck», то робот Яндекс-поисковика решит, что эта секция для него.

Как следствие нельзя сделать отдельную секцию в robots.txt для бота Яндекс-блогов, как я описывал в прошлых постах. То решение полностью открывает весь сайт для индексации за счет следующих строкв самом начале файла.

User-agent: YandexBlog
Disallow:

Теперь интересно, реагирует ли вообще паук Яндекс-блога на секцию написанную специально для него? Сейчас проведу эксперимент. Перед публикацией этого поста закрою именно для него весь сайт, а для паука Яндекс-поиска открою.

User-agent: Yandex
Disallow:
User-agent: YandexBlog
Disallow: /

В результате тестов было установлена, что паук Яндекс-поиска реагирует на первую секцию подходящую для него по подстроке (вернее он реагирует и не последующие, если они не противоречат первой). То есть вышеприведенный вариант robots.txt откроет страницу для паука Яндекс-поиска, но теоретически закроет для паука Яндекс-блогов. Если это так, то данный пост не появится в поиске по блогам. Если же появится, то значит паук Яндекс-блогов секцию предназначенную для него не учитывает и нет смысла ему что-то указывать.

Обычно посты из этого блога попадают в поиск по блогам через 3−5 часов. То есть если к завтрашнему утру там не будет этого поста по запросу «Robots.txt — очень важная новость», то все сработало.

Местоположение директивы Sitemap
Было установлено, что пауку Яндекс-поиска без разницы в каком месте robots.txt находится директива Sitemap. То есть в начале файла, в конце, в секции для другого поисковика — не важно, он все равно ее учтет.

----------
Реклама: Сайт бесплатных объявлений работа в Одессе — вакансии, резюме.

Ещё по теме:

 

Написано Февраль 10, 2009


Комментарии

Денис Болтиков - февраля 10, 2009 02:15
«35 мин. назад»
В общем данный пост в поиске Яндекс-блогов.

AlexVolkov - февраля 10, 2009 02:18
>>в начале файла, в конце, в секции для другого поисковика
А существует ли вообще порядок расположения директив в роботсе? Не нашел ни в гугле ни на оффсайте никаких упоминаний на эту тему

Los Maniacos - февраля 10, 2009 02:42
Спасибо:)за такой эксперимент как всегда полезен... а откуда такая информация?

Los Maniacos - февраля 10, 2009 02:49
А и еще чуть не забыл в разделе онлайн сервисы для веб-разработчиков ссылка в меню администрирования не работает больше

Денис Болтиков - февраля 10, 2009 03:58
Los Maniacos
Спасибо, исправлю.
>> откуда такая информация?
Из анализа данных в панели Яндекс Вебмастер.

Денис Болтиков - февраля 10, 2009 04:00
>> А существует ли вообще порядок расположения директив в роботсе?
Для «Host» порядок следования точно имеет значение. Эту инфу надо искать в хелпах поисковиков.

Омский студент - февраля 10, 2009 13:09
Спасибо за эксперимент и полученную полезную информацию.

Los Maniacos - февраля 10, 2009 16:02
Спасибо по больше таких анализов...очень интересно

Dreamer - февраля 10, 2009 16:27
весьма любопытно, спасибо!

Lecactus - февраля 10, 2009 16:59
Вообще-то насколько мне известно на личном опыте ЯНДЕКС-БЛОГИ индексируют только RSS блогов и форумов и до роботс.txt им по барабану. можете легко это проверить — в выдаче яндекс-блоги всегда только сам пост как он есть в рсс без оформления страницы

Lecactus - февраля 10, 2009 16:59
ну и РСС-ленту комментариев блогов тоже индексирует _отдельно_

Денис Болтиков - февраля 10, 2009 17:28
Lecactus
В хелпе поиска по Яндекс-блогам сказано, что если вы хотите удалить свой сайт из поиска, то закройте доступ к фиду через robots.txt.

Lecactus - февраля 11, 2009 14:21
там много чего в хелпе написано :) тем не менее факт — можешь проверить и по своему блогу и по моему что там в выдаче попадается. ЯБЛОГИ сам ищет урл фида и индексирует его. может то что ты закрыл и повлияет на яблоги но не сразу, а через месяц-другой...
ЗЫ коменты на мыло не приходят что то

Красуля - февраля 12, 2009 02:25
Знаю сайты где нет файла Robots.txt и сайты все равно по ряду ключевиков в первых позициях яндекса.
Значит этот файл не обязателен?

Богдан - февраля 12, 2009 19:52
У меня его нет но я собираюсь его сделать.
Инфа очень кстати. Спасибо.

Денис Болтиков - февраля 12, 2009 20:00
Я продолжаю эксперименты с robots.txt

Grafek3d - февраля 12, 2009 23:16
Какой вообще смысл закрывать доступ для робота блогов или поиска? Помойму либо все открыть, либо закрыть. Это теги было бы смысл закрывать, что бы не было дубляжа текста, а тут то зачем?
Спасибо заранее за ответ)

Техник - февраля 13, 2009 17:23
Я тоже что-то не врубился в практическую значимость эксперимента... Суть понял, но это хоть как-то можно использовать?Oo

Нейтроник - февраля 20, 2009 07:21
Добавил предложенный сайтмап и блог не может никак проиндексироваться :( писал в поддержку — говорят автоматически сгенерированные страницы...

Денис Болтиков - февраля 20, 2009 12:22
Нейтроник
Ну а sitemap тут причем если блог автоматически наполняется?)

 

Денис Болтиков

Полезное

Архив

Контакты

Сайт создан в 2007 г. © Блог Дениса Болтикова | Seoded.ru — Создание сайта