WelcomePartners
Тема: Игнорирование robots.txt ? Расширенный поиск по форуму
 
Внимание! В связи с устареванием топика эта страница была взята из кэша.
Автор Сообщение
Информация о пользователе Forward


Зарегистрирован: 27.02.04
Сообщения: 17
Ссылка на сообщениеДобавлено: 05/07/04 в 14:19     

Никак не пойму:
какого икса гугл лезет в директории, запрещенные для индексирования?

User-agent: *
Disallow: /cgi-bin/
Disallow: /img/
Disallow: /webalizer/

...и эта сволочь, вместо того, чтобы лазить по корню, постоянно шарится в webalizer'e...
Замечал еще, что на некоторых доменах часто запрашивает даже скрипты из админ-зоны, ссылок на которые нигде и в помине нет, кроме того же вебалайзера...

Почему гугл robots.txt сначала вообще не запрашивает, а изначально сразу лезет в вебалайзер? icon_smile.gif новая фича?

K началу

 
Информация о пользователе Nikola


Зарегистрирован: 19.07.01
Сообщения: 2242
Ссылка на сообщениеДобавлено: 05/07/04 в 14:48     

Насчёт robots.txt, может глюк это? Он индексирует страницы или просто лазит? icon_smile.gif Если просто гуляет, может и х с ним? Я в нужные страницы вставляю тэг meta name="robots" content="noindex, nofollow"
Тогда точно не индексит страницу, а по линкам может и лазит, я за ним не слежу. icon_lol.gif

K началу

 
Информация о пользователе Forward


Зарегистрирован: 27.02.04
Сообщения: 17
Ссылка на сообщениеДобавлено: 05/07/04 в 15:15     

Nikola писал:
Насчёт robots.txt, может глюк это? Он индексирует страницы или просто лазит? icon_smile.gif Если просто гуляет, может и х с ним?


Индексирует, судя по всему...
Просто хочется заставить его побыстрее корневик проиндексировать вместо левого вебалайзера...

meta name="robots" content="noindex, nofollow"

это спасет от индексирования паги, но как бы ему запретить на эту пагу вообще лезть...
robots.txt не запрашивает...
сразу ломится в вебалайзер... icon_sad.gif

K началу

 
Информация о пользователе Sergunya


Зарегистрирован: 23.07.00
Сообщения: 442
Ссылка на сообщениеДобавлено: 05/07/04 в 15:16     

спрашивал я как то про robots.txt на SE.ru, отвечали мне там, что Гуглю на запреты, указанные в этом файле по барабану, он все равно заходит на те страницы.
Во только индексирует ли, сам не знаю?

K началу

 
Информация о пользователе Forward


Зарегистрирован: 27.02.04
Сообщения: 17
Ссылка на сообщениеДобавлено: 05/07/04 в 15:21     

Sergunya писал:
спрашивал я как то про robots.txt на SE.ru, отвечали мне там, что Гуглю на запреты, указанные в этом файле по барабану, он все равно заходит на те страницы.


А как он их находит, если на них нигде с других паг нет ссылок?
Скажем, откуда он узнает о существовании /webalizer/bla-bla.html , который я сам создал???

K началу

 
Информация о пользователе Mauser


Зарегистрирован: 10.01.03
Сообщения: 319
Ссылка на сообщениеДобавлено: 05/07/04 в 17:20     

Forward, или утебя роботс неверно написан или это не гугль. Гугль как раз роботс уважает.

K началу

 
Информация о пользователе Forward


Зарегистрирован: 27.02.04
Сообщения: 17
Ссылка на сообщениеДобавлено: 05/07/04 в 17:44     

Mauser писал:
Forward, или утебя роботс неверно написан или это не гугль. Гугль как раз роботс уважает.


User-agent: *
Disallow: /cgi-bin/
Disallow: /img/
Disallow: /webalizer/

Все эти директории существуют. Ошибок нет.
что тут неверно?
роботс.тхт был положен в корень сразу же, но гугл его так и не запросил ни разу.... странно это все...

K началу

 
Информация о пользователе Mauser


Зарегистрирован: 10.01.03
Сообщения: 319
Ссылка на сообщениеДобавлено: 05/07/04 в 20:53     

Forward, даже запросов robotx.txt нету??? Ну быть такого не может. Стукнись в 177952596, посмотрим логи.

K началу

 
Информация о пользователе Nikola


Зарегистрирован: 19.07.01
Сообщения: 2242
Ссылка на сообщениеДобавлено: 05/07/04 в 21:01     

Forward писал:
User-agent: *
Disallow: /cgi-bin/
Disallow: /img/
Disallow: /webalizer/
Все эти директории существуют. Ошибок нет.
что тут неверно?


Да верно всё...

Forward писал:

роботс.тхт был положен в корень сразу же, но гугл его так и не запросил ни разу.... странно это все...


Вот это действительно странно. У меня на новых доменах в error логи вылазит на первое место именно запрос роботс.txt (т.к. его нет icon_smile.gif в том числе от гугля.

K началу

 
Информация о пользователе Forward


Зарегистрирован: 27.02.04
Сообщения: 17
Ссылка на сообщениеДобавлено: 05/07/04 в 21:51     

Mauser писал:
Forward, даже запросов robotx.txt нету??? Ну быть такого не может. Стукнись в 177952596, посмотрим логи.


Сейчас уже в последнее время запросы на роботс.тхт временно начали поступать, но дней 8 назад прекратились. Меня просто удивило то, что первым запросом от гугла с момента регистрации домена вижу вот это:

64.68.87.66 - - [18/Jun/2004:09:42:08 +0000] "GET /cooladmin/ HTTP/1.0" 200 1466 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"
64.68.86.138 - - [18/Jun/2004:09:43:29 +0000] "GET /cooladmin/index.php HTTP/1.0" 200 1466 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

Перерыл все логи, упоминания о гугле не нашел до этого момента.
Папка cooladmin на этом домене была и остается запрещенной в роботс.тхт

Далее:

64.68.86.154 - - [21/Jun/2004:20:52:11 +0000] "GET /robots.txt HTTP/1.0" 200 - "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

64.68.87.69 - - [23/Jun/2004:08:43:40 +0000] "GET /robots.txt HTTP/1.0" 200 159 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

.. потом еще пара таких запросов на роботс.тхт и лишь 1 запрос на страницу сайта.
На этом гугл на меня забил... Уже дней 8 не появляется.

Как гугл умудряется заломится в директорию, запрещенную для индексирования - не понимаю...

K началу

 
Информация о пользователе Forward


Зарегистрирован: 27.02.04
Сообщения: 17
Ссылка на сообщениеДобавлено: 05/07/04 в 22:07     

Вопрос не в том, что запрашивает гугл роботс.тхт или нет...
Суть вопроса в том, почему гугл первым своим запросом ищет не роботс.тхт, а что-то левое, пусть даже запрещенное для индексирования в самом роботс и ссылок на которое нигде нет.

K началу

 
Информация о пользователе xhot_com


Зарегистрирован: 09.07.04
Сообщения: 46
Ссылка на сообщениеДобавлено: 14/07/04 в 12:14     

а google-баров всяких у тебя нет? может стучит что-нить. Alexa стучит 100%. Поисковик пришел через 10 мин. после прописки хоста в dns'е.

K началу

 
Информация о пользователе Forward


Зарегистрирован: 27.02.04
Сообщения: 17
Ссылка на сообщениеДобавлено: 14/07/04 в 13:20     

xhot_com писал:
а google-баров всяких у тебя нет? может стучит что-нить.


Да, гугл-тулбар стоит...

xhot_com писал:

Alexa стучит 100%. Поисковик пришел через 10 мин. после прописки хоста в dns'е.


Алекса пришла после того, как ее тулбар "постучал"? Или она читает новые записи в днс? icon_smile.gif

K началу

 
Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!
Внимание! В связи с устареванием топика эта страница была взята из кэша.

Спонсор раздела Стань спонсором этого раздела!

Опросы

Конкурс кричалок к Чемпионату Мира по футболу 2018



Обсудите на форуме обсудить (18)
все опросы »