Реклама на сайте Advertise with us
Тема: Игнорирование robots.txt ? Расширенный поиск по форуму
 
Внимание! В связи с устареванием топика эта страница была взята из кэша.
Автор Сообщение
Информация о пользователе Forward


Зарегистрирован: 27.02.04
Сообщения: 17
Ссылка на сообщениеДобавлено: 05/07/04 в 14:19     

Никак не пойму:
какого икса гугл лезет в директории, запрещенные для индексирования?

User-agent: *
Disallow: /cgi-bin/
Disallow: /img/
Disallow: /webalizer/

...и эта сволочь, вместо того, чтобы лазить по корню, постоянно шарится в webalizer'e...
Замечал еще, что на некоторых доменах часто запрашивает даже скрипты из админ-зоны, ссылок на которые нигде и в помине нет, кроме того же вебалайзера...

Почему гугл robots.txt сначала вообще не запрашивает, а изначально сразу лезет в вебалайзер? icon_smile.gif новая фича?

K началу

 
Информация о пользователе Nikola


Зарегистрирован: 19.07.01
Сообщения: 2242
Ссылка на сообщениеДобавлено: 05/07/04 в 14:48     

Насчёт robots.txt, может глюк это? Он индексирует страницы или просто лазит? icon_smile.gif Если просто гуляет, может и х с ним? Я в нужные страницы вставляю тэг meta name="robots" content="noindex, nofollow"
Тогда точно не индексит страницу, а по линкам может и лазит, я за ним не слежу. icon_lol.gif

K началу

 
Информация о пользователе Forward


Зарегистрирован: 27.02.04
Сообщения: 17
Ссылка на сообщениеДобавлено: 05/07/04 в 15:15     

Nikola писал:
Насчёт robots.txt, может глюк это? Он индексирует страницы или просто лазит? icon_smile.gif Если просто гуляет, может и х с ним?


Индексирует, судя по всему...
Просто хочется заставить его побыстрее корневик проиндексировать вместо левого вебалайзера...

meta name="robots" content="noindex, nofollow"

это спасет от индексирования паги, но как бы ему запретить на эту пагу вообще лезть...
robots.txt не запрашивает...
сразу ломится в вебалайзер... icon_sad.gif

K началу

 
Информация о пользователе Sergunya


Зарегистрирован: 23.07.00
Сообщения: 442
Ссылка на сообщениеДобавлено: 05/07/04 в 15:16     

спрашивал я как то про robots.txt на SE.ru, отвечали мне там, что Гуглю на запреты, указанные в этом файле по барабану, он все равно заходит на те страницы.
Во только индексирует ли, сам не знаю?

K началу

 
Информация о пользователе Forward


Зарегистрирован: 27.02.04
Сообщения: 17
Ссылка на сообщениеДобавлено: 05/07/04 в 15:21     

Sergunya писал:
спрашивал я как то про robots.txt на SE.ru, отвечали мне там, что Гуглю на запреты, указанные в этом файле по барабану, он все равно заходит на те страницы.


А как он их находит, если на них нигде с других паг нет ссылок?
Скажем, откуда он узнает о существовании /webalizer/bla-bla.html , который я сам создал???

K началу

 
Информация о пользователе Mauser


Зарегистрирован: 10.01.03
Сообщения: 319
Ссылка на сообщениеДобавлено: 05/07/04 в 17:20     

Forward, или утебя роботс неверно написан или это не гугль. Гугль как раз роботс уважает.

K началу

 
Информация о пользователе Forward


Зарегистрирован: 27.02.04
Сообщения: 17
Ссылка на сообщениеДобавлено: 05/07/04 в 17:44     

Mauser писал:
Forward, или утебя роботс неверно написан или это не гугль. Гугль как раз роботс уважает.


User-agent: *
Disallow: /cgi-bin/
Disallow: /img/
Disallow: /webalizer/

Все эти директории существуют. Ошибок нет.
что тут неверно?
роботс.тхт был положен в корень сразу же, но гугл его так и не запросил ни разу.... странно это все...

K началу

 
Информация о пользователе Mauser


Зарегистрирован: 10.01.03
Сообщения: 319
Ссылка на сообщениеДобавлено: 05/07/04 в 20:53     

Forward, даже запросов robotx.txt нету??? Ну быть такого не может. Стукнись в 177952596, посмотрим логи.

K началу

 
Информация о пользователе Nikola


Зарегистрирован: 19.07.01
Сообщения: 2242
Ссылка на сообщениеДобавлено: 05/07/04 в 21:01     

Forward писал:
User-agent: *
Disallow: /cgi-bin/
Disallow: /img/
Disallow: /webalizer/
Все эти директории существуют. Ошибок нет.
что тут неверно?


Да верно всё...

Forward писал:

роботс.тхт был положен в корень сразу же, но гугл его так и не запросил ни разу.... странно это все...


Вот это действительно странно. У меня на новых доменах в error логи вылазит на первое место именно запрос роботс.txt (т.к. его нет icon_smile.gif в том числе от гугля.

K началу

 
Информация о пользователе Forward


Зарегистрирован: 27.02.04
Сообщения: 17
Ссылка на сообщениеДобавлено: 05/07/04 в 21:51     

Mauser писал:
Forward, даже запросов robotx.txt нету??? Ну быть такого не может. Стукнись в 177952596, посмотрим логи.


Сейчас уже в последнее время запросы на роботс.тхт временно начали поступать, но дней 8 назад прекратились. Меня просто удивило то, что первым запросом от гугла с момента регистрации домена вижу вот это:

64.68.87.66 - - [18/Jun/2004:09:42:08 +0000] "GET /cooladmin/ HTTP/1.0" 200 1466 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"
64.68.86.138 - - [18/Jun/2004:09:43:29 +0000] "GET /cooladmin/index.php HTTP/1.0" 200 1466 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

Перерыл все логи, упоминания о гугле не нашел до этого момента.
Папка cooladmin на этом домене была и остается запрещенной в роботс.тхт

Далее:

64.68.86.154 - - [21/Jun/2004:20:52:11 +0000] "GET /robots.txt HTTP/1.0" 200 - "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

64.68.87.69 - - [23/Jun/2004:08:43:40 +0000] "GET /robots.txt HTTP/1.0" 200 159 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

.. потом еще пара таких запросов на роботс.тхт и лишь 1 запрос на страницу сайта.
На этом гугл на меня забил... Уже дней 8 не появляется.

Как гугл умудряется заломится в директорию, запрещенную для индексирования - не понимаю...

K началу

 
Информация о пользователе Forward


Зарегистрирован: 27.02.04
Сообщения: 17
Ссылка на сообщениеДобавлено: 05/07/04 в 22:07     

Вопрос не в том, что запрашивает гугл роботс.тхт или нет...
Суть вопроса в том, почему гугл первым своим запросом ищет не роботс.тхт, а что-то левое, пусть даже запрещенное для индексирования в самом роботс и ссылок на которое нигде нет.

K началу

 
Информация о пользователе xhot_com


Зарегистрирован: 09.07.04
Сообщения: 46
Ссылка на сообщениеДобавлено: 14/07/04 в 12:14     

а google-баров всяких у тебя нет? может стучит что-нить. Alexa стучит 100%. Поисковик пришел через 10 мин. после прописки хоста в dns'е.

K началу

 
Информация о пользователе Forward


Зарегистрирован: 27.02.04
Сообщения: 17
Ссылка на сообщениеДобавлено: 14/07/04 в 13:20     

xhot_com писал:
а google-баров всяких у тебя нет? может стучит что-нить.


Да, гугл-тулбар стоит...

xhot_com писал:

Alexa стучит 100%. Поисковик пришел через 10 мин. после прописки хоста в dns'е.


Алекса пришла после того, как ее тулбар "постучал"? Или она читает новые записи в днс? icon_smile.gif

K началу

 
Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!
Внимание! В связи с устареванием топика эта страница была взята из кэша.

Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us

Опросы

Рецепт новогоднего блюда 2022



Обсудите на форуме обсудить (11)
все опросы »