Реклама на сайте Advertise with us

Правильный ли это Robots.txt?

Расширенный поиск по форуму
 
Новая тема Новая тема   
Автор
Поиск в теме:



С нами с 02.01.04
Сообщения: 1246
Рейтинг: 54

Ссылка на сообщениеДобавлено: 22/12/06 в 01:10       Ответить с цитатойцитата 

Нужно сделать чтоб Яху только хоумпейдж оставил в индексе, остальные викинул, правильный это Robots.txt?

User-agent: Slurp
Allow: /
Disallow: /*.html

Кстати выкинет ли он остальные страницы, если они уже выдаются в результатах?

0
 



С нами с 02.01.04
Сообщения: 1246
Рейтинг: 54

Ссылка на сообщениеДобавлено: 22/12/06 в 11:05       Ответить с цитатойцитата 

Может кто нить все таки подскажет?

0
 



С нами с 07.02.05
Сообщения: 691
Рейтинг: 435

Ссылка на сообщениеДобавлено: 22/12/06 в 12:26       Ответить с цитатойцитата 

в robots.txt нет директивы allow, только disallow, а регулярки только гугльбот понимает, насколько знаю
Цитата:
Yahoo! Slurp obeys the robots noindex meta-tag. If you place:

<META NAME="robots" CONTENT="noindex">
or
<META NAME="Slurp" CONTENT="noindex">

in the head of your web document, Yahoo! Slurp will retrieve the document, but it will not index the document text. Although the document content is not indexed, the URL may remain in the search engine database as a reference link from other public web pages.

3
 



С нами с 19.02.03
Сообщения: 1284
Рейтинг: 354

Ссылка на сообщениеДобавлено: 22/12/06 в 13:40       Ответить с цитатойцитата 

если бот не понимает регулярки то
можно конечно поизврощаться
вот само описание стандарта:
http://www.citforum.ru/internet/search/rbtspec.shtml

там есть такое
Цитата:
Например, Disallow: /help закрывает и /help.html, и /help/index.html, тогда как
Disallow: /help/- только /help/index.html.

т.е. можно попробывать так:
Disallow: /a
Disallow: /b
Disallow: /c
Disallow: /d
... и т.д.

но на практике будет ли это работать я не знаю

3
 



С нами с 02.01.04
Сообщения: 1246
Рейтинг: 54

Ссылка на сообщениеДобавлено: 22/12/06 в 13:40       Ответить с цитатойцитата 

WinXXXP писал:
в robots.txt нет директивы allow, только disallow, а регулярки только гугльбот понимает, насколько знаю


Ну а как же это?

http://help.yahoo.com/help/us/ysearch/slurp/slurp-02.html

Using Wildcard Match: '*'
A '*' in robots directives is used to wildcard match a sequence of characters in your URL. You can use this symbol in any part of the URL string that you provide in the robots directive.

Example of '*':

User-agent: Slurp
Allow: /public*/
Disallow: /*_print*.html
Disallow: /*?sessionid


И вайлдакард, и Allow, в хелпе у Яху..

0
 



С нами с 07.02.05
Сообщения: 691
Рейтинг: 435

Ссылка на сообщениеДобавлено: 22/12/06 в 16:06       Ответить с цитатойцитата 

я видел это хелп, недавно добавили наверно, так пиши и все дела
<META NAME="Slurp" CONTENT="noindex">

3
 



С нами с 02.01.04
Сообщения: 1246
Рейтинг: 54

Ссылка на сообщениеДобавлено: 22/12/06 в 17:49       Ответить с цитатойцитата 



Да много файлов нужно менять на многих доменах, залить robots.txt как то проще..

0
 



С нами с 02.01.04
Сообщения: 1246
Рейтинг: 54

Ссылка на сообщениеДобавлено: 22/12/06 в 17:51       Ответить с цитатойцитата 

bleed писал:
если бот не понимает регулярки то
можно конечно поизврощаться
вот само описание стандарта:
http://www.citforum.ru/internet/search/rbtspec.shtml

там есть такое
т.е. можно попробывать так:
Disallow: /a
Disallow: /b
Disallow: /c
Disallow: /d
... и т.д.

но на практике будет ли это работать я не знаю


да, мудрено..

0
 
Новая тема Новая тема   

Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!


Перейти:  



Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us

Опросы

Рецепт новогоднего блюда 2022



Обсудите на форуме обсудить (11)
все опросы »