Правильный ли это Robots.txt?

Расширенный поиск по форуму

Новая тема

Автор

Поиск в теме:

Proo

С нами с 02.01.04
Сообщения: 1246
Рейтинг: 54

Добавлено: 22/12/06 в 01:10

цитата

Нужно сделать чтоб Яху только хоумпейдж оставил в индексе, остальные викинул, правильный это Robots.txt?

User-agent: Slurp
Allow: /
Disallow: /*.html

Кстати выкинет ли он остальные страницы, если они уже выдаются в результатах?

Proo

С нами с 02.01.04
Сообщения: 1246
Рейтинг: 54

Добавлено: 22/12/06 в 11:05

цитата

Может кто нить все таки подскажет?

WinXXXP

С нами с 07.02.05
Сообщения: 691
Рейтинг: 435

Добавлено: 22/12/06 в 12:26

цитата

в robots.txt нет директивы allow, только disallow, а регулярки только гугльбот понимает, насколько знаю

Цитата:

Yahoo! Slurp obeys the robots noindex meta-tag. If you place:

<META NAME="robots" CONTENT="noindex">
or
<META NAME="Slurp" CONTENT="noindex">

in the head of your web document, Yahoo! Slurp will retrieve the document, but it will not index the document text. Although the document content is not indexed, the URL may remain in the search engine database as a reference link from other public web pages.

bleed

С нами с 19.02.03
Сообщения: 1284
Рейтинг: 354

Добавлено: 22/12/06 в 13:40

цитата

если бот не понимает регулярки то
можно конечно поизврощаться
вот само описание стандарта:
http://www.citforum.ru/internet/search/rbtspec.shtml

там есть такое

Цитата:

Например, Disallow: /help закрывает и /help.html, и /help/index.html, тогда как
Disallow: /help/- только /help/index.html.

т.е. можно попробывать так:
Disallow: /a
Disallow: /b
Disallow: /c
Disallow: /d
... и т.д.

но на практике будет ли это работать я не знаю

Proo

С нами с 02.01.04
Сообщения: 1246
Рейтинг: 54

Добавлено: 22/12/06 в 13:40

цитата

WinXXXP писал:

в robots.txt нет директивы allow, только disallow, а регулярки только гугльбот понимает, насколько знаю

Ну а как же это?

http://help.yahoo.com/help/us/ysearch/slurp/slurp-02.html

Using Wildcard Match: '*'
A '*' in robots directives is used to wildcard match a sequence of characters in your URL. You can use this symbol in any part of the URL string that you provide in the robots directive.

Example of '*':

User-agent: Slurp
Allow: /public*/
Disallow: /*_print*.html
Disallow: /*?sessionid

И вайлдакард, и Allow, в хелпе у Яху..

WinXXXP

С нами с 07.02.05
Сообщения: 691
Рейтинг: 435

Добавлено: 22/12/06 в 16:06

цитата

я видел это хелп, недавно добавили наверно, так пиши и все дела
<META NAME="Slurp" CONTENT="noindex">

Proo

С нами с 02.01.04
Сообщения: 1246
Рейтинг: 54

Добавлено: 22/12/06 в 17:49

цитата

Да много файлов нужно менять на многих доменах, залить robots.txt как то проще..

Proo

С нами с 02.01.04
Сообщения: 1246
Рейтинг: 54

Добавлено: 22/12/06 в 17:51

цитата

bleed писал:

если бот не понимает регулярки то
можно конечно поизврощаться
вот само описание стандарта:
http://www.citforum.ru/internet/search/rbtspec.shtml

там есть такое
т.е. можно попробывать так:
Disallow: /a
Disallow: /b
Disallow: /c
Disallow: /d
... и т.д.

но на практике будет ли это работать я не знаю

да, мудрено..

Новая тема

Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!

Перейти:

Спонсор раздела

Правильный ли это Robots.txt?

Опросы