Реклама на сайте Advertise with us

По каким параметрам определяется?

Расширенный поиск по форуму
 
Новая тема Новая тема   
Автор
Поиск в теме:
+ + +
Yahooею

С нами с 15.02.06
Сообщения: 811
Рейтинг: 245

Ссылка на сообщениеДобавлено: 17/07/06 в 22:37       Ответить с цитатойцитата 

по каким параметрам определяется эдентичность контента у гугля?
разбивка страницы? текст(от скольки одинаковых слов стоящих в одном и том же порядке в одном предложении)?
полезна любая информация.

0
 

продаю базы адалт кейвордов

С нами с 09.11.02
Сообщения: 9045
Рейтинг: 3772


Передовик Master-X (16.05.2004) Передовик Master-X (01.06.2004)
Ссылка на сообщениеДобавлено: 17/07/06 в 23:19       Ответить с цитатойцитата 

берешь каждое предложение длиной 7-10 слов из своего текста,
и ищещь его в гугле, по цельной фразе ( в кавычках ). Если гугль нашел чего-то кроме тебя, значит у тебя уже не уникально.

сдам подпись, стучите в личку

0
 
+ + +
Yahooею

С нами с 15.02.06
Сообщения: 811
Рейтинг: 245

Ссылка на сообщениеДобавлено: 17/07/06 в 23:27       Ответить с цитатойцитата 

а если у меня 10-20 кейвордов и 500 килобайт текста для смешивания: 1 кейворд на 3-5 слов из текста? хочу узнать именно по каким параметрам определяется эдентичность контента у гугля чтобы использовать для скрипта-генератора.

0
 



С нами с 19.03.06
Сообщения: 17
Рейтинг: 6

Ссылка на сообщениеДобавлено: 18/07/06 в 01:20       Ответить с цитатойцитата 

А с чего ты взял, что такие параметры есть? И что они на что то влияют?

0
 



С нами с 22.06.06
Сообщения: 155
Рейтинг: 157

Ссылка на сообщениеДобавлено: 18/07/06 в 01:37       Ответить с цитатойцитата 

ags писал:
по каким параметрам определяется эдентичность контента у гугля?
разбивка страницы? текст(от скольки одинаковых слов стоящих в одном и том же порядке в одном предложении)?
полезна любая информация.


Этот вопрос напрямую связан с наукой криптографией или в контексте СЕ это прозвучит так - как содержать информацию в БД не храня весь её обьём. Можешь мне поверить, эта задача решается уже лет 50 на уровне докторов и академиков, но идеального алго не существуют. Множество методик разработано для этой цели и сказать, какую их них использует гугл невозможно. Некоторое время назад появилась замечательная статья сотрудника Яндекса И. Сегаловича о шинглах. Шинглами называются многословия определённой длины, для каждого из которых рассчитывается md5 хеш, который хранится в БД. Сравнивая хеши можно уверенно определять дубли. Длина шингла предложена в статье в размере 10 слов, если не ошибаюсь.

Одним из методов определения авторства основывается на формальной модели последовательности букв на основе цепей Маркова. Для текстов рассчитывается матрица частот употребеления элементов текста (букв, слова, грамм. классов) и на её основе вычисляется вероятность принадлежности. По разным оченкам можно ожидать точность до 70%.

Другой метод называется квантитативным. Заключается в исследовании структурных классоя естественного языка.

Ещё один метод - инвертированный индекс документа или цифровая подпись. Вычисляется вектор каждого документа по частотный индексам каждого слова. Индекс является бинарным и может принимать 0 или 1, в зависимости от того, превышает или нет его величина предельную частоту для каждого слова документа.

Каждый метод имеет свои недостатки и преимущества.

Но к слову сказать, в настоящее время задача поисковиков по этому вопросу формулируется (и, соответственно, имеет решение) проще - определить МАШИННЫЙ текст, а не только уникальный. А вот это решается намного проще.

DVD-NETWORK НОВОГО ПОКОЛЕНИЯ
Уникальная система конвертации поискового адалт траффика. ICQ 237295387

3
 
+ + +
Yahooею

С нами с 15.02.06
Сообщения: 811
Рейтинг: 245

Ссылка на сообщениеДобавлено: 18/07/06 в 01:40       Ответить с цитатойцитата 

гугл банит сайты с одинаковым контентом или понижает в рейтинге выдачи это можно найти на сэошных форумах или сайтах.
или я в чем-то ошибаюсь?

0
 
+ + +
Yahooею

С нами с 15.02.06
Сообщения: 811
Рейтинг: 245

Ссылка на сообщениеДобавлено: 18/07/06 в 01:44       Ответить с цитатойцитата 

ICOOGLE Project
спасибо, а есть ссылки по теме?

0
 



С нами с 22.06.06
Сообщения: 155
Рейтинг: 157

Ссылка на сообщениеДобавлено: 18/07/06 в 02:14       Ответить с цитатойцитата 

ags писал:
гугл банит сайты с одинаковым контентом или понижает в рейтинге выдачи это можно найти на сэошных форумах или сайтах.
или я в чем-то ошибаюсь?



Практика - единственный верный критерий истины. Пробуй и делай выводы.
Только лишь за дублированный текст не забанит, но дело в том, что сайт, использующий неуникальный или машинный текст, надёрганные снипеты и т.д. обладает массой других признаков дорвея, что приводит к бану или понижению в выдаче. Таким образом сказать, что за неуникальный текст банят - не верно, он лишь является одним из многих параметров, по которым можно вынести вердикт. Отсюда следует вывод №2 - зачем делать хороший текст, если всё равно забанят. Однако можно аргументировать тем, что уделив некоторое внимание (разумное по временным затратам на изготовление дорвея) тексту, бекам, хосту можно существенно продлить ему жизнь.


Сегалович
http://www.smotrite.ru/s28.shtml

Инвертированный индекс
http://www.siteman.ru/articles_18.html

Хмелёв (авторство по формальной модели Маркова)
http://www.philol.msu.ru/~lex/articles/grco_r.htm

DVD-NETWORK НОВОГО ПОКОЛЕНИЯ
Уникальная система конвертации поискового адалт траффика. ICQ 237295387

3
 

c++,php кодинг

С нами с 22.10.05
Сообщения: 1098
Рейтинг: 558

Ссылка на сообщениеДобавлено: 18/07/06 в 03:38       Ответить с цитатойцитата 

ags писал:
гугл банит сайты с одинаковым контентом или понижает в рейтинге выдачи это можно найти на сэошных форумах или сайтах.
или я в чем-то ошибаюсь?


Гугл не показывает дубли в серпе как яндекс.

3
 
Новая тема Новая тема   

Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!


Перейти:  



Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us

Опросы

Рецепт новогоднего блюда 2022



Обсудите на форуме обсудить (11)
все опросы »