Реклама на сайте Advertise with us
Новости
Статьи
Поисковые системы
Дизайн и Юзабилити
Законы / Финансы
Маркетинг
Порно контент
Ниши и психология
Партнерские Программы
Траффик-Менеджмент
Сервисы
Программинг
Софт и Скрипты
Хостинг / Железо
Интервью
Веб камеры
Путешествия
История секса
Форум
FAQ
Каталог
Опросы
Участники

CТАТЬИ Статьи

Раздел: Поисковые системы

Версия для печати

Патент Google: Определение спам-документов, основанное на фразах. Часть 2



Как отмечалось ранее, соответствующий первый бит gk-1 в бит-карте соотнесенной фразы устанавливается на основании значений счетчика. Если gk > 0, то бит устанавливается в 1, если значение счетчика равно 0, то бит устанавливается в 0.

Далее, второй бит gk-2 устанавливается путем проверки на соотнесенную фразу gk в индексе 150, присутствует ли в постинг-листе gk для документа d, и дальнейшей проверки счетчика вторичной соотнесенной фразы (или битов) для gk по любой из ее соотнесенных фраз. Если любой из этих счетчиков/битов вторичных соотнесенных фраз установлен, то это свидетельствует о том, что вторичные соотнесенные фразы gj также присутствуют в документе d.

После того, как документ d будет полностью обработан, система индексирования 110 определит следующее:

  • каждую хорошую фразу gj в документе d;
  • для каждой хорошей фразы gj - какие из ее соотнесенных фраз gk присутствуют в документе d;
  • для каждой соотнесенной фразы gk, присутствующей в документе d, какая из ее соотнесенных фраз gl (вторичные соотнесенные фразы для gj) также присутствует в документе d.
А) Посекторное индексирование

Каждой фразе в индексе 150 присваивается номер фразы, на основании частоты ее появления в собрании. Чем чаще встречается фраза, тем более низкий номер она получает в индексе. Система индексирования 110 затем сортирует 504 все постинг-списки 214 в первичном индексе 150 в нисходящем порядке, в соответствии с количеством документов, внесенных в каждый постинг-список. Наиболее часто встречающиеся фразы получают наименьшие номера фраз, и находятся в начале списка в первичном индексе 150. Как отмечалось ранее, первичный индекс 150 распределяется между первичными серверами M1 . Для уменьшения вероятности спорных ситуаций между дисками, фразы распределяются между машинами с помощью хеш-функции, т.е. phase_number MOD M1.

Для значительного увеличения количества документов, которые могут быть проиндексированы системой, первичный индекс 150 обрабатывается с целью выборочного разделения каждого из постинг-списков 214. Как отмечалось ранее, постинг-список для каждой фразы содержит список документов. Каждый документ в постинг-списке получает оценку 506 по типу получения информации, в зависимости от фразы. Независимо от способа вычисления этой оценки, документы в постинг-списке затем ранжируются по убыванию на основании этой оценки – документы с наивысшими оценками помещаются в начало постинг-списка. Это пре-ранжирование документов особо ценно для улучшения работы системы при получении документов в ответ на поисковый запрос.

Алгоритм оценки для пре-ранжирования документов может быть таким же, как алгоритм оценки релевантности , используемый в поисковой системе 120 для генерации оценки релевантности. В данной реализации, оценка IR основывается на алгоритме page rank, как описывается в патенте № 6285999. В качестве альтернативы или дополнения, может использоваться статистика для количества IR-релевантных атрибутов документа, таких как количество входящих ссылок, исходящих ссылок, длины документа. Она может храниться и использоваться самостоятельно, или в сочетании с другими средствами, чтобы ранжировать документы. К примеру, документы могут ранжироваться в нисходящем порядке, в соответствии с количеством входящих ссылок. Чтобы облегчить и ускорить получение информации из первичного индекса 150, записи в каждом постинг-списке 214 физически хранятся на подходящем первичном сервере, в порядке ранжирования, заданном оценкой IR.

22.02.07
Источник: gool.
Автор: Google. Перевод: .

Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us