Реклама на сайте Advertise with us
Новости
Статьи
Поисковые системы
Дизайн и Юзабилити
Законы / Финансы
Маркетинг
Порно контент
Ниши и психология
Партнерские Программы
Траффик-Менеджмент
Сервисы
Программинг
Софт и Скрипты
Хостинг / Железо
Интервью
Веб камеры
Путешествия
История секса
Форум
FAQ
Каталог
Опросы
Участники

CТАТЬИ Статьи

Раздел: Поисковые системы

Версия для печати

Патент Google: Определение спам-документов, основанное на фразах. Часть 1



I(j,k) больше установленного порога информационного качества

В данной реализации, порог информационного качества установлен на уровне 1,5 , но его предпочтительные значения могут варьироваться от 1,1 до 1,7. Повышение порога над 1,0 служит уменьшению возможности того, что две, в целом несвязанные фразы, появятся вместе чаще, чем это предсказано статистически.

Как отмечалось ранее, расчет информационного качества повторяется для каждой колонки k матрицы G, с учетом данного ряда j. По окончании ряда, если информационное качество ни по одной из хороших фраз gk не превосходит порога информационного качества, это значит – фраза gj не предвосхищает ни одну другую хорошую фразу.

Этот шаг считается завершенным, когда будут пройдены все ряды матрицы совместного появления 212 .

Финальный шаг этой стадии – чистка списка хороших фраз 208, чтобы удалить незаконченные фразы. Незаконченной считается фраза, которая только предсказывает собственные расширения, и которая начинается в левой крайней части фразы (то есть, в начале фразы). «Расширение фразы» p - это супер-последовательность, которая начинается с фразы p. К примеру, фраза "President of" предвосхищает фразы "President of the United States", "President of Mexico", "President of AT&T", и т.д. Все последующие фразы являются расширениями фразы "President of", поскольку они начинаются с "President of" и поэтому являются супер-последовательностями.

Каждая фраза gj, оставшаяся в списке хороших фраз 208, будет предвосхищать некоторое количество других фраз, исходя из порога информационного качества, обсуждавшегося ранее. Для каждой фразы gj, система индексирования 110 проводит проверку на совпадение строк с каждой из фраз gk, которые она предвосхищает. Проверка на построчное совпадение показывает, не является ли фраза gk расширением фразы gj. Если все предвосхищенные фразы gk являются расширением фразы gj, то фраза gj неполная - она удаляется из списка хороших фраз 208 и добавляется в список незаконченных фраз 216. Таким образом, если существует хоть одна фраза gk, которая не является расширением фразы gj, тогда gj считается полной и остается в списке хороших фраз. Пример: "President of the United" – неполная фраза, поскольку единственная фраза, которую она предвосхищает, - "President of the United States", - является расширением исходной фразы.

Список неполных фраз 216 довольно полезен сам по себе, когда речь идет о фактическом поиске. После получения поискового запроса, его можно сравнить со списком неполных фраз 216. Если запрос (или его часть) совпадает с записью в списке, то поисковая система 120 может просмотреть наиболее возможное расширение этой неполной фразы (расширение фразы, которое получило наибольший коэффициент информативности относительно неполной фразы), и предложить это расширение фразы пользователю, или автоматически выполнить поиск по выбранному расширению. К примеру, если запрос был сформулирован как "President of the United", поисковая система 120 может автоматически предложить пользователю в качестве поискового запроса вариант "President of the United States".

После того, как закончится последняя стадия индексирования, список хороших фраз 208 будет содержать большое количество хороших фраз, обнаруженных в собрании. Каждая из этих хороших фраз будет предвосхищать, по крайней мере, одну фразу, которая не является ее расширением. Таким образом, каждая хорошая фраза используется с достаточной частотой и независимостью, чтобы отражать осмысленные концепции или идеи, содержащиеся в собрании документов. В отличие от существующих систем, которые используют предопределенные или отобранные вручную фразы, список хороших фраз отражает фразы, которые фактически используются в собрании. Далее, поскольку описанный процесс кроулинга и индексирования периодически повторяется, по мере добавления в коллекцию новых документов, система индексирования 110 автоматически определяет новые фразы, по мере их поступления в лексикон.

19.02.07
Источник: google.
Автор: google. Перевод: Seva.

Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us