Реклама на сайте Advertise with us

PRавильная синонимизация

Расширенный поиск по форуму
 
Новая тема Новая тема   
Автор
Поиск в теме:



С нами с 20.11.07
Сообщения: 148
Рейтинг: 3

Ссылка на сообщениеДобавлено: 28/12/07 в 14:55       Ответить с цитатойцитата 

Все, кто работает с поисковыми системами, рано или поздно сталкиваются с проблемой получения качественного уникального контента. Кто-то заказывает уникальный контент у копирайтеров, а кто-то видоизменяет существующий путем перевода или синонимизации. Но услуги копирайтеров при больших масштабах будут стоить очень дорого, да и производительность копирайтеров оставляет желать лучшего. А видоизменение контента не всегда дает желаемый результат: при переводе маленьких текстов процент изменяемых слов очень мал, а при использовании обычной синонимизации теряется читабельность текста, так как в английском языке некоторые одинаковые слова обладают разными смыслами.

Приведу один яркий пример:
В предложении “These clay blocks are for home construction” (“Эти глиняные блоки для постройки дома”) слово “blocks” используется как существительное во множественном числе от слова block (блок). Допустим мы его можем заменить словом “bricks” (brick - кирпич). Однако в предложении “He blocks this action” (“Он блокирует это действие”) слово “blocks” является глаголом настоящего времени 3-го лица, означающем действие “блокировать”. При обычной синонимизации мы заменили во втором предложении слово “blocks” на слово “bricks” и получили предложение “He bricks this action” (Он “кирпичит” это действие).

Не правда ли смешно получается? Теряется смысл и читабельность текста. А это самое главное (если конечно Вы делаете сайты не только для поисковых систем). Помимо этого существуют разные формы слова(времена, множественное и единственное число и т.д.), которые также необходимо корректно обрабатывать. Ведь, например, слово “running” может быть существительным, прилагательным или глаголом. Еще одна проблема кроется в том, что принадлежащее к одной части речи слово может также иметь разные значения. Как грамотно обработать слово и заменить синонимом, подходящим по смыслу? В английском языке примерно 10% слов имеют более одного значения. Однако эти 10% как раз и являются самыми часто используемыми словами. Я давно озадачился этой проблемой и провел несколько бессонных недель за разработкой новой системы синонимизации, которая лишена этого недостатка. В результате для разработки новой системы были применены большое количество различных алгоритмов работы с текстом и несколько различных баз данных по английскому языку.

Вот что получилось:
1. Система синонимизации для каждого слова в предложении определяет его часть речи (существительное/прилагательное/глагол/и т.д.), а также число, время и другие параметры.
2. Далее система определяет смысловое значение слова. Тоесть в каком смысле используется это слово в конкретном данном предложении.
3. Затем ищутся сходные по смыслу слова-синонимы.
4. Если такие слова существуют, то выбирается одно случайное слово.
5. Далее это слово морфологически модифицируется с целью придания ему тех же параметров первоначального слова (время/число/и т.д.)
6. Первоначальное слово заменяется полученным словом.

Хочу сразу заметить, что система предельно корректно морфологически модифицирует слова. Например, слово “woman” при переводе в множественное число станет “women”, а не “womans”. Тоесть соблюдаются все правила и исключения английского языка. К сожалению, не все идеально в этом мире. Также и эта система имеет некий допустимый порог ошибок. Однако смею Вас заверить, что качество синонимизации остается на допустимом уровне, и текст не теряет своей привлекательности и смысловой нагрузки.

Вот некоторые характеристики:
1. Система работает на PHP(Zend)+MySQL.
2. Размер базы порядка 15 мегабайт.
3. Для работы требуется VPS либо выделенный сервер.
4. Синонимизируется в среднем 50% слов.
5. Ошибки синонимизации составляют примерно от 2 до 10 процентов в зависимости от тематики исходного текста.
6. Без дополнительных настроек синонимизируется адалт тематика (дески к галерам, платникам и т.д.), синонимизируется фарма-тематика, и уж конечно синонимизируются RSS фиды.
7. Синонимизации подлежат только синтаксически правильно оформленные предложения на английском языке без HTML тэгов.

Стоимость.
В стоимость скрипта входит установка и настройка “под ключ”. Также возможны апдейты базы данных в будущем с целью исправления ошибок синонимизации. Покупка подразумевает собой использование только в личных целях без дальнейшей перепродажи скрипта и предоставления доступа к нему другим лицам.
- Специальная предновогодняя цена: до 23:59 31 декабря 2007 года - $400.
- Специальная новогодняя цена до 23:59 10 января 2008 года - $500.
- Далее цена будет составлять $1000.

Сервис синонимизации.
Также продается исключительное право на создание сервиса синонимизации для дальнейшего предоставления платного доступа к нему. В стоимость входит сама система синонимизации и право предоставления сервиса неограниченному количеству пользователей. Также я предоставлю систему учета доступа пользователей к сервису. Право это исключительное и продается только один раз. Все подробности по поводу стоимости обсуждаются в аське. Примерная цифра - $5000.

Примеры.
Примеры синонимизации некоторых типов контента, а также тестовый доступ к системе будут размещены в этом топике через несколько часов (по окончанию установки системы на веб-сервере).

0
 

осинизатор

С нами с 10.03.03
Сообщения: 8491
Рейтинг: 819

Ссылка на сообщениеДобавлено: 28/12/07 в 20:40       Ответить с цитатойцитата 

Все это, конечно, гут, но гуглю на самом деле пох. на правильность использования существительных - он не на столько умен (слава богу). Например, у меня на сплогах с более-менее старыми доменами, пользующих "обычный" синонимайзер набирается по 1.5K..2K уников в день. Это говорит о том, что особо извращаться на тему "чистоты языка" пока особого смысла нет - оно и так прекрасно работает icon_smile.gif Так что, IMHO цена "несколько" высоковата.

Ну и еще один момент. Вы на системах с большим объемом данных (это когда огромное количество сайтов одновременно синонимайзят такое же огромное количество текста, например, фидов)? Я это спрашиваю к тому, что алгоритм у вас, на мой взгляд, должен быть довольно ресурсоемким + MySQL, который имеет привычку грузить сервер так, что мама не горюй...

И кстати, почему тексты с html тэгами не поддерживаются? Как адалтные фиды тогда обрабатывать, если там картинки, ссылки, стриминг видео + еще куча всякой байды вроде таблиц, которыми так любят увлекаться некоторые партнерки?

ушел на завод

0
 



С нами с 27.09.05
Сообщения: 56
Рейтинг: 1

Ссылка на сообщениеДобавлено: 28/12/07 в 21:04       Ответить с цитатойцитата 

del

Последний раз редактировалось: Netmask (07/02/14 в 14:46), всего редактировалось 1 раз

0
 



С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962

Ссылка на сообщениеДобавлено: 28/12/07 в 21:20       Ответить с цитатойцитата 

Так да! Куда пропал-то товарищь...

0
 



С нами с 20.11.07
Сообщения: 148
Рейтинг: 3

Ссылка на сообщениеДобавлено: 28/12/07 в 22:03       Ответить с цитатойцитата 

Я никуда не пропал. Данный топик был специально создан заранее с той целью, чтобы как можно больше посетителей с ним ознакомилось. Реализация сервиса в интернете идет полным ходом. Сервис (а также примеры в этом топике) будет доступен рано утром примерно в 6-7 часов по Москве, о чем я немедленно отпишусь здесь.

2 cyberxxx:
Я не спорю, что гуглу и другим поисковым системам без разницы на правильность использования слов. Однако если Вы делаете сайты не для поисковых систем, а для людей, то правильность синонимизации очень важна. Что касается HTML, то здесь потребуется специальный алгоритм, который будет выбирать из HTML кода чистое предложение, затем синонимизировать и уже после этого обратно вставлять в HTML.
Сам алгоритм отточен и максимально оптимизирован. Как показывает практика - даже VPS'а для этого достаточно.

0
 

осинизатор

С нами с 10.03.03
Сообщения: 8491
Рейтинг: 819

Ссылка на сообщениеДобавлено: 28/12/07 в 22:39       Ответить с цитатойцитата 

SEOcar писал:
Что касается HTML, то здесь потребуется специальный алгоритм, который будет выбирать из HTML кода чистое предложение, затем синонимизировать и уже после этого обратно вставлять в HTML.


Ну я, типа, в курсе icon_smile.gif preg_replace() в помощь icon_smile.gif

SEOcar писал:
Сам алгоритм отточен и максимально оптимизирован. Как показывает практика - даже VPS'а для этого достаточно.


При какой нагрузке?

ушел на завод

0
 



С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962

Ссылка на сообщениеДобавлено: 28/12/07 в 22:55       Ответить с цитатойцитата 

cyberxxx напал на потенциального конкурента icon_smile.gif
Кстати вопрос к тебе, раз уже ты тут - плагин твой только по однословным работает или словосочетания тоже можно заменять?

0
 



С нами с 23.03.03
Сообщения: 390
Рейтинг: 254

Ссылка на сообщениеДобавлено: 28/12/07 в 23:01       Ответить с цитатойцитата 

ТС, тоже кстати вопрос. мож пропустил,зачитался.

твой синонимизатор однословники только заменяет или фразы тоже?

и еще
сколько по времени будет происходить синонимизация 1мб текста?


вообще интересно, если все устроит - прикупил бы.

nferno Solutions: Выделенные серверы и VDS по самым низким ценам (от 20$)

0
 

осинизатор

С нами с 10.03.03
Сообщения: 8491
Рейтинг: 819

Ссылка на сообщениеДобавлено: 29/12/07 в 00:40       Ответить с цитатойцитата 

Man писал:
cyberxxx напал на потенциального конкурента icon_smile.gif
Кстати вопрос к тебе, раз уже ты тут - плагин твой только по однословным работает или словосочетания тоже можно заменять?


Неа, не конкурент уже - я CyberSEO не продаю больше (обрати внимание на сигнатуру), ибо жаба душит icon_smile.gif В данный момент, продаю только TheSponsorFeeds, который предназначен исключительно для владельцев партнерок и не может быть использован независимыми блоггерами.

Ну а по поводу твоего вопроса. Во-первых, не напал, а реально интересуюсь, ибо даже мой "бесхитростный" плагин умудряется довольно неплохо загружать сервер при более-менее серьезных нагрузках. А ведь там нет ни проверки правильности использования синонимов, ни, тем более, обращений к мускулю.

Во-вторых, разумеется можно заменять и словосочетания (с сохранением регистра, корректной обработкой текста содержащего HTML тэги и т.д.)

w84me писал:
сколько по времени будет происходить синонимизация 1мб текста?


Вот это очень правильный вопрос IMHO.

ушел на завод

0
 



С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962

Ссылка на сообщениеДобавлено: 29/12/07 в 00:54       Ответить с цитатойцитата 

cyberxxx писал:
Неа, не конкурент уже - я CyberSEO не продаю больше (обрати внимание на сигнатуру), ибо жаба душит icon_smile.gif В данный момент, продаю только TheSponsorFeeds, который предназначен исключительно для владельцев партнерок и не может быть использован независимыми блоггерами.

хех.... только я купить собрался icon_smile.gif

Цитата:
Ну а по поводу твоего вопроса. Во-первых, не напал, а реально интересуюсь, ибо даже мой "бесхитростный" плагин умудряется довольно неплохо загружать сервер при более-менее серьезных нагрузках. А ведь там нет ни проверки правильности использования синонимов, ни, тем более, обращений к мускулю.

Да я в курсе что операции ресурсоемкие, но при заявленой цене думаю покупателю не впадлу будет отдельный сервачок выделить под это дело, если конечно система стоящая.

0
 

Деньги из воздуха...

С нами с 26.09.04
Сообщения: 3797
Рейтинг: 2283

Ссылка на сообщениеДобавлено: 29/12/07 в 07:18       Ответить с цитатойцитата 

+1 к вопросу о замене устойчивых словосочетаний. Есть такое или тоже однословные тока?
Man: Да не в мощностях дело. Оно получается, что в реальном времени даже мощных серверах при некотором отличном от 0 количестве запросов на синонимизацию нагрузка такая что мама не горюй. А впрок синонимизировать очень лениво все.

Обмен Epass - Fet - Wmz - PayPal(!!) - Wire
Свежий юмор на моем ресурсе || Книжный интернет магазин

0
 



С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962

Ссылка на сообщениеДобавлено: 29/12/07 в 11:13       Ответить с цитатойцитата 

ritor писал:
Man: Да не в мощностях дело. Оно получается, что в реальном времени даже мощных серверах при некотором отличном от 0 количестве запросов на синонимизацию нагрузка такая что мама не горюй. А впрок синонимизировать очень лениво все.

Да я в курсе icon_smile.gif Но это зло неизбежное, чудес-то не бывает. Если уж на то пошло то даже пресловутый Марков на более-менее больших текстах грузит тоже не слабо.

кстати 7 утра уже прошло насколько я понимаю, чуствую мы тут еще долго облизываться будем smail101.gif

0
 

♥♥♥

С нами с 28.08.04
Сообщения: 7098
Рейтинг: 5671


Передовик Master-X (01.08.2007) Передовик Master-X (16.08.2007)
Ссылка на сообщениеДобавлено: 29/12/07 в 13:05       Ответить с цитатойцитата 

Ждемс))

0
 



С нами с 25.01.06
Сообщения: 72
Рейтинг: 38

Ссылка на сообщениеДобавлено: 30/12/07 в 03:18       Ответить с цитатойцитата 

ТС, а может ли твой супер скрипт синонимизировать предложения и абзацы?
Также интересует возможность суммаризации.

0
 

c++,php кодинг

С нами с 22.10.05
Сообщения: 1098
Рейтинг: 558

Ссылка на сообщениеДобавлено: 30/12/07 в 08:50       Ответить с цитатойцитата 

и я, и я

0
 



С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962

Ссылка на сообщениеДобавлено: 30/12/07 в 15:26       Ответить с цитатойцитата 

Умерло не родившись....

0
 



С нами с 11.08.06
Сообщения: 400
Рейтинг: 208

Ссылка на сообщениеДобавлено: 30/12/07 в 15:29       Ответить с цитатойцитата 



Не, наверное там уже новый год icon_smile.gif

0
 

pNote

С нами с 27.02.07
Сообщения: 1129
Рейтинг: 669

Ссылка на сообщениеДобавлено: 30/12/07 в 18:59       Ответить с цитатойцитата 

ну и нах было спамиться, не подготовив скрипты и проект в целом на серваке? фуня какая-то.

Адалт умер, да здравствует адалт!

0
 

Деньги из воздуха...

С нами с 26.09.04
Сообщения: 3797
Рейтинг: 2283

Ссылка на сообщениеДобавлено: 30/12/07 в 19:20       Ответить с цитатойцитата 

Ну да а потом выяснится, что еще не совсем алгоритм синонимизации готов icon_smile.gif итд.
ТС ничего личного ждем с нетерпением появления, но спамятся обычно с примерами и готовым сервисом.

Обмен Epass - Fet - Wmz - PayPal(!!) - Wire
Свежий юмор на моем ресурсе || Книжный интернет магазин

0
 



С нами с 30.12.07
Сообщения: 128
Рейтинг: 25

Ссылка на сообщениеДобавлено: 30/12/07 в 20:47       Ответить с цитатойцитата 

Оффтопик: SEOcar, не пали тему, ненаадо в паблик

Русский порно блог |
Продам сигу, недорого.

0
 

осинизатор

С нами с 10.03.03
Сообщения: 8491
Рейтинг: 819

Ссылка на сообщениеДобавлено: 30/12/07 в 21:35       Ответить с цитатойцитата 

HappyUser писал:
Оффтопик: SEOcar, не пали тему, ненаадо в паблик


С добрым утром! icon_smile.gif Эту тему еще в 2005-м году "запалили". Сегодня только ленивый синонимайзером не пользуется - гугль в помощь! icon_smile.gif

ушел на завод

0
 

Old Oil Barrel

С нами с 09.09.04
Сообщения: 58531
Рейтинг: 14265


Передовик Master-X (16.07.2005) Передовик Master-X (16.10.2005) Передовик Master-X (01.12.2006) Передовик Master-X (01.03.2007) Передовик Master-X (16.03.2007) Ветеран трепа Master-X ()
Ссылка на сообщениеДобавлено: 31/12/07 в 10:04       Ответить с цитатойцитата 

на 1000 баксов я закажу уникальных текстов мне на год для блогов хватит...
даже больше...
имхо цена завышена в несколько раз

Правило буравчика

0
 



С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962

Ссылка на сообщениеДобавлено: 31/12/07 в 14:43       Ответить с цитатойцитата 

Sergeyka писал:

имхо цена завышена в несколько раз

Особенно с учетом того что системы похоже что и нет smail101.gif

И не влом было ТС писать такой пост и спамится по форумам чтобы так смачно облажаться smail101.gif
А жаль, с интересом бы посмотрел...

0
 



С нами с 01.12.04
Сообщения: 90
Рейтинг: 48

Ссылка на сообщениеДобавлено: 06/01/08 в 04:00       Ответить с цитатойцитата 

Вот бесплатный синонимайзер, по возможностям вроде бы похожий на тот что описан в начале топика: http://awt.win32utils.com/synonyms/

SEO-блог где палят темы

0
 

Самый добрый бегемот

С нами с 24.06.03
Сообщения: 954
Рейтинг: 574

Ссылка на сообщениеДобавлено: 06/01/08 в 11:45       Ответить с цитатойцитата 

Что-то я не разобрался как его получить =(

0
 
Новая тема Новая тема   

Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!


Перейти:  



Спонсор сайта

Реклама на сайте Advertise with us

Опросы

Рецепт новогоднего блюда 2022



Обсудите на форуме обсудить (11)
все опросы »