Реклама на сайте Advertise with us

Срочно ищется тестер синонимизатора

Расширенный поиск по форуму
 
Новая тема Новая тема   
Автор
Поиск в теме:

db ++++

С нами с 12.01.05
Сообщения: 1446
Рейтинг: 733

Ссылка на сообщениеДобавлено: 27/01/08 в 23:51       Ответить с цитатойцитата 

SEOcar писал:
Процесс определения смысла слов и поиска сходных по смыслу синонимов - это мое "ноухау".


Твое ноухау мой программер написал недели 2 назад icon_smile.gif

ровно тогда все это довольно детально обсуждалось на Армаде )

Скажу одно.. прогер нейронку обучил под это дело, если у ТС аналогичный случай, продукт должен быть хорошим!

0
 



С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962

Ссылка на сообщениеДобавлено: 28/01/08 в 01:42       Ответить с цитатойцитата 

SEOcar писал:
Концепция и политика распространения
Данный синонимайзер я создавал преимущественно для собственных нужд. Однако принял решение о продаже нескольких его копий.

Поскольку количество синонимов на каждое слово ограничено, то при росте количества синонимизированных вариантов одного и того же текста начинает расти и вероятность появления дублей. Причем вероятность роста дублей будет одинакова для всех владельцев синонимизатора. В связи с этим будет применяться "сдерживающая" политика распространения: чем больше копий будет продано, тем выше будет цена.

Я занимал еще в 2007 году icon_smile.gif
Только пока нет еше ничего, ни продукта, ни цены- ждемс...

0
 



С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962

Ссылка на сообщениеДобавлено: 28/01/08 в 01:58       Ответить с цитатойцитата 

alexf2000 писал:
Интересно каким образом определяется, что смысл именно этот, а не какой-то другой из 9 возможных?

Честно говоря кроме чисто статистических методов ничего в голову не приходит. Если ТС умудрился решить эту задачку другим путем - респект...

0
 



С нами с 25.12.03
Сообщения: 1003
Рейтинг: 462

Ссылка на сообщениеДобавлено: 28/01/08 в 04:13       Ответить с цитатойцитата 

вот удивительно .. мы, дорвейщики, .. пишем программы для распознавания изображений при помощи нейросетей, создаём интеллектуальные системы написания текстов, оптимизируем так, чтобы всё летало, ввиду отсутствия средств на мощные сервера...

это вам не какие-то там "сайты" клепать ядрёна мать! icon_smile.gif

Sutra - лучшая система управления трафом

0
 



С нами с 10.04.04
Сообщения: 2526
Рейтинг: 1447

Ссылка на сообщениеДобавлено: 28/01/08 в 06:48       Ответить с цитатойцитата 

Замена слов на синонимы это нет то, вот если бы был софт переписывающий полностью предложение - это другое...

Это не я должен предлагать тебе деньги, а ты должен убедить меня заплатить тебе.

0
 



С нами с 20.11.07
Сообщения: 148
Рейтинг: 3

Ссылка на сообщениеДобавлено: 28/01/08 в 12:59       Ответить с цитатойцитата 

Вообщем-то все готово. Если есть желающие ознакомиться и приобрести - велкам в асю (660272).

До 12:00 1 февраля(пятница) цена - $400. Далее $500.
В стоимость входит установка, настройка и последующие апдейты.
Сам скрипт зазенден. База данных зашифрована.

Требования:
- MySQL
- PHP (с зендом)
- VPS или дедик (на виртуале сие дело будет крутиться мучительно долго)

Оплата пока только в Вебманях (к сожалению, не вижу пока других нормальных платежных систем).

0
 



С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962

Ссылка на сообщениеДобавлено: 28/01/08 в 15:05       Ответить с цитатойцитата 

Потестил, отписываю.
Из несомненных плюсов то что SEOcar действительно хорошо разобрался с проблематикой реврайтинга текстов посредством синонимизации, явно много копал, много читал и предложил свои методы решения возникающих проблем.
В общем есть понимание и есть желание "копать" в этом направлении.

По самому синонимайзеру.
Решение многозначности по частям речи - работает хорошо на общих текстах, несколько хуже на специальных и содержащих сленг.
Правильно определяются словоформы и замена производится с учетом использованных в образце окончаний (fucks-bangs,girls-misses и т.д.).
Решение смысловой многозначности вцелом работает, но есть определенный % ошибок, который также явно будет меняться в большую сторону при усилении "специализации" текстов. Вообще тут достаточно сложно оценить качество на небольшом объеме текстов, но мне представляется возможным уменьшить число ошибок, поработав со спец. текстами и словарями (трудоемко). Главное есть некая методика.

Из минусов.
Большинство минусов вытекают непосредственно из используемых словарных баз. Тот-же ворднет, на мой взгляд, довольно сильно "формализован", т.е. синонимы указываются только точно совпадающие по смыслу, недостаточно устойчивых словосочетааний, неважная база спец.терминов и сленга и т.д.
Обсудили с SEOcar эту проблему, у него появились идеи как можно расширить гибкость алгоритма - подождем реализации...

Резюме: интересно, обещающе, в случае проведения некоторой шлифовки и развития - будет весьма хорошим продуктом.

0
 



С нами с 26.08.03
Сообщения: 125
Рейтинг: 106

Ссылка на сообщениеДобавлено: 29/01/08 в 10:52       Ответить с цитатойцитата 

Хотелось бы уточнить смысловой аспект.
Как, допустим, синонимайзер поступит с фразой
Her first time fucking
По идее first time надо рассматривать как устойчивое словосочетание
и если искать синоним, то именно для него.
Потому как, first date, в данном контексте не катит.
Или first time надо будет помечать как "поэтическое"
и синонимизироваться оно не будет?

IdolBucks только для ревшары: ребиллы годами.

0
 



С нами с 20.11.07
Сообщения: 148
Рейтинг: 3

Ссылка на сообщениеДобавлено: 29/01/08 в 12:43       Ответить с цитатойцитата 


В базе есть устойчивое словосочетание "first time". Но синонимов в ворднете к нему нет. Поэтому слово будет оставлено как есть. В синонимайзер добавлена возможность использования пользовательского словаря вида "СЛОВО|синоним1,синоним2 и тд". Поэтому если в пользовательском словаре будет найдено это устойчивое словосочетание, то оно будет заменено на случайный синоним.

0
 



С нами с 23.03.03
Сообщения: 390
Рейтинг: 254

Ссылка на сообщениеДобавлено: 29/01/08 в 23:22       Ответить с цитатойцитата 

сколько времени будет синонимизироваться 1 мб текста. или 1000 предложений по 5+ слов?
на среднестатистическом дедике

nferno Solutions: Выделенные серверы и VDS по самым низким ценам (от 20$)

0
 



С нами с 16.01.06
Сообщения: 268
Рейтинг: 460

Ссылка на сообщениеДобавлено: 29/01/08 в 23:32       Ответить с цитатойцитата 

что б не обсуждать сферического коня в вакууме, пусть или разработчик или кто то из тестеров приведет примеры работы синонимайзера - несколько текстов адалтовой тематики порядка 1кБ.

А то у всех разные критерии для оценки
"работает хорошо на общих текстах, несколько хуже на специальных и содержащих сленг"

I am the master of my fate
I am the captain of my soul

0
 



С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962

Ссылка на сообщениеДобавлено: 29/01/08 в 23:51       Ответить с цитатойцитата 

johnson писал:
А то у всех разные критерии для оценки
"работает хорошо на общих текстах, несколько хуже на специальных и содержащих сленг"

Я специально не стал приводить результаты своих тестов, потому как по-моему достаточно очевидно что адалт тексты содержат много специфической лексики которой просто нет в паблик базах.
И потому написал что если вводить ВРУЧНУЮ подготовленные словари спец. лексики, то будет весьма неплохо синонимизировать.

С этим конечно придется поебаться, и цена таким словарям в разы выше чем любого скрипта имхо. Те кто ждут очередную "кнопку бабло" будут разочарованы icon_smile.gif
Но сами алгоритмы вполне рабочие, это основное имхо что должно быть заложено в подобном скрипте

0
 



С нами с 20.11.07
Сообщения: 148
Рейтинг: 3

Ссылка на сообщениеДобавлено: 30/01/08 в 00:34       Ответить с цитатойцитата 

w84me писал:
сколько времени будет синонимизироваться 1 мб текста. или 1000 предложений по 5+ слов?
на среднестатистическом дедике


Касательно скорости синонимизации. Поскольку каждое слово рассматривается неразрывно от остальных слов в предложении, то чем больше слов в предложении, тем больше времени занимает синонимизация каждого слова. Тоесть синонимизация 1000 предложений по 5 слов (5000 слов) будет идти быстрее, чем синонимизация 500 предложений по 10 слов (тоже 5000 слов). Однако чем больше слов в предложении, тем точнее определяется смысл каждого слова и качественнее происходит синонимизация.
Основной и самый важный критерий производительности скрипта - это скорость процессора. Размер готовой базы с индексами составляет чуть менее 150 мб. Поэтому достаточно 1гб оперативной памяти и соответствующих настроей MySQL для того, чтобы MySQL закэшировал всю базу в память. Если заморочится с настройками дедика, то будет достаточно и 512 мб ОЗУ. Конечно скрипт может работать и на менее производительных системах, однако скорость его будет заметно снижена.
При работе скрипта примерно 95% процессорного времени съедается мускулем, а остальное - самим скриптом. Поэтому для увеличения скорости работы скрипта имеет смысл настроить MySQL сервер на самую оптимальную производительность. В самой базе созданы все необходимые индексы для быстрой работы. Поскольку работа с базой идет только на чтение, то имеет смысл включить многопоточность мускуля на системах с несколькими ядрами/процессорами.
Сами бенчмарки скрипта я еще не делал, поэтому озвучить точную цифру я не смогу. Но смею предположить, что синонимизация 1мб текста статей сейчас производится примерно за 4-5 часов на 1-процессорном P4 2.4 GHz с 1гб памяти (Был взят кусок текста размером в 1 кб и засечено время его синонимизации. Далее количество затраченного времени было умножено на 1024). Согласен, что время это не маленькое, однако здесь в расчет не учтен кэш MySQL, который должен заметно сократить это время. Я уже обсуждал проблему производительности с Man'ом, поэтому одно из моих направлений сейчас - это уменьшение размера базы и оптимизация работы с ней с целью увеличения производительности.

0
 



С нами с 20.11.07
Сообщения: 148
Рейтинг: 3

Ссылка на сообщениеДобавлено: 30/01/08 в 00:43       Ответить с цитатойцитата 

johnson писал:
что б не обсуждать сферического коня в вакууме, пусть или разработчик или кто то из тестеров приведет примеры работы синонимайзера - несколько текстов адалтовой тематики порядка 1кБ.

Ок. Тогда я сделаю так:
Набью небольшой пользовательский словарик синонимов для адалта, затем выложу здесь результаты синонимизации десков и описания платников без оного и с ним. Мне потребуется некоторое время на это. Надеюсь, что это будет готово завтра с утра.

0
 



С нами с 14.06.06
Сообщения: 3000
Рейтинг: 1475

Ссылка на сообщениеДобавлено: 30/01/08 в 05:12       Ответить с цитатойцитата 

...

Последний раз редактировалось: example (19/06/15 в 20:27), всего редактировалось 1 раз

0
 

db ++++

С нами с 12.01.05
Сообщения: 1446
Рейтинг: 733

Ссылка на сообщениеДобавлено: 30/01/08 в 05:41       Ответить с цитатойцитата 

salvador писал:
Оффтопик: Это не то, о чем писал Вацлав?

не равняй .... то что есть у Вацлава - совсем не синонимайзер, а генерация текста... а если ты про топик, где он описывал как построить грамматически правельный текст, то возможно на этом алгоритме и основано.

0
 
Новая тема Новая тема   

Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!


Перейти:  



Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us

Опросы

Рецепт новогоднего блюда 2022



Обсудите на форуме обсудить (11)
все опросы »