Реклама на сайте Advertise with us

PHP работа с текстом

Расширенный поиск по форуму
 
Новая тема Новая тема   
Автор
Поиск в теме:

Добрых Дел Мастер

С нами с 03.05.08
Сообщения: 3143
Рейтинг: 1227

Ссылка на сообщениеДобавлено: 06/07/10 в 19:07       Ответить с цитатойцитата 

Есть 10 статей с одного источника. Внутри статей есть одинаковые куски текста (ну всякое дерьмо типа имя автора\постовые\релатед линк\ иконки на социалки, закладки \ прочие левые линки). Как на основе сравнительного анализа (накладываем друг на друга как полупрозрачные слои) текстов понять какие именно куски одинаковы и их удалить?

0
 

programmer

С нами с 08.12.02
Сообщения: 7607
Рейтинг: 5752

Ссылка на сообщениеДобавлено: 06/07/10 в 20:34       Ответить с цитатойцитата 

разбей текст на части
текст[1][part1]
текст[1][part2]

потом прогоняй куски на совпадение
если хоть 1 есть - удаляй из всех

крипта на ByBit

4
 

Добрых Дел Мастер

С нами с 03.05.08
Сообщения: 3143
Рейтинг: 1227

Ссылка на сообщениеДобавлено: 06/07/10 в 21:56       Ответить с цитатойцитата 

разбить на части ничего не даст icon_rolleyes.gif

1. мама мыла раму <p>ссылка тут</p> <span>постовой<span>
2. карл у мамы клары украл кларнет и раму вымыл <p>ссылка тут</p> <span>постовой<span>

разбиваем на слова по пробелу, находим первое слово "мама" и находим маму во втором предложении, с рамой тоже самое.
по 2 слова:
1. {мама мыла} {раму <p>ссылка} {тут</p>} {<span>постовой<span>}
2. {карл у} {мамы клары} {украл кларнет} {и раму} {вымыл <p>ссылка} {тут</p>}

и ничего не находим
причем ни к позиции ни к тегам я прицепиться не могу. произвольная структура

Такой вариант наверно:
-разбиваем текст на слова. все слова одного текста прогоняем по второму тексту. у совпадающих слов у второго текста - цепляем следующее слово за ним. цепляем следующее за ним - у первого текста. и словосочетания прогоняем. но...хлебные крошки и релатед пост разные на всех страницах. верстка (в произвольном случае) вброшена инлайн прямо в тело поста

0
 

programmer

С нами с 08.12.02
Сообщения: 7607
Рейтинг: 5752

Ссылка на сообщениеДобавлено: 06/07/10 в 22:42       Ответить с цитатойцитата 

а как то strip_tags заюзать, не ...?

крипта на ByBit

4
 

Добрых Дел Мастер

С нами с 03.05.08
Сообщения: 3143
Рейтинг: 1227

Ссылка на сообщениеДобавлено: 07/07/10 в 15:22       Ответить с цитатойцитата 

да не. так хоть я могу к span[last] \ p[last] на крайняк прицепиться (если допустить что верстка меняться не будет (а если вдруг сменится то алерты бросать)). если теги убрать то вообще труба...

0
 
Новая тема Новая тема   

Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!


Перейти:  



Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us

Опросы

Рецепт новогоднего блюда 2022



Обсудите на форуме обсудить (11)
все опросы »