Реклама на сайте Advertise with us

Done. Was Нужно написать на php+mysql парсер html

Расширенный поиск по форуму
 
Новая тема Новая тема   
Автор
Поиск в теме:



С нами с 21.09.04
Сообщения: 609
Рейтинг: 473

Ссылка на сообщениеДобавлено: 09/09/09 в 08:17       Ответить с цитатойцитата 

Был написан сайт в MS Word(!) .

Нужно написать на php парсер htm-файлов с тем, чтобы удалить из них всё лишнее, что напихал туда MS word.

Пример файлов: http://voyeurmania.info/file2compile.htm

Срочность: очень срочно.
Сложность скрипта: не очень сложный.
Срок работы 1-7 дней.
Оплата 60wmz по факту сдачи работы.

Техническое задание.

  • отсканировать вложенную структуру каталогов (до 2 уровней вложенности);
  • распарсить имеющиеся там htm файлы;
  • провести замену пробелов в именах файлов и каталогов и создать каталоги и файлы с новыми именами (без пробелов); файлы создавать по заданному шаблону; в htm-файлы поменять ссылки на файлы уже без проблелов в имени;
  • найти в файлах теги <title> и занести в mysql-базу имена файлов и их <title>, проверяя уникальность файлов в базе; обновить записи, если в файлах произошли изменения;
  • создать sitemap с учетом дат изменившихся с прошлого парсинга файлов.


Предложения на 213769924 или take AT voyeurmania.info

Последний раз редактировалось: pns (10/09/09 в 07:08), всего редактировалось 1 раз

0
 



С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010


Передовик Master-X (16.03.2006) Передовик Master-X (01.04.2006) Передовик Master-X (16.04.2006) Передовик Master-X (01.05.2006) Передовик Master-X (01.11.2006) Ветеран трепа Master-X ()
Ссылка на сообщениеДобавлено: 09/09/09 в 09:29       Ответить с цитатойцитата 

скажите кодеры, скрипт действительно "не очень сложный"?

0
 

SexBlogs.Name

С нами с 13.10.03
Сообщения: 3159
Рейтинг: 962

Ссылка на сообщениеДобавлено: 09/09/09 в 10:48       Ответить с цитатойцитата 

действительно не сложный

Submit your blog to the sex blogs list. PR=3 Quickly approve! 10 posts min. Ping every 6 hour!

0
 

Самый добрый бегемот

С нами с 24.06.03
Сообщения: 954
Рейтинг: 574

Ссылка на сообщениеДобавлено: 09/09/09 в 11:53       Ответить с цитатойцитата 

скрипт не сложный, бюджет смешной =)

0
 



С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010


Передовик Master-X (16.03.2006) Передовик Master-X (01.04.2006) Передовик Master-X (16.04.2006) Передовик Master-X (01.05.2006) Передовик Master-X (01.11.2006) Ветеран трепа Master-X ()
Ссылка на сообщениеДобавлено: 09/09/09 в 11:55       Ответить с цитатойцитата 

atrius писал:
скрипт не сложный, бюджет смешной =)


нет, именно оплата/затраты труда, 60вмз это 2-3-4 часа работы нормального прогера...

0
 



С нами с 21.09.04
Сообщения: 609
Рейтинг: 473

Ссылка на сообщениеДобавлено: 09/09/09 в 15:31       Ответить с цитатойцитата 

и что, флейм есть работы нет? тут кодеры или публицисты?

0
 



С нами с 26.10.02
Сообщения: 151
Рейтинг: 148

Ссылка на сообщениеДобавлено: 09/09/09 в 19:45       Ответить с цитатойцитата 

ну скажем так - если только на примере этого файлика удалять ненужное (кста ненужное все понимают по разному ;) ), писать пачку замен строк (кстати надеюсь в остальных файликах это ненужное такое же, а не измененное), то это просто... а вот когда начинаются изменения - тут придется поломать не только голову ;) так что насчет сложности можно и поспорить... пиши в пм если у тебя все однотипное, но писать универсалку по чистке хтмл... эт будет достаточно дороже ;) особенно если придерживаться какого либо конкретного стандарта ;)

зы. от балды попробовал macromedia dreamweaver - чистку хтмл - получается почти прилично ;) посмотри в эту сторону и экономь деньги ;)
Код:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1251">
<link rel=Edit-Time-Data href="./index.files/editdata.mso">
<title></title>
<style>
----вырезано--------
<body bgcolor="#FFFFFF" link=gray vlink=purple lang=RU>
<div class=Section1>
  <table border=1 cellspacing=0 cellpadding=0 width="100%">
    <tr>
      <td width="100%" valign=top><p align=center style='text-align:center;'><span
  style='font-size:28.0pt;'><img width=780 height=356
  src="./index.files/image001.jpg" v:shapes="_x0000_i1025"></span></p></td>
    </tr>
  </table>
  <p align=center style='text-align:center'><b><span
style='font-size:18.0pt;color:blue'>СЕЗОН 2009 ГОДА</span></b></p>
  <p align=center style='text-align:center'><b><span
style='color:red'>Мужчины</span></b></p>
  <table border=0 cellspacing=0 cellpadding=0 width="100%">
    <tr>
      <td width="28%" colspan=3 valign=top bgcolor="#B3B3B3"><p align=center style='text-align:center'><b><span
  style='color:white'>Чемпионат</span></b></p></td>
      <td width="28%" valign=top bgcolor="#B3B3B3"><p align=center style='text-align:center'><b><span
  style='color:white'>Кубок</span></b></p></td>
      <td width="43%" valign=top bgcolor="#B3B3B3"><p align=center style='text-align:center'><b><span
  style='color:white'>Турниры</span></b></p></td>
    </tr>
    <tr>
      <td width="28%" colspan=3 valign=top><p><b><span style='font-size:12.0pt;  color:blue'><a href="2009\Chempionat2009\Reglament.htm">Регламент
          соревнований</a></span></b></p></td>
      <td width="28%" valign=top><p class=MsoHeader><span
  style='font-size:12.0pt;'><a
  href="2009\Kubok2009\Kubok-16.htm">Результаты 1/16 финала</a></span></p></td>
      <td width="43%" valign=top><p><span style='font-size:12.0pt;  color:windowtext'><a href="2009\Snegovik2009\Snegovik2009.htm">Турнир
          «Снеговик»</a></span></p></td>
    </tr>
    <tr>
      <td width="28%" colspan=3 valign=top><p><b><span style='font-size:12.0pt;  color:windowtext'><a href="2009\Chempionat2009\Sostav\2009zk.htm">Заявки
          команд</a></span></b></p></td>
      <td width="28%" valign=top><p><span style='font-size:12.0pt;  color:windowtext'><a href="2009\Kubok2009\Kubok-08.htm">Результаты 1/8 финала</a></span></p></td>
      <td width="43%" valign=top><p><span style='font-size:12.0pt;  color:windowtext'><a href="2009\Turnir2009\Belev2009.htm">Турнир в Белеве</a></span></p></td>
    </tr>
----вырезано----
</body>
</html>

вот такого типа что то получается на выходе

0
 

Мотиватор :)

С нами с 06.05.09
Сообщения: 3028
Рейтинг: 607

Ссылка на сообщениеДобавлено: 09/09/09 в 22:02       Ответить с цитатойцитата 

ibiz писал:

нет, именно оплата/затраты труда, 60вмз это 2-3-4 часа работы нормального прогера...


поддерживаю. но можно ли эту задачу впихнуть в 2-3-4 часа?

Just a signature.

0
 



С нами с 19.07.06
Сообщения: 252
Рейтинг: 346

Ссылка на сообщениеДобавлено: 10/09/09 в 04:12       Ответить с цитатойцитата 

http://textkit.ru/download/

Работа с textKit Free подразумевает три стадии.
Стадия импорта:
простой импорт html файлов
простой импорт html Word
простой импорт xml файлов (RSS/Atom)
простой импорт WXR (Wordpress)
простой импорт txt файлов
очистка контента от мусора (полезна при импорте из Word)
гибкая настраиваемая очистка грязного html кода (можно указать, что чистить, а что нет и т.д.)
удобные поиск и замена на стадии импорта
поддержка метода Drag&Drop для импортируемых файлов
запуск с командной строки
ассоциация файлов проектов с программой
простой, но умный текстовый редактор записей/страниц (только часто используемые теги)
кнопка форматирования html кода (удаление лишних пробелов, перенос строк, свободного пространства, там где оно не нужно)
окно быстрого визуального просмотра проделанной работы
простая вставка картинок в редактор записей (с возможностью изменить размер картинки с сохранением пропорции, указать выравнивание и мета теги)
простое управление списком записей
два вида записей: посты и страницы
неограниченная вложенность рубрик и страниц
возможность добавлять новые рубрики, посты и страницы на стадии редактирования
случайный разброс постов по указанным рубрикам (очень полезно, если категорий нет, но их надо быстро добавить)
возможность переносить записи из рубрики в рубрику методом Drag&Drop
возможность вставлять рубрику в рубрику методом Drag&Drop (неограниченная вложенность для рубрик)
простой разброс записей по диапазону дат (автодата)
планирование записей на будущее (создание автонаполняемых проектов)
простое добавление меток для записей
перелинковка записей
удаление всех меток одной кнопкой
автоматически настраиваемая вставка тега <!--more-->
возможность сохранять и загружать проект
сохранение всех основных настроек
подробная статистика (сколько статей, рубрик, меток, количество знаков, среднее количество знаков)
Стадия экспорта:
экспорт в Wordpress
экспорт в RSS 2.0
экспорт в HTML
экспорт в Zebrum Lite

в платной
экспорт в Joomla
удалённая публикация, экспорт в Blogger и Rumba
неограниченный импорт любых файлов (пакетный или массовый импорт HTML, TXT, XML, Word HTML)!
полная автоматизация процесса вёрстки сайта (релевантные автометки, продвинутая автодата с множеством настроек, релевантные автокатегории, продвинутые автокартинки)!
экспорт практически в любой движок!

Охота это отдых

0
 



С нами с 19.09.03
Сообщения: 1988
Рейтинг: 1247


Передовик Master-X (01.02.2004) Передовик Master-X (16.03.2004)
Ссылка на сообщениеДобавлено: 10/09/09 в 06:28       Ответить с цитатойцитата 

Чистильщиков кода валом, но если внимательнее прочитать тз, о становится понятно, почему они не подходят.

Для нормально проггера останется из 2-3-4 часов еще время книжку почитать и кофе выпить. Другое дело, как правило "толковые проггеры" на такие вещи отвлекаться не будут. Думаю нужно глянуть в сторону фрилансеров с таким бюджетом.

0
 



С нами с 21.09.04
Сообщения: 609
Рейтинг: 473

Ссылка на сообщениеДобавлено: 10/09/09 в 07:07       Ответить с цитатойцитата 

тема закрыта, кодер найден.

0
 
Новая тема Новая тема   

Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!


Перейти:  



Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us

Опросы

Рецепт новогоднего блюда 2022



Обсудите на форуме обсудить (11)
все опросы »