Собирание ссылок со страницы (Open Source)

Расширенный поиск по форуму

Новая тема

Автор

Поиск в теме:

clever

show me the money

С нами с 18.02.03
Сообщения: 1598
Рейтинг: 263

Добавлено: 05/03/04 в 17:19

цитата

//

$regex = '/<a +href *= *["\']?([^"\']+)["\']? *>(.+)<\/a>/iU';

preg_match_all($regex, $page, $temp);
$links = array('url' => $temp[1], 'content' => $temp[2]);
return $links;

//

Возвращает массив где в индексе url храняться массив адресов ссылок, в индексе content - массив строк между <a></a> тегами.

Так вот, кто напишет лучше или что доработает.
Open Source топик открываю, посвящённый этой проблеме.

Saod

С нами с 12.03.03
Сообщения: 23
Рейтинг: 37

Добавлено: 05/03/04 в 17:42

цитата

Вот еще один вариант:
---------------
preg_match_all("!<a[^>]+href=\"?'?([^ \"'>]+)\"?'?[^>]*>(.*?)</a>!is",$page,$u);
---------------
в $u[0][..]=вся ссылка
в $u[1][..]=урл ссылки
в $u[2][..]=текст ссылки

Grumbler

С нами с 06.07.02
Сообщения: 136
Рейтинг: 66

Добавлено: 06/03/04 в 00:33

цитата

Saod прошел дальше, но есть замечание: пробелы могут быть между любыми элементами: a href = url >

Saod

С нами с 12.03.03
Сообщения: 23
Рейтинг: 37

Добавлено: 06/03/04 в 01:06

цитата

Ну тогда делаем так:
----------------
preg_match_all("!<a[^>]+href *= *\"?'?([^ \"'>]+)\"?'?[^>]*>(.*?)</a>!is",$page,$u);
----------------
в $u[0][..]=вся ссылка
в $u[1][..]=урл ссылки
в $u[2][..]=текст ссылки

begemot

С нами с 25.12.03
Сообщения: 1003
Рейтинг: 462

Добавлено: 06/03/04 в 01:41

цитата

регулярные выражения для обработки HTML слишком громоздки

, продумать все варианты синтаксиса очень непросто. С этой целью были придуманы html parser'ы. Для perl - HTML::Parser, для php - http://codingtheweb.partners.phpclasses.org/browse.html/package/1420.html или http://php-html.sourceforge.net/
позволят вытянуть любые тэги и свойства не задумываясь о структуре и синтаксисе html документа

Sutra - лучшая система управления трафом

clever

show me the money

С нами с 18.02.03
Сообщения: 1598
Рейтинг: 263

Добавлено: 06/03/04 в 02:38

цитата

А разве парсер не на регулярных выражениях работает?
Как вообще можно обрабатывать такой сложный html текст без регулярных выражений.