Реклама на сайте Advertise with us

Wget скачивание страниц и хотлинк изображений

Расширенный поиск по форуму
 
Новая тема Новая тема   
Автор
Поиск в теме:

нет судьбы

С нами с 27.03.03
Сообщения: 4427
Рейтинг: 4204


Передовик Master-X (16.07.2011) Передовик Master-X (16.10.2011) Передовик Master-X (01.11.2011) Передовик Master-X (16.11.2011) Передовик Master-X (01.01.2012) Ветеран трепа Master-X (16.02.2012)
Ссылка на сообщениеДобавлено: 15/07/10 в 12:00       Ответить с цитатойцитата 

Не раз говорилось о том, что wget монстр закачек. Появилось несколько не тривиальных проблем при рекурсивном скачивании страниц.

1) Как скачать страницу (сайт) целиком, но без фанатичных излишков, если изображения хотлинкуются с другого сервера или серверах? (Будем считать, что кол-во таких серверов известно и ограничено)

2) Как скачать страницу (сайт) целиком, если добрая часть изображений прописана не в самих html страницах, а в файлах стилей!? При этом файл стилей может лежать опять же на удалённом сервере и изображения прописаные в нём могут лежать так же на другом удалённом сервере! Опять же всё известно и ограничено!

0
 

Добрых Дел Мастер

С нами с 03.05.08
Сообщения: 3143
Рейтинг: 1227

Ссылка на сообщениеДобавлено: 15/07/10 в 20:02       Ответить с цитатойцитата 

Vyacheslav писал:

1) Как скачать страницу (сайт) целиком, но без фанатичных излишков, если изображения хотлинкуются с другого сервера или серверах? (Будем считать, что кол-во таких серверов известно и ограничено)

как вариант - пройтись по страничкам прочекать src у картинок. если != домену то качать в папку. заменять src на локальный путь/папка.img. также там вроде маски урлов можно юзать.

0
 



С нами с 16.10.09
Сообщения: 343
Рейтинг: 419

Ссылка на сообщениеДобавлено: 16/07/10 в 01:41       Ответить с цитатойцитата 

Цитата:

-k
--convert-links
After the download is complete, convert the links in the document to make them suitable for local viewing. This affects not only the visible hyperlinks, but any part of the document that links to external content, such as embedded images, links to style sheets, hyperlinks to non-HTML content, etc.

Это?

0
 

нет судьбы

С нами с 27.03.03
Сообщения: 4427
Рейтинг: 4204


Передовик Master-X (16.07.2011) Передовик Master-X (16.10.2011) Передовик Master-X (01.11.2011) Передовик Master-X (16.11.2011) Передовик Master-X (01.01.2012) Ветеран трепа Master-X (16.02.2012)
Ссылка на сообщениеДобавлено: 16/07/10 в 01:54       Ответить с цитатойцитата 

Noobus Boobus писал:
Это?


Нет. Это уже после закачки. Сначала надо хоть как-то скачать..

0
 

нет судьбы

С нами с 27.03.03
Сообщения: 4427
Рейтинг: 4204


Передовик Master-X (16.07.2011) Передовик Master-X (16.10.2011) Передовик Master-X (01.11.2011) Передовик Master-X (16.11.2011) Передовик Master-X (01.01.2012) Ветеран трепа Master-X (16.02.2012)
Ссылка на сообщениеДобавлено: 30/07/10 в 07:44       Ответить с цитатойцитата 

Мда,.. Wget могучий, но не всемогущий, как его перехваливают! icon_smile.gif

0
 



С нами с 03.12.09
Сообщения: 18
Рейтинг: 8

Ссылка на сообщениеДобавлено: 30/07/10 в 17:15       Ответить с цитатойцитата 

man wget


4.1 Spanning Hosts

Wget's recursive retrieval normally refuses to visit hosts different than the one you specified on the command line. This is a reasonable default; without it, every retrieval would have the potential to turn your Wget into a small version of google.

However, visiting different hosts, or host spanning, is sometimes a useful option. Maybe the images are served from a different server. Maybe you're mirroring a site that consists of pages interlinked between three servers. Maybe the server has two equivalent names, and the html pages refer to both interchangeably.
Span to any host—‘-H’
The ‘-H’ option turns on host spanning, thus allowing Wget's recursive run to visit any host referenced by a link. Unless sufficient recursion-limiting criteria are applied depth, these foreign hosts will typically link to yet more hosts, and so on until Wget ends up sucking up much more data than you have intended.
Limit spanning to certain domains—‘-D’
The ‘-D’ option allows you to specify the domains that will be followed, thus limiting the recursion only to the hosts that belong to these domains. Obviously, this makes sense only in conjunction with ‘-H’. A typical example would be downloading the contents of ‘www.server.com’, but allowing downloads from ‘images.server.com’, etc.:
wget -rH -Dserver.com http://www.server.com/

You can specify more than one address by separating them with a comma, e.g. ‘-Ddomain1.com,domain2.com’.
Keep download off certain domains—‘--exclude-domains’
If there are domains you want to exclude specifically, you can do it with ‘--exclude-domains’, which accepts the same type of arguments of ‘-D’, but will exclude all the listed domains. For example, if you want to download all the hosts from ‘foo.edu’ domain, with the exception of ‘sunsite.foo.edu’, you can do it like this:
wget -rH -Dfoo.edu --exclude-domains sunsite.foo.edu \
http://www.foo.edu/

помогаю с: PHP/DB/DHTML (AJAX, etc)

0
 
Новая тема Новая тема   

Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!


Перейти:  



Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us

Опросы

Рецепт новогоднего блюда 2022



Обсудите на форуме обсудить (11)
все опросы »