Реклама на сайте Advertise with us

Зачем PPS-системы выдают свои фиды не в стандартном XML

Расширенный поиск по форуму
 
Новая тема Новая тема   
Автор
Поиск в теме:

Best4U.Biz

С нами с 21.02.04
Сообщения: 1252
Рейтинг: 1441

Ссылка на сообщениеДобавлено: 05/03/05 в 16:21       Ответить с цитатойцитата 

bog писал:
1. как отличить бота от пользователя ;) боты они знаешь ли разные бывают, а не только с юзерагентом гуглбот icon_smile.gif

Те 90% ботов "вырезаются" проверкой в 2 строки. Остальные - да и х.й с ними, их полезность стремится к 0 ;)

bog писал:
2. в стандартных скриптах такие возможности не предусматриваются, так что о чем речь ?

Скажем так - там есть "заготовка" для этого. (Во всяком случае в скриптах Умакса) А дальше - кто хочет - сделает. Я сделал icon_smile.gif Причем эта "заготовка" "вырезает" уже не 90%, а минимум 99% ботов.

bog писал:
Ты тож немного не понял, результаты были бы без ошибки, просто если где то вдруг появиться лишний перевод строки, или ни дай бог из 2048 байтов в файле, сервер успел считать только 2047 - то стандартные ХМЛ парсеры выдают ошибку и 0 результатов.
КСВ выведет столько результатов - сколько успело нормально считаться. Можешь посмотреть на форумах как часто у людей результаты не показываются при использовании ХМЛ фидов, и немного подумать почему такое происходит.

В принципе - согласен. Но как я уже говорил - CSV фид тоже есть у многих (а может и всех ?). Т.ч. каждый может выбрать то, что ему "по душе".

bog писал:
В теории можно много рассуждать о том что проще\удобнее\быстрее, и конечно многие теоретические програмеры будут двумя руками за ХМЛ, но на практике, когда у вас будет реально большое кол-во трафика и большая нагрузка на сервер, то вы будете думать не о удобстве, а о скорости, надежности и ресурсоемкости. А хмл с этой точки зрения - отстой.

Х.з. Как-то я привык в первую очередь думать о "дуракоустойчивости". И в этом плане мне XML больше нравится. А проблемы нагрузки элементарно решаются увеличением мощности сервака (или добавлением еще одного и разделением нагрузки, и т.д.).

PPC - не думай о конвертации | Pay Per Lead/Action - то, во что эволюционируют ППС | лучший хостинг

0
 

пенсионер

С нами с 07.11.02
Сообщения: 2612
Рейтинг: 1166

Ссылка на сообщениеДобавлено: 05/03/05 в 17:51       Ответить с цитатойцитата 

Sams писал:
Те 90% ботов "вырезаются" проверкой в 2 строки. Остальные - да и х.й с ними, их полезность стремится к 0 ;)
...
Х.з. Как-то я привык в первую очередь думать о "дуракоустойчивости". И в этом плане мне XML больше нравится. А проблемы нагрузки элементарно решаются увеличением мощности сервака (или добавлением еще одного и разделением нагрузки, и т.д.).

В общем как я понимаю, практического опыта управления по настоящему крупными проектами у тебя нет. Так что и разговаривать в принципе не о чем.

Здесь ищу и даю работу^так делаю деньги
тут читаю инфу^веду блог, а вы?

0
 

Best4U.Biz

С нами с 21.02.04
Сообщения: 1252
Рейтинг: 1441

Ссылка на сообщениеДобавлено: 06/03/05 в 17:50       Ответить с цитатойцитата 

bog писал:
В общем как я понимаю, практического опыта управления по настоящему крупными проектами у тебя нет. Так что и разговаривать в принципе не о чем.

Хм.. Ну смотря что считать крупными.
Уровня умакса - конечно нет icon_smile.gif
А система сайтов с общей точкой имеющей проток 300к (в пике 20к в час) - было дело. Причем это именно проток через один скрипт. Тот скрипт вобще был написан на ПХП с МУСКУЛЕМ %) + анализ текстовых логов (на лету), ... - и ничего, жил. Сервак (тот самый цел2000) не перегужал (и даже не особо нагружал - там же еще 3 сиджа жило с ротаторами). Пришлось правда мускулю резолв отключить, т.к. там фря была %)

ЗЫ Вобще не совсем понимаю к чему твоя реплика. Я всего-лишь высказал свое имхо, подкрепленое опытом собственной работы. Я же не уговариваю всех на xml переходить. На вкус и цвет...

ЗЗЫ Я в тогда, кстати, вопрос задавал про фильтрацию трафа по списку подсетей в несколько К записей - так реально рабочий вариант подсказал единственный человек - lexa с umax icon_smile.gif

PPC - не думай о конвертации | Pay Per Lead/Action - то, во что эволюционируют ППС | лучший хостинг

0
 

Чингачгук, вождь красноглазых

С нами с 14.05.04
Сообщения: 4744
Рейтинг: 1824

Ссылка на сообщениеДобавлено: 06/03/05 в 18:00       Ответить с цитатойцитата 

bog писал:

Ты тож немного не понял, результаты были бы без ошибки, просто если где то вдруг появиться лишний перевод строки, или ни дай бог из 2048 байтов в файле, сервер успел считать только 2047 - то стандартные ХМЛ парсеры выдают ошибку и 0 результатов.
КСВ выведет столько результатов - сколько успело нормально считаться.


Нет, при таком раскладе в последнем результате будет ошибка.

И, кстати, вот и вылезло, почему некоторые считают, что парсинг xml забирает больше памяти - по всему видно, что dom-парсерами пользуются. sax-парсер забирает не больше памяти, чем парсер csv и обработает столько записей, сколько пролезет без ошибок.

Цитата:

Можешь посмотреть на форумах как часто у людей результаты не показываются при использовании ХМЛ фидов, и немного подумать почему такое происходит.


Разумеется, это не имеет никакого отношения к квалификации тех, кто пишет icon_smile.gif Пример я уже выше привел. xml против csv - это как и java на сервере супротив php. Требует несколько большего количества знаний, но можно получать более стабильные и предсказуемые результаты.

0
 

Cкриптоманьяк

С нами с 14.09.00
Сообщения: 1181
Рейтинг: 245

Ссылка на сообщениеДобавлено: 06/03/05 в 18:12       Ответить с цитатойцитата 

unimaximus писал:
Хреновелосипедостроитель icon_smile.gif)))
XML технологии рулят.


Ой, дружище, вот не надо насчет "велосипедов" icon_smile.gif
Грамотно собраный велосипед может в отдельных случах обогнать, хе-хе, "2 порша" icon_smile.gif
XML-технологии рулят, конечно. Но не в данном случае.

0
 

пенсионер

С нами с 07.11.02
Сообщения: 2612
Рейтинг: 1166

Ссылка на сообщениеДобавлено: 06/03/05 в 19:51       Ответить с цитатойцитата 

Sams писал:

ЗЫ Вобще не совсем понимаю к чему твоя реплика.

ну лень было расписывать просто, но примерно смысл такой:

если вероятность ошибки определения бота на небольшом сайте (допустим 10страниц) составляет 1% и при условии что у тебя всего 10к в сутки - это составит 100 уников.
то на большом сайте(допустим 100к страниц) с общим трафиком в 1млн в сутки, при использовании тех же методов, во первых вероятность ошибки скорее всего будет 10% (т.е. теряем 100.000 уников в сутки), и даже если удастся удержать уровень ошибки в 1% - это все равно 10к уников, что в денежном эквиваленте составит около $5000 потерянных денег в месяц. В принципе это стандартная проблема больших чисел и справедлива практически для любых областей.

далее, насчет добавления мощности серверов. эт из вариантов забивания гвоздей микроскопом. Конечно можно наращивать мощность сервера, (в принципе так обычно и делают: ставя 2процесорные хеоны с несколькими гигами оперативки, для задач которые при правильной реализации решаются на обычных целеронах с минимумом оперативки), но в любом случае мощность сервера - величина конечная. А создание баланс-лоадед системы сама по себе настолько сложная и неодназначная проблема, что ее использование для обычных сайтов принесет гораздо больше проблем, чем пользы. Плюс это дополнительные деньги на оборудование и поддержку. Есть очень ограниченное число задач для которых подобные решения оправданы. Но это не тот случай.



Dr.Syshalt писал:
Нет, при таком раскладе в последнем результате будет ошибка.
И, кстати, вот и вылезло, почему некоторые считают, что парсинг xml забирает больше памяти - по всему видно, что dom-парсерами пользуются. sax-парсер забирает не больше памяти, чем парсер csv и обработает столько записей, сколько пролезет без ошибок.

Ошибки не будет ;)
Вернее это зависит от уровня програмера. Недавно один рекламодатель в урле (который показывается на маузовер) использовал кавычки, и на некоторых сайтах использующих стандартные скрипты от РРС, можно было видеть джаваскрипт ошибки. Вот почему я почти никогда не пользуюсь сторонними скриптами. icon_smile.gif

Dr.Syshalt писал:
xml против csv - это как и java на сервере супротив php.

угу, я вообще не пойму о чем тут спор.
ХМЛ - это стандарт, придуманный для упрощения работы со стандартизируемыми\сложно-структурированными данными. Как любой общепринятый стандарт ХМЛ имеет готовые стандартные средства для работы на любой из существующих платформ\языков. А следовательно любой желающий может легко получить желаемые данные в нужном формате.
CSV это просто удобный вариант выдачи отформатированных данных.Но так как он не является стандартом, то для каждого конкретного случая надо писать свой конкретный обработчик.

Есть моменты из за которых использование ХМЛ становиться оправданным, но в целом csv жрет меньше ресурсов.

А все остальное - зависит от квалификации програмеров которые пишут системы ;)

Здесь ищу и даю работу^так делаю деньги
тут читаю инфу^веду блог, а вы?

0
 

Best4U.Biz

С нами с 21.02.04
Сообщения: 1252
Рейтинг: 1441

Ссылка на сообщениеДобавлено: 07/03/05 в 01:11       Ответить с цитатойцитата 

bog писал:
ну лень было расписывать просто, но примерно смысл такой:
если вероятность ошибки определения бота на небольшом сайте (допустим 10страниц) составляет 1% и при условии что у тебя всего 10к в сутки - это составит 100 уников.
то на большом сайте(допустим 100к страниц) с общим трафиком в 1млн в сутки, при использовании тех же методов, во первых вероятность ошибки скорее всего будет 10% (т.е. теряем 100.000 уников в сутки), и даже если удастся удержать уровень ошибки в 1% - это все равно 10к уников, что в денежном эквиваленте составит около $5000 потерянных денег в месяц.

Брр... Зачем терять ? Я обычно пляшу от обратного - пусть лучше часть ботов пройдет... Или я чего-то не понял ?

bog писал:
далее, насчет добавления мощности серверов. эт из вариантов забивания гвоздей микроскопом.

Неа, это обычная экономическая целесообразность. (*)Увеличение мощности сервака обходится дешевле чем написание и поддержка "нестандартных" решений.

По лоад-балансингу. Примитивнейшие решения делаются на коленке за 5 минут, но их вполне достаточно для тех задач, что тут обсуждаются. Да они не оптимальны, да опять непродуктивно используем мощности серваков, но.. см (*).

PPC - не думай о конвертации | Pay Per Lead/Action - то, во что эволюционируют ППС | лучший хостинг

0
 

пенсионер

С нами с 07.11.02
Сообщения: 2612
Рейтинг: 1166

Ссылка на сообщениеДобавлено: 07/03/05 в 02:33       Ответить с цитатойцитата 

Sams писал:
Брр... Зачем терять ? Я обычно пляшу от обратного - пусть лучше часть ботов пройдет... Или я чего-то не понял ?

Гы, такое впечатление что топик становится спором ради спора и ты стал забывать о чем речь icon_smile.gif
Изначально ты предлагал фильтровать ботов чтоб уменьшить нагрузку, а теперь получается что фильтровать не стоит icon_smile.gif

Sams писал:
Неа, это обычная экономическая целесообразность. (*)Увеличение мощности сервака обходится дешевле чем написание и поддержка "нестандартных" решений.

Гы какое нафиг написание и поддержка нестандартных решений ??? icon_smile.gif Парсинг CSV файла, с проверкой правильности парсинга - всего 6 строчек на РНР.
Вернее одна строчка собственно на парсинг + по одной строке на каждое поле для проверки данных. При этом получится дуракоустойчивая система работающая при любых условиях.

Для ХМЛ - мне требуется примерно в 3 раза больше. т.е. 4строки на парсинг и потом по строчке на каждое поле данных.

А если смотреть как это делается в стандартных РРСных скриптах - то 7строчек на парсинг+3строчки на каждое поле.

Разница очевидна.

И вообще насчет увеличений мощности... можно конечно к примеру как микрософт в 2002м убрать с серверов апач, поставить IIS а возникшие из за этого проблемы решать путем увеличения количества серверов и системы балансировки. Но микрософт просто не мог позволить себе использовать продукты конкурентов, а тут то какой смысл тратить время силы и деньги на железо, если проблема решается использованием более качественного ПО ? icon_biggrin.gif

Здесь ищу и даю работу^так делаю деньги
тут читаю инфу^веду блог, а вы?

0
 



С нами с 25.12.03
Сообщения: 1003
Рейтинг: 462

Ссылка на сообщениеДобавлено: 07/03/05 в 13:32       Ответить с цитатойцитата 

да успокойтесь уже icon_smile.gif
все правы по-своему!

Sutra - лучшая система управления трафом

0
 

Best4U.Biz

С нами с 21.02.04
Сообщения: 1252
Рейтинг: 1441

Ссылка на сообщениеДобавлено: 07/03/05 в 13:47       Ответить с цитатойцитата 

bog писал:
Гы, такое впечатление что топик становится спором ради спора и ты стал забывать о чем речь icon_smile.gif
Изначально ты предлагал фильтровать ботов чтоб уменьшить нагрузку, а теперь получается что фильтровать не стоит icon_smile.gif

Если убрать 90% ботов пропустив 10% - это что, не снизит нагрузки ? Да, останутся запросы от этих 10%, но от 90% избавимся. Простейшими методами.

Ладно, спор пошел ни очем. И это при том, что изначально спора вобще не должно было быть. Я же сразу писал - это МОЕ имхо, МНЕ так удобнее. Я никого не хочу ни в чем убеждать. Тебе удобнее csv - да ради бога, я ничего против не имею, но я (лично я) буду и впредь использовать xml.

пис ?

PPC - не думай о конвертации | Pay Per Lead/Action - то, во что эволюционируют ППС | лучший хостинг

0
 
Новая тема Новая тема   

Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!


Перейти:  



Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us

Опросы

Рецепт новогоднего блюда 2022



Обсудите на форуме обсудить (11)
все опросы »