Реклама на сайте Advertise with us

Проблемы больших сайтов с роботами

Расширенный поиск по форуму
 
Новая тема Новая тема   
Автор
Поиск в теме:



С нами с 15.06.04
Сообщения: 30
Рейтинг: 38

Ссылка на сообщениеДобавлено: 05/12/05 в 00:06       Ответить с цитатойцитата 

bog: ну поподробней расказать несмогу ибо я делал только софт который синхронизирует данные по всем сервакам.

так я про это и говорю.
http://dreamcatcher.ru/docs/httpd_bal.html - вот готовая реализация распределения нагрузки по серверам, но при этом данные на винтах у них разные.
намекни хоть каким ообразом синхронизировать и как часто?

5
 



С нами с 18.11.99
Сообщения: 14226

Ссылка на сообщениеДобавлено: 05/12/05 в 03:34       Ответить с цитатойцитата 

Gatos+ писал:
для статики я бы, наверное, поставил nginx

Можешь подробнее написать почему nginx?

Участник!
Покупаем CJ-tube и галлерный трафик + 100$ за регистрацию

0
 



С нами с 02.08.03
Сообщения: 136
Рейтинг: 101

Ссылка на сообщениеДобавлено: 05/12/05 в 19:08       Ответить с цитатойцитата 

Это действительно проблема, не все на данный момент ее замечают и не каждый испытвал ее на своих сайтах.

Kit, прав, не все поисковики понимают команды в robots.txt для уменьшение частоты и количества запросов при индексации сайта.

А для больших и даже средних сайтов, особенно динамических, когда приходит google, msn и yahoo в один момент - сервер нагибается, от количества и частоты запросов.

Еще возникают подобные проблемы с сессиями, как, например, в oscommerce, когда индексируя msn уходит на нем в цикл и долбит его по кругу, сутками.

А под статику, на данный момент, действительно одно из лучших решений - это установка nginx. Но его просто установка, не есть панацея. Надо еще настроить и правильно конфигурацию описать под действительно большие нагрузки. Очень часто, что надо и лезть в код для динамических сайтов, чтобы исправлять "замыслы авторов кода", чтобы снять лишнюю нагрузку.

Еще есть lighttpd под статику, тоже хороший проект.

А тем, кому нужна вообще просто статика, то может попробовать 0w.

Мы свои решения под большую нагрузку и трафик, создаем с и использованием nginx.

Если кому интересно, это не реклама, можно посмотреть кое-что на сайте нашем - nginx.info

Администрирование,ускорение,"вирусню вон".Разработка python,shell...

10
 



С нами с 18.11.99
Сообщения: 14226

Ссылка на сообщениеДобавлено: 05/12/05 в 19:33       Ответить с цитатойцитата 

Ещё по поводу nginx:
Я слышал, что проект не особо развивается, в отличие от lighthttp. Так ли это?

Участник!
Покупаем CJ-tube и галлерный трафик + 100$ за регистрацию

0
 



С нами с 02.08.03
Сообщения: 136
Рейтинг: 101

Ссылка на сообщениеДобавлено: 05/12/05 в 19:36       Ответить с цитатойцитата 



Он развивается очень активно, lighttpd не так активно.

Обнаруженные ошибки автор исправляет, бывает и за несколько часов.

Администрирование,ускорение,"вирусню вон".Разработка python,shell...

6
 

Монстр

С нами с 16.10.02
Сообщения: 1052
Рейтинг: 198

Ссылка на сообщениеДобавлено: 05/12/05 в 21:59       Ответить с цитатойцитата 

ебанись, кит, что у тебя за нагрузка-то??? ;)

правильно настроенный http-ядровый сервер держит на dual машинке до 300мбит/с отдачу. А если чистая статика которую можно всунуть в память, то вообще можно я думаю до гигабита поднять ;)

ps. мы юзали разные, больше всего по душе thttpd

0
 

пенсионер

С нами с 07.11.02
Сообщения: 2612
Рейтинг: 1166

Ссылка на сообщениеДобавлено: 05/12/05 в 22:48       Ответить с цитатойцитата 

Goldfinger писал:
bog: ну поподробней расказать несмогу ибо я делал только софт который синхронизирует данные по всем сервакам.
так я про это и говорю.
http://dreamcatcher.ru/docs/httpd_bal.html - вот готовая реализация распределения нагрузки по серверам, но при этом данные на винтах у них разные.
намекни хоть каким ообразом синхронизировать и как часто?

если в кратце, то есть еще 3-й сервак на котором абсолютно ничего нет, и единственное предназначение которого - собирать данные со всех серверов. Собрал данные, проанализировал, скомпилировал результат, закинул на все сервера и по новой.
Но у меня не стоит задачи иметь в реалтайме 100% идентичный контент на всех серверах. Т.е. задержка, в рамках времени требуемого на обработку данных, для меня не критична. Как впрочем и потеря некоторой части данных в случае сбоя.
Еслиб это было критично, то я наверное делал специальные модули на каждом серваке которые занимались синхронизацией нужных данных и былибы способны брать на себя как родительские так и дочерние функции в цикле а также передавать эти функции по наследству.

з.ы. в итоге чтото типа вируса получилось бы ;)

Здесь ищу и даю работу^так делаю деньги
тут читаю инфу^веду блог, а вы?

7
 

Раздаю инвайты, ищу линк-трейд

С нами с 20.08.04
Сообщения: 16482
Рейтинг: 8588


Передовик Master-X (16.11.2006) Передовик Master-X (01.09.2019)
Ссылка на сообщениеДобавлено: 06/12/05 в 09:21       Ответить с цитатойцитата 

Мне статья понравилась. Мысли есть. Боюсь только их посчитают за глупые.

Кому ссылку?
RU и EN Dating

0
 



С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513

Ссылка на сообщениеДобавлено: 06/12/05 в 15:14       Ответить с цитатойцитата 

А мне - нет. Если ужать - основная идея текста - как ахуенна оптимизирован его WW. Как обычно - самореклама.

0
 



С нами с 18.11.99
Сообщения: 14226

Ссылка на сообщениеДобавлено: 06/12/05 в 19:51       Ответить с цитатойцитата 

Cудя по всему, WW как раз не очень оптимизирован. Как я понял, там всё на одном сайте расположено.

Последний раз редактировалось: kit (06/12/05 в 22:30), всего редактировалось 1 раз

Участник!
Покупаем CJ-tube и галлерный трафик + 100$ за регистрацию

0
 



С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513

Ссылка на сообщениеДобавлено: 06/12/05 в 19:56       Ответить с цитатойцитата 

kit: он про поисковую оптимизацию. Панты про "наш сайт легко едят боты".

0
 



С нами с 18.11.99
Сообщения: 14226

Ссылка на сообщениеДобавлено: 06/12/05 в 22:33       Ответить с цитатойцитата 

Тебя послушать, так Brett Tabke просто ублюдок, и выступления его - сплошной понт. Хоть на деньги форум отправляй. :-) И вообще проблем на самом деле нету, если только грамотному человеку дать разрулить, (а не всяким там идиотам).

Участник!
Покупаем CJ-tube и галлерный трафик + 100$ за регистрацию

0
 



С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513

Ссылка на сообщениеДобавлено: 06/12/05 в 22:59       Ответить с цитатойцитата 

kit: а что меня слушать? Слушай-не слушай - в статье все видно. Почитай посты того же BoGа на крутопе, где он убедительно доказывает, что robots.txt - последнее средство борьбы с ботами-досерами.
Очень напоминает интервью с большинством русских АВМамов и Вмов - очень много обычно ПРа своих программ, а про себя сказать или советы дать не могут, ценного сказать почти нечего им.
Ну это уже от человека зависит, конечно. Если ты следил за публикациями интервью на юмаксе, то мог видеть, как кардинально отличалось в положительную сторону то, что говорил Вад, от предыдущих интервьюируемых, многие это отметили. Сделаю комплимент: твое старое интервью тоже было интересным. Но, к сожалению, повторюсь - большинтсво публичных фигур в-основном, жуют вату, суть которой сводится к тому, что "мы лучшие". И по мне, это как раз блекпиар себя, когда сказать нечего.

P. S. И почему ублюдок? Просто - самопиарщик. Я ни имени его не знаю, ни фамилии, кто бы он ни был - вся ватина, которую он наотвечал сводится к: "наш форум класно оптимизирован и мы заюзали robots.txt" Но ты и сам имеешь опыт, почему бы тебе не попросить Севу проинтервьюировать тебя, думаю, ты скажешь более интересные вещи, чем этот пиарщик.

5
 



С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513

Ссылка на сообщениеДобавлено: 06/12/05 в 23:40       Ответить с цитатойцитата 

По теме:
Какая сейчас проблема у всех провайдеров? Траффик, образуемый емайл-спамом.
А что начинается сегодня, а завтра примет ужасные масштабы? Траффик, создаваемый линк-спамилками. Уже есть Васи, которые тупо долбят рефспамилками ВСЕ существующие домены, может, кто-нибудь замечал домен jak-jak-что-то-там в статистике?
Кроме того, если ваши урлы или формы содержат определенные ключевики - вы, скорее всего, в базе каких-нить спамилки гестов-форумов, которые изо дня в день создают дополнительный траффик.

Как бороться? Хз. Особенно - если это рефспам.

Но есть другой выход - создание нового серверного софта. Уже давно владельцы толстотраффиковых ресурсов (особенно - tgp и cj) пришли к выводу, что классические веб-базы данных типа mysql для подобных проектов не подходят. Пока что, кроме самописных бд и текстовиков адекватной замены нет. Перспективы, конечно, есть, например, я недавно узнал про sqlite - очень легкий sql-сервер, без сокетного интерфейсам, каждая база содержится в одном файле. Пока, к соажелению, не реализована быстрая мультипотоковая запись.
Постепенно напрашивается и другой вывод - всеми любимый Апач тоже далеко не идеальный веб-сервер. Уже есть куча легких серверов, которые, к сожалению, не поддерживают некоторые востребованые ф-ции, но УЖЕ годятся для отдачи статики.

Я считаю, что будущее за этим, ибо все смогут позволить себе монструозные кластера, а вот построить простые приложения, например, блоги на связке nginx -> apache + sqlite - уже можно.

10
 



С нами с 18.11.99
Сообщения: 14226

Ссылка на сообщениеДобавлено: 07/12/05 в 01:07       Ответить с цитатойцитата 

samlowry писал:
robots.txt - последнее средство борьбы с ботами-досерами.

Это конечно, эти роботы плевать хотели на всякие там robots.txt
Мне показалось из интервью, что они хотят взять промежуток времени, посмотреть кто из ботов останется, и потом "принять решение". Думается мне, что решение будет прежним: забанить тех самых непослушных роботов.

Интервью Табке мало что проясняет о деталях, но я считаю его важным как сигнал того, что проблема есть. Когда через несколько лет вся сеть станет широкополосной, и подключится ещё куча народу из третьего мира (тоже с широкополосным доступом), то каждый мало-мальский известный контентный сайт, будет испытывать на себе серьёзное давление "качалок".

Будет 5-10 больших и известных роботов, которые будет наперебой искать обновления контента, и ещё туча неведомых ботов.

И кстати, тогда положить почти любой сайт будет как два пальца об асфальт. Достаточно будет 1000 зараженных машин с толстыми каналами. Раньше, на диалапае, их нужно было в 10-100 раз больше для аналогичного эффекта.

Участник!
Покупаем CJ-tube и галлерный трафик + 100$ за регистрацию

0
 



С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513

Ссылка на сообщениеДобавлено: 07/12/05 в 01:14       Ответить с цитатойцитата 

kit: тогда, как и в емайл-спаме, будут распространены сторонние системы по борьбе с ботами, публичные базы и т. п.

0
 



С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513

Ссылка на сообщениеДобавлено: 07/12/05 в 01:17       Ответить с цитатойцитата 

P. S. Вот щас прочитал про работу nginx с fastcgi - таки можно целиком уйти от юзанья апача, можешь подумать с проггерами на эту тему, тебе это будет легче - у тебя не так много сайтов, которые надо переводить. Насколько я вижу щас, там основная проблема будет в переписывании правил рерайтинга.
Вот линки по теме:
http://www.sysoev.ru/nginx/
http://nginx.info/

5
 



С нами с 02.08.03
Сообщения: 136
Рейтинг: 101

Ссылка на сообщениеДобавлено: 07/12/05 в 01:38       Ответить с цитатойцитата 



Не можно, а нужно ;)

Администрирование,ускорение,"вирусню вон".Разработка python,shell...

0
 

пенсионер

С нами с 07.11.02
Сообщения: 2612
Рейтинг: 1166

Ссылка на сообщениеДобавлено: 07/12/05 в 03:01       Ответить с цитатойцитата 

Как помне, так я тож думаю что акция ВВ - чистый пиар.
Она исходно не имеет ни четких задач, ни методов решения.
Так что вывод один - ПР, пусть даже и с благородной мечтой о новом формате роботс.тхт icon_smile.gif

kit писал:

Интервью Табке мало что проясняет о деталях, но я считаю его важным как сигнал того, что проблема есть.

Проблема уже давным давно существует. Хотя я не считаю это проблемой.
Была помнится такая таня-таня, которая давным давно плакалась что у нее весь траф боты кушали и демонстрировала охрененные способы защиты. Вот мне с тех пор подобные истерии почему то эту тетку напоминают.
Ну будет у всех мегабитные каналы.., значит у хостинг провайдеров каналы будут еще мощнее чем сейчас, а цены еще ниже. Вспомни что было пару лет назад и что сейчас на этом рынке.

Ну несправляется сайт с нагрузкой - оптимизируй скрипты и сервер. И не верь тому кто говорит "что все запросы уже оптимизированны". Нет предела совершенству. Оптимизация имеет столько всяких граней что врядли один единственный человек, даже в теории, будет способен учесть все факторы.

Здесь ищу и даю работу^так делаю деньги
тут читаю инфу^веду блог, а вы?

10
 



С нами с 18.11.99
Сообщения: 14226

Ссылка на сообщениеДобавлено: 07/12/05 в 03:37       Ответить с цитатойцитата 

bog писал:
Ну несправляется сайт с нагрузкой - оптимизируй скрипты и сервер. И не верь тому кто говорит "что все запросы уже оптимизированны". Нет предела совершенству. Оптимизация имеет столько всяких граней что врядли один единственный человек, даже в теории, будет способен учесть все факторы.

Вот здесь под любым словом подпишусь. Просто иногда зашорено сознание. Вот мы тут мучались мучались с оптимизацией php-скриптов, а потом БАЦ! и поставили lighthttpd на отдачу графики. ;-)

Участник!
Покупаем CJ-tube и галлерный трафик + 100$ за регистрацию

0
 



С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513

Ссылка на сообщениеДобавлено: 07/12/05 в 03:41       Ответить с цитатойцитата 

kit: ставьте вообще на отдачу всего!

0
 



С нами с 18.11.99
Сообщения: 14226

Ссылка на сообщениеДобавлено: 07/12/05 в 03:45       Ответить с цитатойцитата 

Ну, там надо будет задружить между собой lighthttpd и php.
Не знаю как это делать, и стоит ли?

Участник!
Покупаем CJ-tube и галлерный трафик + 100$ за регистрацию

0
 



С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513

Ссылка на сообщениеДобавлено: 07/12/05 в 03:51       Ответить с цитатойцитата 

kit: nginx точно можно, а стоит - конечно, у тебя вообще тяжеловесный апач не будет греметь латами.

0
 



С нами с 02.08.03
Сообщения: 136
Рейтинг: 101

Ссылка на сообщениеДобавлено: 07/12/05 в 10:23       Ответить с цитатойцитата 

kit писал:
Ну, там надо будет задружить между собой lighthttpd и php.
Не знаю как это делать, и стоит ли?


по fastcgi все дружиться.

Администрирование,ускорение,"вирусню вон".Разработка python,shell...

0
 



С нами с 18.11.99
Сообщения: 14226

Ссылка на сообщениеДобавлено: 07/12/05 в 18:37       Ответить с цитатойцитата 

А можно где-то почитать отзывы от реально действующих проектов на php по поводу перехода с apache на lighthttpd или ngnix?

Участник!
Покупаем CJ-tube и галлерный трафик + 100$ за регистрацию

0
 
Новая тема Новая тема   

Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!


Перейти:  



Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us

Опросы

Рецепт новогоднего блюда 2022



Обсудите на форуме обсудить (11)
все опросы »