Реклама на сайте Advertise with us

Сервис определения языка старницы в инете

Расширенный поиск по форуму
 
Новая тема Новая тема   
Автор
Поиск в теме:

I love suicidegirls.com ;-)

С нами с 27.10.04
Сообщения: 7060
Рейтинг: 2819

Ссылка на сообщениеДобавлено: 06/11/08 в 01:43       Ответить с цитатойцитата 

Нужно что то примерно такое
Ввожу в поле на сайте УРЛ страницы в инете, нажимаю кнопку и сервис мне пишет : что бла бла бла на такой то странице УРЛ текст написан на португальском языке, или что написан на французском ? Есть такое ? Ну очень надо.

0
 

>100 сайтов вебкам. ссылки.

С нами с 31.03.08
Сообщения: 2372
Рейтинг: 3463


Передовик Master-X (16.12.2016) Передовик Master-X (01.01.2017)
Ссылка на сообщениеДобавлено: 06/11/08 в 02:07       Ответить с цитатойцитата 

Наверное, надо парсить код страницы на содержимое тэга <meta name="language" content="...">
Если он там есть, конечно...
Пару строчек кода в примитивной парсилке.

Продвижение сайтов в GOOGLE.COM и GOOGLE.DE. ICQ в профиле.

0
 



С нами с 01.04.07
Сообщения: 4378
Рейтинг: 2970

Ссылка на сообщениеДобавлено: 06/11/08 в 09:14       Ответить с цитатойцитата 

Чтобы определить язык страницы, нужно понимать этот язык.
Так что, опознание возможно только по косвенным признакам.

Как уже сказали
Код:
<meta name="language" content="fr" />
или
<meta http-equiv="content-language" content="pl">

либо для сайтов в xhtml
Код:
<html xmlns="http://www.w3.org/1999/xhtml" lang="fr">
или
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="pt-pt" lang="pt-pt" dir="ltr">


ещё можно посмотреть на charset, но тоже далеко не всегда по нему можно определить
Код:
<meta http-equiv="content-type" content="text/html; charset=iso-8859-2">


Ну и доменная зона icon_smile.gif

0
 

I love suicidegirls.com ;-)

С нами с 27.10.04
Сообщения: 7060
Рейтинг: 2819

Ссылка на сообщениеДобавлено: 06/11/08 в 09:42       Ответить с цитатойцитата 

А просто по тексту на странице какой нибудь онлайн переводчик не сможет определить что ли какой язык ему дали переводить?

0
 



С нами с 28.02.03
Сообщения: 8532
Рейтинг: 1609

Ссылка на сообщениеДобавлено: 06/11/08 в 17:49       Ответить с цитатойцитата 

тут еще прикол может быть что сайт в зависемостьи от ip и от языка броузера может от довать разные страницы

Сдам место в подписи. Предложения в личку.

0
 

>100 сайтов вебкам. ссылки.

С нами с 31.03.08
Сообщения: 2372
Рейтинг: 3463


Передовик Master-X (16.12.2016) Передовик Master-X (01.01.2017)
Ссылка на сообщениеДобавлено: 06/11/08 в 19:02       Ответить с цитатойцитата 

_4eburek писал:
А просто по тексту на странице какой нибудь онлайн переводчик не сможет определить что ли какой язык ему дали переводить?

"Это вряд-ли..." (Сухов, "Белое солнце пустыни")

Продвижение сайтов в GOOGLE.COM и GOOGLE.DE. ICQ в профиле.

0
 



С нами с 03.10.08
Сообщения: 129
Рейтинг: 141

Ссылка на сообщениеДобавлено: 06/11/08 в 19:40       Ответить с цитатойцитата 

Можно попробывать проверять сграбленный текстовый контент на признаки того или иного языка. Допустим брать на инглиш буквы A, O, E и русские А, О, Е так же французкие и немецкие. И тупо парсить текст на эти буквы. Найдутся буквы значит к токому языку пренадлежит. Еще не эксперементировал smail101.gif

Пишу скрипты, асикью 444584-921

0
 



С нами с 19.11.06
Сообщения: 2295
Рейтинг: 345

Ссылка на сообщениеДобавлено: 06/11/08 в 22:03       Ответить с цитатойцитата 

Гуглю можно понасильничать icon_smile.gif, если проверяемая пага проиндексирована.
В выдаче гугли есть линк "Перевести эту страницу/Translate this page", в этой линке, в параметре sl - искомый язык страницы, а в hl - твой или заданный.
И насколько я помню, если hl=sl, то этот линк "Перевести эту страницу/Translate this page", не появится, т.к. язык проверяемой страницы, тот же что и твой.
Вот почти алгоритм парсилки )

Строим Луна-парки с блэкджеком и шлюхами. Дорого.

0
 



С нами с 16.04.05
Сообщения: 754
Рейтинг: 352

Ссылка на сообщениеДобавлено: 08/11/08 в 04:11       Ответить с цитатойцитата 

TRUE_AND_FALSE писал:
Можно попробывать проверять сграбленный текстовый контент на признаки того или иного языка. Допустим брать на инглиш буквы A, O, E и русские А, О, Е так же французкие и немецкие. И тупо парсить текст на эти буквы. Найдутся буквы значит к токому языку пренадлежит. Еще не эксперементировал smail101.gif


Универсального решения не существует, гугль тоже ошибается, чисто "приблизительно проверяет". Зависит от того насколько хочешь ебаться. Если для масс, то всё верно пишут: возьми по тонне текстов разных языков, переведи в юникод и запиши топ кодов (топ 10).

Далее страницу приводи к юникоду и ищи наиболее подходящий топ.

Если в странице что - то указано в хедере (допустим CP1251) - значит смотри что это за кодировка, как правило 1251 - россия, коды всех стран можно найти.

Ещё смотри что отдаёт сервер, как правило он отдаёт (для дедиков) нужную кодировку.

Что ещё... введи список предлогов, в юникоде, как правило они встречаются в одном или двух языках, а ежели и в трёх, то эти языки родственны, и пофиг какой именно из них. Переводи страницу в юникод и ищи стопку слов, далее с какого языка больше нашёл - тот и папа icon_smile.gif

В общем комбинируй, любой метод по отдельности может не сработать или дать неверные результаты.

Мой блог: seo blog

0
 
Новая тема Новая тема   

Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!


Перейти:  



Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us

Опросы

Рецепт новогоднего блюда 2022



Обсудите на форуме обсудить (11)
все опросы »