|
Вопрос # 1 999/ вопрос открыт / |
|
Здравствуйте, уважаемые эксперты!
помогите пожалуйста разобраться, с поиском в тексте русских букв.. В моей программе мне нужно найти в исходном коде html страницы, все слова и буквы на русском языке и записать их в отдельные переменные.. С записью в переменные я конечно сам..., но вот распознание русского алфавита мне не под силу.. и в интернете не нашел ни чего подобного..
С Уважением Макаренко В.В.
 |
Вопрос задал: Makarenko Vladimir (статус: Посетитель)
Вопрос отправлен: 14 октября 2008, 23:17
Состояние вопроса: открыт, ответов: 0.
|
Мини-форум вопроса
Всего сообщений: 12; последнее сообщение — 16 октября 2008, 11:22; участников в обсуждении: 4.
|
Мережников Андрей (статус: Абитуриент), 15 октября 2008, 05:14 [#1]:
Кодировка исходного файла известна? Unicode используется?
|
|
Вадим К (статус: Академик), 15 октября 2008, 10:37 [#2]:
Да, немешало бы определиться с кодировкой исходного текста. А то она может быть KOI8, и все алгоритмы поиска пойдут другой тропой. Для это вначале надо преобразовать.
Также возможен вариант, что у вас дефли 2009, тогда не юникодный текст не будет обрабатываться.
Галочка "подтверждения прочтения" - вселенское зло.
|
|
Makarenko Vladimir (статус: Посетитель), 15 октября 2008, 11:32 [#3]:
Мне б для юникода.. а вообще какие сможете.. если что я перекодировать умею... спасибо за отклик
|
|
Вадим К (статус: Академик), 15 октября 2008, 11:40 [#4]:
для юникода - с какого и в какой? может скачать DelphiWorld или DKRB - там есть много алгоритмов на эту тему.
Галочка "подтверждения прочтения" - вселенское зло.
|
|
Makarenko Vladimir (статус: Посетитель), 15 октября 2008, 11:51 [#5]:
там нет алгоритмов, для поиска русских символов! может я вас не допанимаю или вы меня.. Поясню подробнее... Я гружу html-страничку в webBrowser, после исходный текст странички помещаю в memo и там мне нужно найти все русские буквы.. Кодировка в memo - ANSI
|
|
Вадим К (статус: Академик), 15 октября 2008, 12:05 [#6]:
ну и чем русский буквы отличаются от нерусских? Да ничем.
проверить, русская буква или нет, очень просто
var c:char;
begin
if ((c>='а') and (c <= 'я') or (c>='А') and (c <= 'Я')) then
ShowMessage('кирилическая буковка');
Для буквы Ё Ї Є надо будет добавить дополнительную проверку.
Осталось только цикл сделать и проверять все буквы.
Галочка "подтверждения прочтения" - вселенское зло.
|
|
Makarenko Vladimir (статус: Посетитель), 15 октября 2008, 18:00 [#7]:
да спасибо за этот совет.. но перебирать каждую букву в цикле, и проверять ее на принадлежность к русскому алфавиту, будет накладно. "Ресурсы бесцены!". если Webстраница большая? не мог бы ты подсказать какой нить другой вариант..
|
|
Вадим К (статус: Академик), 15 октября 2008, 18:03 [#8]:
я не думаю, что будет такая большая страница, что это будет слишком накладно. У Вас в другом месте тормоза, если чесно
А других вариантов я даже и не знаю. Точнее знаю, но они будут гарантировано медленее.
Галочка "подтверждения прочтения" - вселенское зло.
|
|
Косолапов Дмитрий Юрьевич (статус: 8-ой класс), 16 октября 2008, 10:52 [#10]:
Стандартные HTML-страницы - это килобайты, ну десятки килобайт, так что проверка в цикле будет тормозить разве что на музейных экспонатах
|
|
Вадим К (статус: Академик), 16 октября 2008, 11:07 [#11]:
есть страницы на пару мегабайт Но можно ведь так написать код, что даже на килобайтной странице Cray будет потеть неделю... Главное желание.
Галочка "подтверждения прочтения" - вселенское зло.
|
|
Makarenko Vladimir (статус: Посетитель), 16 октября 2008, 11:22 [#12]:
применил, всё отлично работает.!! еще раз спасиб
|
Чтобы оставлять сообщения в мини-форумах, Вы должны авторизироваться на сайте.
|