|
Вопрос # 3 880/ вопрос закрыт / |
|
Здравствуйте, эксперты!
Есть pdf. В нём есть текст. Копирую фрагмент, вставляю в ворд. Вижу:
"2. Ñîçäàâàòü ýëåêòðîííûå ôîðìû (øàáëîíû) äîêóìåíòîâ. Ïðè ñîçäàíèè íîâîãî äîêóìåíò..."
При этом поиск в файле работает более-менее корректно. И программой-поисковиком текст вытаскивается в нормальном виде (но она его вытаскивают "для себя", т.е. мне этот текст напрямую недоступен).
Вопрос - как преобразовать эту галиматью в нормальный текст?
Написать свою программу или есть уже готовые?
 |
Вопрос задал: Егор (статус: 10-ый класс)
Вопрос отправлен: 13 марта 2010, 10:01
Состояние вопроса: закрыт, ответов: 0.
|
Мини-форум вопроса
Всего сообщений: 7; последнее сообщение — 7 апреля 2011, 20:10; участников в обсуждении: 3.
|
Жикльор (статус: 5-ый класс), 13 марта 2010, 10:32 [#1]:
Есть программа Штирлиц, она занимается такими вещами. Был у меня когда-то такой текст, не мог сделать, а он помог.
1) Запускаешь штирлица;
2) Там будет как-бы текстовый редактор, вставляешь туда этот текст.
3) Точно не помню, но должна быть кнопка на панели инструментов "Расшифровать", там уже думаю разберетесь.
Вот ссылка для скачивания: ссылка
Если бы строители строили дома так, как программисты пишут программы, то первый же дятел уничтожил бы цивилизацию.
|
|
Егор (статус: 10-ый класс), 13 марта 2010, 16:37 [#2]:
штрилица знаю. не берёт.
вообще, и не должен
потому что дело не совсем в кодировках
этот текст, я так понял, представляется (в юникодном формате?) как западноевропейский. потому и знаки со всякими умляутами-штрихами.
знаю такой способ: текст копируется в режиме, когда переключатель клавиатуры переведён в русский язык, тогда скопированный текст в буфер записывался как русский и вставляется без проблем.
но в данном случае это не помогает.
...вот в Win98 WordPad умел такие вещи исправлять - просто фрагмент после вставки выделялся, вызывался диалог смены шрифта, а там указывалось, что текст не западноевропейский, а кириллица. но в хр это дело не работает...
Опасайтесь багов в приведенном выше коде; я только доказал корректность, но не запускал его.
— Donald E. Knuth.
|
|
Жикльор (статус: 5-ый класс), 13 марта 2010, 19:49 [#3]:
Тогда не знаю(( Я с такими проблемами не сталкивался.
Если бы строители строили дома так, как программисты пишут программы, то первый же дятел уничтожил бы цивилизацию.
|
|
Вадим К (статус: Академик), 13 марта 2010, 20:30 [#4]:
эта проблема возникает как раз при копировании при переходе с юникода в неюникод и обратно. система не знает, как декодировать корректно и ориентируется на текущую раскладку клавиатуры поэтому перед копированием следим что бы была включена русская (украинская, молдавская раскладка), потом переключаемся на приложение для вставки, опять проверяем раскладку и вставляем. и все будет ок
Галочка "подтверждения прочтения" - вселенское зло.
|
|
Егор (статус: 10-ый класс), 13 марта 2010, 20:44 [#5]:
Цитата (Вадим К):
эта проблема возникает как раз при копировании при переходе с юникода в неюникод и обратно
Вадим К:
я об этом способе знаю - уже писал об этом:
Цитата (Егор):
знаю такой способ: текст копируется в режиме, когда переключатель клавиатуры переведён в русский язык, тогда скопированный текст в буфер записывался как русский и вставляется без проблем.
но в данном случае это не помогает.
Опасайтесь багов в приведенном выше коде; я только доказал корректность, но не запускал его.
— Donald E. Knuth.
|
|
Егор (статус: 10-ый класс), 13 марта 2010, 20:48 [#6]:
могу файл выложить
Опасайтесь багов в приведенном выше коде; я только доказал корректность, но не запускал его.
— Donald E. Knuth.
|
|
Егор (статус: 10-ый класс), 7 апреля 2011, 20:10 [#7]:
немного кривовато, но нашёл способ. помог Артемий Лебедев с его декодером. на сайте в форму вставляется "испорченный" текст, а далее он автоматически приводится к нормальному виду. возможны некоторые ошибки, часть букв может декодироваться неправильно, но, в целом, очень неплохой сервис.
Опасайтесь багов в приведенном выше коде; я только доказал корректность, но не запускал его.
— Donald E. Knuth.
|
7 апреля 2011, 20:10: Вопрос закрыт (решение принял автор вопроса — Егор): всё, нашёл решение
Чтобы оставлять сообщения в мини-форумах, Вы должны авторизироваться на сайте.
|