- Сообщения
- 47
- Реакции
- 0
Добрый день!
Работаю с пдф-файлами довольно долго - делаю электронные издания из издательских оригинал-макетов. В старых книгах часто встречается текст в кодировке, при копировании которой получается "кракозябра". Говорить о том, что в данном случае не работает поиск по файлу, не приходится.
На файлообменнике выложил пример такого файла.
Проблема, для решения которой создал эту тему, заключается в следующем: для того, чтобы исправить кодировку (неважно Акробатом или другими средствами типа FineReader) я произвожу целых 3 этапа:
Итак, вопрос: знает ли кто-нибудь более изящный способ (меньшим количеством действий и усилий) как исправлять в pdf-файлах кодировку текста?
Буду очень признателен, если поделитесь опытом!
Работаю с пдф-файлами довольно долго - делаю электронные издания из издательских оригинал-макетов. В старых книгах часто встречается текст в кодировке, при копировании которой получается "кракозябра". Говорить о том, что в данном случае не работает поиск по файлу, не приходится.
На файлообменнике выложил пример такого файла.
Проблема, для решения которой создал эту тему, заключается в следующем: для того, чтобы исправить кодировку (неважно Акробатом или другими средствами типа FineReader) я произвожу целых 3 этапа:
- Перевожу файл в растровый формат (png), получается множество png-файлов, равное количеству страниц исходного файла
- Объединяю файлы (страницы) обратно в единый pdf, таким образом получая тот же файл, что и вначале, только без распознанного текста
- Запускаю распознавание текста с технологией ClearScan
Итак, вопрос: знает ли кто-нибудь более изящный способ (меньшим количеством действий и усилий) как исправлять в pdf-файлах кодировку текста?
Буду очень признателен, если поделитесь опытом!