[Acr DC] Исправление "битой" кодировки в pdf-файлах в Adobe Acrobat

Acrobatist · 23.04.2020

Добрый день!
Работаю с пдф-файлами довольно долго - делаю электронные издания из издательских оригинал-макетов. В старых книгах часто встречается текст в кодировке, при копировании которой получается "кракозябра". Говорить о том, что в данном случае не работает поиск по файлу, не приходится.
На файлообменнике выложил пример такого файла.
Проблема, для решения которой создал эту тему, заключается в следующем: для того, чтобы исправить кодировку (неважно Акробатом или другими средствами типа FineReader) я произвожу целых 3 этапа:

Перевожу файл в растровый формат (png), получается множество png-файлов, равное количеству страниц исходного файла
Объединяю файлы (страницы) обратно в единый pdf, таким образом получая тот же файл, что и вначале, только без распознанного текста
Запускаю распознавание текста с технологией ClearScan

После этих манипуляций из книги получается что-то приличное, хотя как работает распознавание текста, думаю, не надо объяснять. Мягко говоря, не всегда распознается так, как должно. Если языков в файле несколько, то вообще беда. Плюсом ко всему вышеописанному стоит понимать, что книги содержат иногда по 500, а то и больше, страниц. И на каждый этап уходит довольно немало времени.
Итак, вопрос: знает ли кто-нибудь более изящный способ (меньшим количеством действий и усилий) как исправлять в pdf-файлах кодировку текста?
Буду очень признателен, если поделитесь опытом!

_MBK_ · 23.04.2020

Вот к чему приводит неумение и нежелание пользоваться поиском по форуму.
Поищите "обязательный экземпляр" - огромный топик даже имеющий собственный FAQ
В двух словах: проблема сложна однокликового решения нет

Acrobatist · 23.04.2020

_MBK_ сказал(а):
Вот к чему приводит неумение и нежелание пользоваться поиском по форуму.
Поищите "обязательный экземпляр" - огромный топик даже имеющий собственный FAQ
В двух словах: проблема сложна однокликового решения нет

Видимо, действительно не умею пользоваться поиском, т.к. причем тут "обязательный экземпляр" не понимаю... Искал по слову "кодировка".

AM Labs Solutions · 23.04.2020

Не увидел проблемы. @Acrobatist, проверяйте.

Acrobatist · 23.04.2020

AM Labs сказал(а):
Не увидел проблемы. @Acrobatist, проверяйте.

Слева - источник, справа - результат копирования из него.

AM Labs Solutions · 23.04.2020

Тогда вам стоит уточнить что такое "делаю электронные издания". Я понял это как создание файла совместимого со стандартом PDF/A для электронной версии РГБ или РКП.

_MBK_ · 23.04.2020

Acrobatist сказал(а):
Видимо, действительно не умею пользоваться поиском, т.к. причем тут "обязательный экземпляр" не понимаю... Искал по слову "кодировка".

Это как я понимаю риторический вопрос не ко мне а к руководству РГБ?
Вы и вправду странно ищете большая часть выдачи по запросу кодировка ведет сюда

Обязательный электронный экземпляр и преобразование PDF в PDF/A для РГБ

...сабсеты с убитой кодировкой и скурвленные тексты. Первое должно решаться переходом на 2u/3u, снова призываю всех заинтересованных к тестированию! Курвы на обложках, в рекламе и т.п. - административный подход ;)

forum.rudtp.ru

Acrobatist · 23.04.2020

_MBK_ сказал(а):
Это как я понимаю риторический вопрос не ко мне а к руководству РГБ?
Вы и вправду странно ищете большая часть выдачи по запросу кодировка ведет сюда

Обязательный электронный экземпляр и преобразование PDF в PDF/A для РГБ

...сабсеты с убитой кодировкой и скурвленные тексты. Первое должно решаться переходом на 2u/3u, снова призываю всех заинтересованных к тестированию! Курвы на обложках, в рекламе и т.п. - административный подход ;)

forum.rudtp.ru

Сейчас понял, что поиск, оказывается, корректно работает только если целиком набирать слово. Я набирал "кодировк", предполагая, что при этом искомое слово найдется во всех падежах. Спасибо за замечание!

_MBK_ · 23.04.2020

Странно, что вас совершенно не смутило, что такой запрос не нашел абсолютно ничего '))'

Acrobatist · 23.04.2020

AM Labs сказал(а):
Тогда вам стоит уточнить что такое "делаю электронные издания". Я понял это как создание файла совместимого со стандартом PDF/A для электронной версии РГБ или РКП.

Да, сорри, не уточнил - я занимаюсь подготовкой эл. изданий в соответствии с ГОСТ 7.0.83-2013. Электронные издания. Основные виды и выходные сведения.

Acrobatist · 23.04.2020

_MBK_ сказал(а):
Странно, что вас совершенно не смутило, что такой запрос не нашел абсолютно ничего

Как Вы могли заметить, я первый день на этом форуме и не имею представления о его масштабах и специфике обсуждаемых тем. Так что нет, не смутило 'opa!)'

_MBK_ · 23.04.2020

Ну что ж, велкам! Осваивайте поиск и 90% вопросов отпадут сами собой

Acrobatist · 23.04.2020

_MBK_ сказал(а):
Ну что ж, велкам! Осваивайте поиск и 90% вопросов отпадут сами собой

Спасибо! Насколько понял, с "проблемой кодировок" в pdf мучаюсь не только я, и хороших, стабильных решений по этой теме пока нет. А все что есть - тут: Обязательный электронный экземпляр и преобразование PDF в PDF/A для РГБ

Так?

_MBK_ · 23.04.2020

Да. В начале приложен краткий дайджест топика в виде отдельного FAQ

german · 23.04.2020

Acrobatist сказал(а):
Итак, вопрос: знает ли кто-нибудь более изящный способ (меньшим количеством действий и усилий) как исправлять в pdf-файлах кодировку текста?

Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).
2. Запустить распознавание.

George · 23.04.2020

Acrobatist сказал(а):
и хороших, стабильных решений по этой теме пока нет.

Они есть, но для каждого случая индивидуальный подход. Так Вам это для РГБ, или у Вас своя задача для создания псевдонормального epub?

Acrobatist · 23.04.2020

german сказал(а):
Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).
2. Запустить распознавание.

А можно ссылку на утилиту, скриншот из которой Вы прислали? Или это интерфейс акробата? (по скриншоту не могу понять)

Acrobatist · 24.04.2020

George сказал(а):
Они есть, но для каждого случая индивидуальный подход. Так Вам это для РГБ, или у Вас своя задача для создания псевдонормального epub?

Ни для того, ни для другого)
Термин "Электронная книга" сейчас имеет очень много смыслов. Соответственно, и в издательской среде к понятию "электронного издания" относятся по-разному. Прошу прощения за лирику... Дальше речь только про формат PDF.

Некоторые издательства продают прямо оригинал-макеты (без правок и даже минимальной обработки).
Есть такие, кто продает так называемые "копии печатных изданий" - это тот же оригинал-макет, только уже с небольшой адаптацией под читателя, иногда даже с навигационным меню.
Третий вид составляют издательства, которые серьезно относятся к подготовке эл. изданий, т.е. делают из оригинал-макетов полноценные эл. издания по вышеупомянутому ГОСТу, соответственно, в книгах есть полноценные выходные сведения, работают функции поиска и копирования текста, присутствует навигационное меню, оптимизированы растровые элементы и т.д.

Я работаю с третьим типом издательств, таким образом моя задача максимально окультурить книгу. Многие операции автоматизированы "до нЕльзя" при помощи плагинов и функционала самого Акробата. Но вот проблему с кодировкой никак не удается не то что автоматизировать, а даже хоть чуть-чуть упростить - минимум 3 этапа (описывал выше).
Повторю, что речь пока исключительно про PDF - ни PDF/A, ни EPUB я не затрагиваю, т.к. знаю про них гораздо меньше.

_MBK_ · 24.04.2020

german сказал(а):
Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).

Причем достаточно новой версии, мне, например, акробаты с таким фиксапом не попадались вообще.
Или ты про питстоповский фиксап?

german · 24.04.2020

_MBK_ сказал(а):
Причем достаточно новой версии, мне, например, акробаты с таким фиксапом не попадались вообще.
Или ты про питстоповский фиксап?

Это в новой версии Acrobat Pro DC.

Acrobatist сказал(а):
А можно ссылку на утилиту, скриншот из которой Вы прислали? Или это интерфейс акробата? (по скриншоту не могу понять)

Это в инструментах Tools\Print Production\Preflight

[Acr DC] Исправление "битой" кодировки в pdf-файлах в Adobe Acrobat

Участник

Пикирующий бомбардировщик

Участник

ESKO | Enfocus

Участник

Вложения

ESKO | Enfocus

Пикирующий бомбардировщик

Участник

Пикирующий бомбардировщик

Участник

Участник

Пикирующий бомбардировщик

Участник

Пикирующий бомбардировщик

Вложения

I wish I was the monster you think I am

Участник

Участник

Пикирующий бомбардировщик

Вложения