[Acr DC] Исправление "битой" кодировки в pdf-файлах в Adobe Acrobat

Acrobatist

Участник
Топикстартер
Сообщения
47
Реакции
0
Добрый день!
Работаю с пдф-файлами довольно долго - делаю электронные издания из издательских оригинал-макетов. В старых книгах часто встречается текст в кодировке, при копировании которой получается "кракозябра". Говорить о том, что в данном случае не работает поиск по файлу, не приходится.
На файлообменнике выложил пример такого файла.
Проблема, для решения которой создал эту тему, заключается в следующем: для того, чтобы исправить кодировку (неважно Акробатом или другими средствами типа FineReader) я произвожу целых 3 этапа:
  1. Перевожу файл в растровый формат (png), получается множество png-файлов, равное количеству страниц исходного файла
  2. Объединяю файлы (страницы) обратно в единый pdf, таким образом получая тот же файл, что и вначале, только без распознанного текста
  3. Запускаю распознавание текста с технологией ClearScan
После этих манипуляций из книги получается что-то приличное, хотя как работает распознавание текста, думаю, не надо объяснять. Мягко говоря, не всегда распознается так, как должно. Если языков в файле несколько, то вообще беда. Плюсом ко всему вышеописанному стоит понимать, что книги содержат иногда по 500, а то и больше, страниц. И на каждый этап уходит довольно немало времени.
Итак, вопрос: знает ли кто-нибудь более изящный способ (меньшим количеством действий и усилий) как исправлять в pdf-файлах кодировку текста?
Буду очень признателен, если поделитесь опытом!
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
Вот к чему приводит неумение и нежелание пользоваться поиском по форуму.
Поищите "обязательный экземпляр" - огромный топик даже имеющий собственный FAQ
В двух словах: проблема сложна однокликового решения нет
 

Acrobatist

Участник
Топикстартер
Сообщения
47
Реакции
0
Вот к чему приводит неумение и нежелание пользоваться поиском по форуму.
Поищите "обязательный экземпляр" - огромный топик даже имеющий собственный FAQ
В двух словах: проблема сложна однокликового решения нет
Видимо, действительно не умею пользоваться поиском, т.к. причем тут "обязательный экземпляр" не понимаю... Искал по слову "кодировка".
 

AM Labs Solutions

ESKO | Enfocus | Tilia Labs | ColorLogic | Callas
Сообщения
390
Реакции
200
Тогда вам стоит уточнить что такое "делаю электронные издания". Я понял это как создание файла совместимого со стандартом PDF/A для электронной версии РГБ или РКП.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
Видимо, действительно не умею пользоваться поиском, т.к. причем тут "обязательный экземпляр" не понимаю... Искал по слову "кодировка".
Это как я понимаю риторический вопрос не ко мне а к руководству РГБ?
Вы и вправду странно ищете большая часть выдачи по запросу кодировка ведет сюда
 

Acrobatist

Участник
Топикстартер
Сообщения
47
Реакции
0
Это как я понимаю риторический вопрос не ко мне а к руководству РГБ?
Вы и вправду странно ищете большая часть выдачи по запросу кодировка ведет сюда
Сейчас понял, что поиск, оказывается, корректно работает только если целиком набирать слово. Я набирал "кодировк", предполагая, что при этом искомое слово найдется во всех падежах. Спасибо за замечание!
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
Странно, что вас совершенно не смутило, что такой запрос не нашел абсолютно ничего '))'
 

Acrobatist

Участник
Топикстартер
Сообщения
47
Реакции
0
Тогда вам стоит уточнить что такое "делаю электронные издания". Я понял это как создание файла совместимого со стандартом PDF/A для электронной версии РГБ или РКП.
Да, сорри, не уточнил - я занимаюсь подготовкой эл. изданий в соответствии с ГОСТ 7.0.83-2013. Электронные издания. Основные виды и выходные сведения.
 

Acrobatist

Участник
Топикстартер
Сообщения
47
Реакции
0
Странно, что вас совершенно не смутило, что такой запрос не нашел абсолютно ничего '))'
Как Вы могли заметить, я первый день на этом форуме и не имею представления о его масштабах и специфике обсуждаемых тем. Так что нет, не смутило 'opa!)'
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
Ну что ж, велкам! Осваивайте поиск и 90% вопросов отпадут сами собой ;)
 

Acrobatist

Участник
Топикстартер
Сообщения
47
Реакции
0
Ну что ж, велкам! Осваивайте поиск и 90% вопросов отпадут сами собой ;)
Спасибо! Насколько понял, с "проблемой кодировок" в pdf мучаюсь не только я, и хороших, стабильных решений по этой теме пока нет. А все что есть - тут: Обязательный электронный экземпляр и преобразование PDF в PDF/A для РГБ

Так?
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
Да. В начале приложен краткий дайджест топика в виде отдельного FAQ
 

german

20 лет на форуме
Сообщения
4 566
Реакции
649
Итак, вопрос: знает ли кто-нибудь более изящный способ (меньшим количеством действий и усилий) как исправлять в pdf-файлах кодировку текста?
Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).
2. Запустить распознавание.
 

Вложения

  • 2020-04-23_22-41-27.png
    2020-04-23_22-41-27.png
    20.5 КБ · Просм.: 791
  • Спасибо
Реакции: Acrobatist

George

I wish I was a monster you think I am
15 лет на форуме
Сообщения
17 323
Реакции
7 870
и хороших, стабильных решений по этой теме пока нет.
Они есть, но для каждого случая индивидуальный подход. Так Вам это для РГБ, или у Вас своя задача для создания псевдонормального epub?
 

Acrobatist

Участник
Топикстартер
Сообщения
47
Реакции
0
Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).
2. Запустить распознавание.
А можно ссылку на утилиту, скриншот из которой Вы прислали? Или это интерфейс акробата? (по скриншоту не могу понять)
 

Acrobatist

Участник
Топикстартер
Сообщения
47
Реакции
0
Они есть, но для каждого случая индивидуальный подход. Так Вам это для РГБ, или у Вас своя задача для создания псевдонормального epub?
Ни для того, ни для другого)
Термин "Электронная книга" сейчас имеет очень много смыслов. Соответственно, и в издательской среде к понятию "электронного издания" относятся по-разному. Прошу прощения за лирику... Дальше речь только про формат PDF.
  • Некоторые издательства продают прямо оригинал-макеты (без правок и даже минимальной обработки).
  • Есть такие, кто продает так называемые "копии печатных изданий" - это тот же оригинал-макет, только уже с небольшой адаптацией под читателя, иногда даже с навигационным меню.
  • Третий вид составляют издательства, которые серьезно относятся к подготовке эл. изданий, т.е. делают из оригинал-макетов полноценные эл. издания по вышеупомянутому ГОСТу, соответственно, в книгах есть полноценные выходные сведения, работают функции поиска и копирования текста, присутствует навигационное меню, оптимизированы растровые элементы и т.д.
Я работаю с третьим типом издательств, таким образом моя задача максимально окультурить книгу. Многие операции автоматизированы "до нЕльзя" при помощи плагинов и функционала самого Акробата. Но вот проблему с кодировкой никак не удается не то что автоматизировать, а даже хоть чуть-чуть упростить - минимум 3 этапа (описывал выше).
Повторю, что речь пока исключительно про PDF - ни PDF/A, ни EPUB я не затрагиваю, т.к. знаю про них гораздо меньше.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).
Причем достаточно новой версии, мне, например, акробаты с таким фиксапом не попадались вообще.
Или ты про питстоповский фиксап?
 

german

20 лет на форуме
Сообщения
4 566
Реакции
649
Причем достаточно новой версии, мне, например, акробаты с таким фиксапом не попадались вообще.
Или ты про питстоповский фиксап?
Это в новой версии Acrobat Pro DC.
А можно ссылку на утилиту, скриншот из которой Вы прислали? Или это интерфейс акробата? (по скриншоту не могу понять)
Это в инструментах Tools\Print Production\Preflight
 

Вложения

  • acrtextoutline.PNG
    acrtextoutline.PNG
    52.1 КБ · Просм.: 592