[Acr DC] Исправление "битой" кодировки в pdf-файлах в Adobe Acrobat

  • Автор темы Автор темы Acrobatist
  • Дата начала Дата начала

Acrobatist

Участник
Топикстартер
Сообщения
47
Реакции
0
Добрый день!
Работаю с пдф-файлами довольно долго - делаю электронные издания из издательских оригинал-макетов. В старых книгах часто встречается текст в кодировке, при копировании которой получается "кракозябра". Говорить о том, что в данном случае не работает поиск по файлу, не приходится.
На файлообменнике выложил пример такого файла.
Проблема, для решения которой создал эту тему, заключается в следующем: для того, чтобы исправить кодировку (неважно Акробатом или другими средствами типа FineReader) я произвожу целых 3 этапа:
  1. Перевожу файл в растровый формат (png), получается множество png-файлов, равное количеству страниц исходного файла
  2. Объединяю файлы (страницы) обратно в единый pdf, таким образом получая тот же файл, что и вначале, только без распознанного текста
  3. Запускаю распознавание текста с технологией ClearScan
После этих манипуляций из книги получается что-то приличное, хотя как работает распознавание текста, думаю, не надо объяснять. Мягко говоря, не всегда распознается так, как должно. Если языков в файле несколько, то вообще беда. Плюсом ко всему вышеописанному стоит понимать, что книги содержат иногда по 500, а то и больше, страниц. И на каждый этап уходит довольно немало времени.
Итак, вопрос: знает ли кто-нибудь более изящный способ (меньшим количеством действий и усилий) как исправлять в pdf-файлах кодировку текста?
Буду очень признателен, если поделитесь опытом!
 
Вот к чему приводит неумение и нежелание пользоваться поиском по форуму.
Поищите "обязательный экземпляр" - огромный топик даже имеющий собственный FAQ
В двух словах: проблема сложна однокликового решения нет
 
Вот к чему приводит неумение и нежелание пользоваться поиском по форуму.
Поищите "обязательный экземпляр" - огромный топик даже имеющий собственный FAQ
В двух словах: проблема сложна однокликового решения нет
Видимо, действительно не умею пользоваться поиском, т.к. причем тут "обязательный экземпляр" не понимаю... Искал по слову "кодировка".
 
Тогда вам стоит уточнить что такое "делаю электронные издания". Я понял это как создание файла совместимого со стандартом PDF/A для электронной версии РГБ или РКП.
 
Видимо, действительно не умею пользоваться поиском, т.к. причем тут "обязательный экземпляр" не понимаю... Искал по слову "кодировка".
Это как я понимаю риторический вопрос не ко мне а к руководству РГБ?
Вы и вправду странно ищете большая часть выдачи по запросу кодировка ведет сюда
 
Это как я понимаю риторический вопрос не ко мне а к руководству РГБ?
Вы и вправду странно ищете большая часть выдачи по запросу кодировка ведет сюда
Сейчас понял, что поиск, оказывается, корректно работает только если целиком набирать слово. Я набирал "кодировк", предполагая, что при этом искомое слово найдется во всех падежах. Спасибо за замечание!
 
Странно, что вас совершенно не смутило, что такой запрос не нашел абсолютно ничего '))'
 
Тогда вам стоит уточнить что такое "делаю электронные издания". Я понял это как создание файла совместимого со стандартом PDF/A для электронной версии РГБ или РКП.
Да, сорри, не уточнил - я занимаюсь подготовкой эл. изданий в соответствии с ГОСТ 7.0.83-2013. Электронные издания. Основные виды и выходные сведения.
 
Странно, что вас совершенно не смутило, что такой запрос не нашел абсолютно ничего '))'
Как Вы могли заметить, я первый день на этом форуме и не имею представления о его масштабах и специфике обсуждаемых тем. Так что нет, не смутило 'opa!)'
 
Ну что ж, велкам! Осваивайте поиск и 90% вопросов отпадут сами собой ;)
 
Ну что ж, велкам! Осваивайте поиск и 90% вопросов отпадут сами собой ;)
Спасибо! Насколько понял, с "проблемой кодировок" в pdf мучаюсь не только я, и хороших, стабильных решений по этой теме пока нет. А все что есть - тут: Обязательный электронный экземпляр и преобразование PDF в PDF/A для РГБ

Так?
 
Да. В начале приложен краткий дайджест топика в виде отдельного FAQ
 
Итак, вопрос: знает ли кто-нибудь более изящный способ (меньшим количеством действий и усилий) как исправлять в pdf-файлах кодировку текста?
Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).
2. Запустить распознавание.
 

Вложения

  • 2020-04-23_22-41-27.png
    2020-04-23_22-41-27.png
    20.5 КБ · Просм.: 914
  • Спасибо
Реакции: Acrobatist
и хороших, стабильных решений по этой теме пока нет.
Они есть, но для каждого случая индивидуальный подход. Так Вам это для РГБ, или у Вас своя задача для создания псевдонормального epub?
 
Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).
2. Запустить распознавание.
А можно ссылку на утилиту, скриншот из которой Вы прислали? Или это интерфейс акробата? (по скриншоту не могу понять)
 
Они есть, но для каждого случая индивидуальный подход. Так Вам это для РГБ, или у Вас своя задача для создания псевдонормального epub?
Ни для того, ни для другого)
Термин "Электронная книга" сейчас имеет очень много смыслов. Соответственно, и в издательской среде к понятию "электронного издания" относятся по-разному. Прошу прощения за лирику... Дальше речь только про формат PDF.
  • Некоторые издательства продают прямо оригинал-макеты (без правок и даже минимальной обработки).
  • Есть такие, кто продает так называемые "копии печатных изданий" - это тот же оригинал-макет, только уже с небольшой адаптацией под читателя, иногда даже с навигационным меню.
  • Третий вид составляют издательства, которые серьезно относятся к подготовке эл. изданий, т.е. делают из оригинал-макетов полноценные эл. издания по вышеупомянутому ГОСТу, соответственно, в книгах есть полноценные выходные сведения, работают функции поиска и копирования текста, присутствует навигационное меню, оптимизированы растровые элементы и т.д.
Я работаю с третьим типом издательств, таким образом моя задача максимально окультурить книгу. Многие операции автоматизированы "до нЕльзя" при помощи плагинов и функционала самого Акробата. Но вот проблему с кодировкой никак не удается не то что автоматизировать, а даже хоть чуть-чуть упростить - минимум 3 этапа (описывал выше).
Повторю, что речь пока исключительно про PDF - ни PDF/A, ни EPUB я не затрагиваю, т.к. знаю про них гораздо меньше.
 
Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).
Причем достаточно новой версии, мне, например, акробаты с таким фиксапом не попадались вообще.
Или ты про питстоповский фиксап?
 
Причем достаточно новой версии, мне, например, акробаты с таким фиксапом не попадались вообще.
Или ты про питстоповский фиксап?
Это в новой версии Acrobat Pro DC.
А можно ссылку на утилиту, скриншот из которой Вы прислали? Или это интерфейс акробата? (по скриншоту не могу понять)
Это в инструментах Tools\Print Production\Preflight
 

Вложения

  • acrtextoutline.PNG
    acrtextoutline.PNG
    52.1 КБ · Просм.: 679