Обязательный электронный экземпляр и преобразование PDF в PDF/A для РГБ

  • Автор темы Автор темы BorA
  • Дата начала Дата начала
Российская книжная палата / филиал ИТАР-ТАСС
Это еще называют "отослать в Книжную палату". И постоянно спрашивают - мы же в нее уже отослали, зачем еще и в РГБ посылать? Пусть сами перешлют. :)
Отзывы про нее и про тамошние порядки обычно благожелательные: "Вот в РГБ вечно PDF обратно заворачивают, а в Книжной палате, все принимают, никаких отказов".
 
Может кто-то знает такой софт?

Порой в сторону GhostScript и вокруг...
Фиг его, конечно, знает, как он с PDF/A работает, но это, вроде, единственное бесплатное и более-менее прозрачное средство.
 
Ну, начать с того, что идея не моя, а Кэпа - большинство проблем с PDF лечится передистиллированием. Но это деструктивный метод. А что за бесплатный конвертер в PDF/A?
 
Идея _MBK_ чистить PDF от ошибок через замкнутый круг "Preflight--PS--Prefight-- ... " похоже оказалась на редкость продуктивной.
Идея так себе. Гонять по кругу PDF с изначально убитым текстовым слоем...

Во всяком случае мне пока еще не попадались проблемные PDF, в которых любые ошибки выдерживали хотя бы пару таких циклов. Прибиваются куда раньше.
Суть проблемы не в том, чтобы ошибки выкосить, а в том, чтобы графика была 300 дпи и текстовый слой копировался. И чтобы хитрый оператор в РГБ принял ваш файл. Ошибки же устранить можно глупыми конверторами, вроде солид-ПДФ, которые вообще создают пустой правильный контейнер, внутрь которого помещают растровую картинку вашей страницы, без каких-либо шрифтов.

Но одно слабое место у нее похоже таки есть - для работы требуется Акробат и желательно одной из последних версий. А достаточно часто бывает, что в редакции Акробат или старенький, или его совсем нет. И купить не на что - небогатая газета районного или вообще поселкового уровня.
Но мы то с вами знаем, как обстоит дело на самом деле... А на самом деле у редакций есть лицензия на древний пыжмекер 6.0, что никак не мешает использовать софт самых нужных версий.

Может кто-то знает такой софт? Тогда можно было бы реализовать полный круг чистки от ошибок и при том на freeware-уровне.
Какой в этом смысл, если изначально при создании PDF, в сам PDF-файл вносится искорёженный шрифт, и проблема копируемого текстового слоя становится нерешаемой?

Если говорить о создании PDF-A из файлов сегодняшней вёрстки, то это не является проблемой, нужно лишь иметь правильные шрифты, которые при создании PDF-A создают правильный текстовый слой. И не нужен никакой платный адобовский софт, можно обойтись простейшим бесплатным PDFcreator'ом, который сразу, без PS-файлов создаёт правильный PDF-A.
 
Ну, начать с того, что идея не моя, а Кэпа - большинство проблем с PDF лечится передистиллированием. Но это деструктивный метод. А что за бесплатный конвертер в PDF/A?
PDFcreator. Причём даже PDF, к примеру, из ворда или экселя, делает сразу с правильным текстовым слоем, и эти PDF-ки вставленные в вёрстку, тоже дают правильные PDF-A. Главное - прикрутить в систему 100% правильные шрифты.


upload_2018-4-21_12-16-37.png
 
Ну, собственно, загвоздка именно и в этих самых правильных шрифтах.
 
Ну, собственно, загвоздка именно и в этих самых правильных шрифтах.
Если работаешь системными шрифтами, например, Ариал, Таймс, Вердана и т.п. и они не работают, то нужно эти шрифты прикручивать от другой винды. К примеру, мне пришлось на рабочей машине с вин 8.1 х 64 прикручивать системные шрифты от вин 7 х 64. Всё заработало, PDF-A получаются с рабочим текстовым слоем даже из всяких не верстальных программ типа офиса. Не подумайте что люблю системными шрифтами верстать, это не мой выбор, в таком виде присылают тонны входящих документов, из которых делаются PDF и которые затем идут уже в вёрстку.
Как быть с другими шрифтами? Не знаю, просто перевожу их в кривые, другого варианта не вижу.
 
Ну, начать с того, что идея не моя, а Кэпа - большинство проблем с PDF лечится передистиллированием.
С прошлого лета уже путать стал. :)

Но это деструктивный метод
Однако вполне себе прилично работает. А что еще людям от жизни надо... :)

А что за бесплатный конвертер в PDF/A?
Виртуальный принтер от Solid. Открываешь PDF в чем угодно и посылаешь его на печать в PDF/A. Точно не уверен, но похоже там есть что-то от функциональности Preflight - во всяком случае PDF с ошибками (вроде тех, что выдает РГБ-шная проверка) у меня конвертировались уже в чистом виде.
Однако я его прогонял только на паре образцов, так что может быть просто случайность.

Ссылка у меня на работе, так что положу ее только в понедельник. А поиском вспомнить не удалось, слишком много мусора выдается.
 
Суть проблемы не в том, чтобы ошибки выкосить, а в том, чтобы графика была 300 дпи и текстовый слой копировался.
Чтобы благополучно сдать PDF в РГБ надо сначала пройти проверку на ошибки создания PDF/A-файла. Разбирательство с текстовым слоем начинается уже на втором этапе, сначала надо первый пройти, автоматику. А от ошибок, которые выдает автоматика, лечится как раз описанным образом. И с вполне приличными выходными результатами.

Но мы то с вами знаем, как обстоит дело на самом деле... А на самом деле у редакций есть лицензия на древний пыжмекер 6.0, что никак не мешает использовать софт самых нужных версий.
До очередного появления нашего родимого Роскомнадзора. Или кого-нибудь из его "родственников". Именно поэтому-то народ из этих редакций часто и живет, так как живет.

Главное - прикрутить в систему 100% правильные шрифты.
А для этого надо как-то эти шрифты вычислить и отделить от откровенно мусорных.
Мне в соседней теме (Поиск/извлечение текста) давали ссылку на другую тему, где как раз это и обсуждалось - как почистить от явного мусора большую кучу шрифтов всякоразного происхождения. Но никак до нее не доберусь, на работе сплошные завалы.

Не знаю, просто перевожу их в кривые, другого варианта не вижу
И автоматом получаете "Отсутствие текстового слоя". Тоже не вариант.
 
Последнее редактирование:
Если говорить о создании PDF-A из файлов сегодняшней вёрстки, то это не является проблемой, нужно лишь иметь правильные шрифты, которые при создании PDF-A создают правильный текстовый слой.
Здесь в теме встретилась интересная мысль:
"Попробуйте не PDF создать из вёрстки, а сразу PS-файл, который можно засунуть в дистиллер. Дело в том, что механизмы получения PDF и PS-файла настолько различны, что "кривые" шрифты выведенные из индизайна в PS-файл->Дистиллер не содержат проблем с текстовым слоем. А вот PDF созданные напрямую их имеют".

Т.е. если облом с текстовым слоем, то можно попробовать лечить его через вот такое. Пока еще так не пытался, выйду в понедельник надо будет эту идею обкатать.
 
Порой в сторону GhostScript и вокруг...
Сколько я знаю, через GhostScript можно из PS сделать PDF и может быть даже PDF/A. А надо еще что-то, чтобы PDF преобразовать в PS.
Иначе цепочка получается незамкнутая, одно звено выпадает.

Подумал, а может задача "PDF-->PS" и "PS-->PDF" решается через какой-нибудь виртуальный принтер? Чтобы он мог печатать и PDF, и верстку в PS-файлы и чтобы в него можно было бы посылать на печать PS-файлы.
В общем что-то вроде расширенного варианта GhostScript. А в идеале еще и бесплатного. :)
 
Последнее редактирование:
Сколько я знаю, через GhostScript можно из PS сделать PDF и может быть даже PDF/A. А надо еще что-то, чтобы PDF преобразовать в PS.

Естественно, GhostScript можно и "развернуть" PDF в PostScript...
Details of Ghostscript output devices
The ps2write device outputs postscript language level 2.

Но дело в том, что GhostScript ко всему прочему язык программирования, ну, это как бы проистекает из природы самого PostScript и прямо в нём можно что то делать. Я не предлагаю тупо воспользоваться очевидным идущим в комплекте с GhostScript, я предлагаю поискать вокруг, возможно, что есть какие то готовые интересные нормализаторы.
 
Но дело в том, что GhostScript ко всему прочему язык программирования.
Ты аккуратнее выбирай начинку для своей пароварки, а то уже заговариваться начал. '))' GhostScript - это интерпретатор языка PostScript и никак иначе ;)
 
Однако я его прогонял только на паре образцов, так что может быть просто случайность.
Конечно случайность. Очень большая зависимость результата от операционки, версии адобовского софта и твоего личного зоопарка шрифтов.
 
Чтобы благополучно сдать PDF в РГБ надо сначала пройти проверку на ошибки создания PDF/A-файла. Разбирательство с текстовым слоем начинается уже на втором этапе, сначала надо первый пройти, автоматику. А от ошибок, которые выдает автоматика, лечится как раз описанным образом. И с вполне приличными выходными результатами.
У меня лично разбирательства отсутствуют чуть более, чем полностью. Потому что я СРАЗУ из индиза гоню в PS, который сую в дистиллер (без сокращения знакового состава). И всё. У меня в неделю выходит несколько номеров изданий, никакой заморочкой с конвертацией-переконвертацией не испытываю, потому что ничего этого нет. Более того, все мои вменяемые коллеги/конкуренты делают точно так же, и этот способ PS->PDF-A был описан в данной теме еще в первых страницах. Так что о чём вы тут рассуждаете? Запилить PDF-A из PDF-X это нетривиальная задача, которую я лично, не решил. Просто в силу дисциплинированности ВСЕГДА сохраняю все исходники на всякий случай, и всегда могу создать PDF-A напрямую из вёрстки, а не из убитого PDF-X.

До очередного появления нашего родимого Роскомнадзора. Или кого-нибудь из его "родственников". Именно поэтому-то народ из этих редакций часто и живет, так как живет.
Касается только коммерческих изданий и то в виде конкурентной борьбы. В муниципалках никогда не слышал о проверках, ни в областных, ни в районных. Максимум это могут проверить наличие документов с лицухами у бухгалтера.

А для этого надо как-то эти шрифты вычислить и отделить от откровенно мусорных.
Что тут вычислять? Пишешь алфавит, кидаешь его в PDF-A, если текстовый слой не будет соответствовать оригиналу - фтопку такой шрифт.

И автоматом получаете "Отсутствие текстового слоя". Тоже не вариант.
Это если ВЕСЬ текст будет скривлён. Я говорю только отдельные места, где присутствует проблемный шрифт. К примеру, вы работали в изданиях с рекламными модулями? Я как раз про такие случаи.
 
Последнее редактирование модератором:
Здесь в теме встретилась интересная мысль:
"Попробуйте не PDF создать из вёрстки, а сразу PS-файл, который можно засунуть в дистиллер. Дело в том, что механизмы получения PDF и PS-файла настолько различны, что "кривые" шрифты выведенные из индизайна в PS-файл->Дистиллер не содержат проблем с текстовым слоем. А вот PDF созданные напрямую их имеют".
Большинство моих коллег, и я, используют этот метод еще с прошлого года. Самый беспроблемный вариант. Но только в случае, если вы храните все исходники.
 
Подумал, а может задача "PDF-->PS" и "PS-->PDF" решается через какой-нибудь виртуальный принтер? Чтобы он мог печатать и PDF, и верстку в PS-файлы и чтобы в него можно было бы посылать на печать PS-файлы.
В общем что-то вроде расширенного варианта GhostScript. А в идеале еще и бесплатного. :)
1. Акробат делает в PDF-->PS.
2. Дистиллер делает PS-->PDF.
3. Всё можно замутить через бесплатный PDFCreator.
Все эти пункты не имею смысла, если ваши шрифты кривые. Получится несоответствие текстового слоя копируемому тексту. А это не лечится. Просто потому, что ваш шрифт отображает и печатает одни символы, а в текстовом слое хранит другие. Как уже приводили пример: quick -> guick. А русские буквы просто заменяются пробелами или квадратиками.
 
Вёрстка "слепками". Это когда у нас имеются тонны невменяемой входящей документации в ворде/экселе/других офисах, в которых документ "завёрстан" пробелами, табуляторами и прочим мусором. Чтобы не тратить своё время и не нести ответственность за возможные проблемы при перевёрстке, создаём PDF "слепок" из документа и вставляем его в наши страницы. В общем если не сталкивались - не заморачивайтесь, это узкоспециализированная работа по печати постановлений, протоколов и отчётов на ризографах или мелкотиражном офсете. Благо там ариалы, таймсы и верданы, так что создание PDF-A из этого мусора проблем не приносит.
 
Вёрстка "слепками"
Это не верстка. Вы просто в док. помещаете PDF страницу. Не вводите общественность в заблуждение :-)
ариалы, таймсы и верданы
и так ни кому проблем не приносят (если внедрены, конечно)