Обязательный электронный экземпляр и преобразование PDF в PDF/A для РГБ

  • Автор темы Автор темы BorA
  • Дата начала Дата начала

BorA

Топикстартер
10 лет на форуме
Сообщения
21
Реакции
3
Система проверки обязательного экземпляра обычно выдает три основных вида ошибок:

1. Сообщения, которые начинаются с «Формат файла не соответствует PDF/A, требуется устранить следующие несоответствия» и написаны на непонятном техноязе. Вне зависимости от содержания сообщений, эти ошибки лечатся по инструкции "Если вы получили сообщение системы проверки об ошибках";
2. Ошибка "Неверная кодировка текстового слоя" ("Несоответствие текстового слоя содержимому"). Лечится по инструкции "Ошибка 'Несоответствие_текстового_слоя' ";
3. Ошибка "Отсутствие текстового слоя". Лечится по инструкции с аналогичным названием.

Тогда место со ссылкой будет легче отыскивать поиском.

Более подробно в инструкциях:
 
Последнее редактирование модератором:
Первый пост темы выглядел так -
Возникла необходимость сдавать электронные экземпляры издания в PDF/A. В типографию отправляем PDF 1.3. Перепробовал стандартные средства Acrobat, Pitstop и solidconvertor. Результат один - ошибка и нет на выходе готового файла. Подскажите, как правильно сконвертировать PDF в PDF/A?

Заранее спасибо!

Using Save As to to Conform to PDF/A
Или у Вас save as выдаёт пустой файл?
Пример PDF давайте
 
Последнее редактирование:
Я сегодня налетел с этим PDF/A на новогодние хотелки Российской государственной библиотеки по предоставлению им pdf-файлов.
Вроде сами же пишут, что:
В качестве формата файла обязательного экземпляра печатных изданий в электронной форме должен использоваться общепринятый формат для долгосрочного архивного хранения документов PDF/A, основанный на стандарте ISO 19005:2005. Использование других форматов не допускается.
Но при этом не уточняют, какой именно PDF/A им нужен: PDF/A-1a или PDF/A-1b.

Ну ладно, думаю, раз вам всё равно, то сделал PDF/A-1b:

pict-01.jpg pict-02.jpg

- поскольку PDF/A-1a почему-то не получалось сделать:

pict-03.jpg pict-04.jpg

Смастерённый файл в формате PDF/A-1b Книжную палату вроде бы удовлетворил (по крайней мере, файл был залит без проблем), а вот Российская государственная библиотека закапризничала:

При проверке загруженного Вами файла произведения <...> автоматической системой были выявлены следующие ошибки:
Формат файла не соответствует PDF/A, требуется устранить следующие несоответствия:
* Для всех подмножеств шрифта формата CIDFont, упомянутых в рамках соответствующего файла, словарь дескриптора шрифтов должен включать поток CIDSet, идентифицирующий, какие CIDs присутствуют во вложенном файле СIDFont, как описано в cпецификации PDF Таблица 5.20.
* Для каждого шрифта, вложенного в соответствующий файл, информация с шириной глифа, хранящаяся в записи Widths (ширина) словаря шрифта и во вложенной программе шрифта, должна быть последовательной

Разумеется, я ничего из написанного тут не понял, за исключением того, что:
1) им, скорее всего, нужен не просто PDF/A в любой его разновидности, а именно PDF/A-1a, который мне сделать не удалось, при том что стандарту PDF/A-1b мой pdf соответствует (для примера одна страничка из этого файла лежит на файлообменнике);
2) возникшая проблема, скорее всего, в том, что для соответствия PDF/A-1a чего-то не хватает в файле шрифта. Вопрос - чего и можно ли это в шрифтовом редакторе как-то подправить.


Не по теме:
Тут недавно обсуждалась ещё одна тема, связанная с хотелками РГБ по изображениям в обязательном pdf-файле издания. Оказывается, обсуждаемый там дурдом на этом не кончается, теперь ещё и шрифты в pdf'е их не удовлетворяют. Двадцать лет эти шрифты удовлетворяли все типографии, где печатались наши книги и журналы, а теперь вот умников из РГБ - не удовлетворяют... :(
 
Скриви шрифт питстопом и забудь как страшный сон ;)
 
Скриви шрифт питстопом и забудь как страшный сон ;)
Была такая мысль. Однако тогда придётся курвить вообще весь текст журнала - но так нельзя, потому что в их требованиях есть фраза типа "в pdf-файле должен быть текстовый слой" - либо обкурвить всё, кроме одного символа ради прикола (чтобы был "текстовый слой" :) ) - но тогда именно этот один оставшийся текстовый символ родит ту же проблему, если дело в шрифте. Ну и, вообще говоря, неправильно это. Хотелось бы всё-таки разобраться :)
 
Хотелось бы всё-таки разобраться
Если я правильно понял формулировку их "хотелки" то вы в большой беде: мало того, что придется искать (или делать) удовлетворяющий тупого злобного робота шрифт, но и заново переверстывать им всю книгу в угоду ему, да так, чтобы все символы на своих местах остались (иначе, как я понимаю, электронная версия издания перестанет таковой являться?)
Поэтому вариант с курвлением, похоже, самый приемлемый
Можно для проформы оставить краткую аннотацию или просто название на невидимом слое стандартным шрифтом, дабы соблюсти приличия ;)
 
Даже полностью обкурвленный питстопом pdf всё равно не хочет самоудовлетворяться форматом PDF/A-1a:

pict-05.jpg
 
Если я правильно понял формулировку их "хотелки" то вы в большой беде: мало того, что придется искать (или делать) удовлетворяющий тупого злобного робота шрифт, но и заново переверстывать им всю книгу в угоду ему, да так, чтобы все символы на своих местах остались (иначе, как я понимаю, электронная версия издания перестанет таковой являться?)
Это нет, конечно. Я всё-таки надеюсь, что можно какую-то метрику в файле шрифта подправить фонтлабом, например.
А если это невозможно, то тогда уж начиная со следующего номера журнала верстать другим(и) шрифтом(ами).
Но вдруг не в шрифте дело?
 
Я всё-таки надеюсь, что можно какую-то метрику в файле шрифта подправить фонтлабом, например.
Ну да, но потом же при обновлении наверняка весь текст поползет - шрифт то уже другой будет!
Кстати, на скрине основная проблема MarkInfo missing - это, скорее, проблема структуры документа, к шрифтам никакого отношения не имеющая
 
  • Спасибо
Реакции: LeonidB
Ну да, но потом же при обновлении наверняка весь текст поползет - шрифт то уже другой будет!
Кстати, на скрине основная проблема MarkInfo missing - это, скорее, проблема структуры документа, к шрифтам никакого отношения не имеющая
Это да. Я и хочу понять, что это и почему ошибка остаётся в файле, где все шрифты скурвлены питстопом.
А о шрифтах я спросил потому, что РГБ отфутболила файл, как я уже написал выше, вот так:
При проверке загруженного Вами файла произведения <...> автоматической системой были выявлены следующие ошибки:
Формат файла не соответствует PDF/A, требуется устранить следующие несоответствия:
* Для всех подмножеств шрифта формата CIDFont, упомянутых в рамках соответствующего файла, словарь дескриптора шрифтов должен включать поток CIDSet, идентифицирующий, какие CIDs присутствуют во вложенном файле СIDFont, как описано в cпецификации PDF Таблица 5.20.
* Для каждого шрифта, вложенного в соответствующий файл, информация с шириной глифа, хранящаяся в записи Widths (ширина) словаря шрифта и во вложенной программе шрифта, должна быть последовательной
 
Я и хочу понять, что это и почему ошибка остаётся в файле, где все шрифты скурвлены питстопом.
Потому что
это, скорее, проблема структуры документа, к шрифтам никакого отношения не имеющая
Вкраце что это такое
А о шрифтах я спросил потому, что РГБ отфутболила файл, как я уже написал выше, вот так:
Ну это понятно, я просто не совсем понимаю сути проблемы со шрифтом в переводе с надмозгового на человеческий, но афедроном чувствую, что без ковыряния шрифта проблему не решить
Можно попробовать передистиллировать файл по новой, но это для очистки совести :(
 
  • Спасибо
Реакции: LeonidB
А главное, непонятно: ради чего всё это? Ну ладно, PDF/A - архивный стандарт по ГОСТу. Ну хорошо, вот вам PDF/A-1b, красиво сделанный акробатовским префлайтом, - это нормально, это тоже есть в данном ГОСТ'е. Но ведь нет, капризничают, народу нервы трепят непонятно зачем. Надеюсь, что этот дурдом продлится у них недолго, планку снизят.
 
Последнее редактирование модератором:
Какой интересный пунктик нашёл в Acrobat Pro DC 2015 Никаких 1a, 1b. В явном виде. А так до 3a/u/b.
pdfa.png
 
  • Спасибо
Реакции: LeonidB
Случилось чудо.
Поставил галку в Tags:
pict-06.jpg
Проверил в Properties:
pict-07.jpg
Сохранил, пошёл в Preflight, запустил конвертирование в PDF/A-1a:
pict-08.jpg
Получилось!
@_MBK_, СПАСИБО!!!

Теперь попробую запихнуть новосделанный pdf в РГБ. Проверка у них несколько часов идёт, так что результат сообщу завтра :)
 
А воспроизвести ошибку со шрифтом в своем префлайте не получается?
А то у них описание проблемы черезчур уж "русское" 'hmmm'
 
Последнее редактирование модератором:
Добавочка.
На одной страничке всё получилось, а вот при обработке pdf-файла всего журнала, после того как сделал тэги и попытался выполнить в префлайте преобразование в PDF/A-1a, вылезло вот что:
pict-09.jpg
Оказалось, что вокруг всех сносок, интернет-адресов, формул вылезли Link Annotations. Раскрыл плюсик в первом пункте и прощёлкал по одной все эти ошибки, удаляя аннотации:
pict-10.jpg

После чего всё удалось:
pict-11.jpg
 
Разобрался со шрифтами.
Оказалось, что вот это:
* Для всех подмножеств шрифта формата CIDFont, упомянутых в рамках соответствующего файла, словарь дескриптора шрифтов должен включать поток CIDSet, идентифицирующий, какие CIDs присутствуют во вложенном файле СIDFont, как описано в cпецификации PDF Таблица 5.20.
* Для каждого шрифта, вложенного в соответствующий файл, информация с шириной глифа, хранящаяся в записи Widths (ширина) словаря шрифта и во вложенной программе шрифта, должна быть последовательной
у меня вылезало из-за шрифтов CompositeTT:
pdfa-1.jpg
pdfa-4.jpg
Сделал в питстопе экшэн и скурвил эти шрифты (только их!) оптом:

pdfa-2.jpg

Проблема исчезла.
Если в будущем проблема вылезет ещё на каком-нибудь шрифте другого типа, то в Питстопе можно также выбрать для выделения шрифт по имени - и скурвить только его.

И ещё дошло до меня, как решить проблему появления вместе с тэгами Link Annotations (см. предыдущее сообщение - #19 в этой теме). Чтобы не удалять их вручную (как сначала сделал я), можно также воспользоваться питстоповским экшеном:

pdfa-3.jpg

Может, кому пригодится, если будет делать PDF/A-1a для РГБ.
 
  • Спасибо
Реакции: ~RA~