Обязательный электронный экземпляр и преобразование PDF в PDF/A для РГБ

kstati · 25.11.2019

Получаю, я, например, социалку-рекламу от союзного государства. С федерального уровня падает мне "кривая" вкладка на 16 полос. Я должен гордо сказать — идите на фиг, РГБ не пропустит. Ага.

~RA~ · 25.11.2019

Вообще, было правильно, если бы ргб брала бы печатные или любые другие макеты без разбора и сама бы распознавала на них текст, индексировала его, каталогизировала и пр.

Не по теме:
Но у нас же так не принято — нужно непременно всех обязать, нагнуть и покарать.

ЯСергей · 26.11.2019

Мы встретились с проблемой отправки обязательного экземпляра газет в РГБ.
Все файлы PDF созданные в Adobe Acrobat XI Pro в PDF-A,отклонялись при проверке.( Файл экземпляра не прошёл автоматическую проверку , неверная кодировка текстового слоя).Как они достали меня пустыми рекомендациями и советами в переписке.
Как же обойти эту проблему?
Переводим газету через виртуальный принтер HP LaserJet 4V/4MV в файл PS затем через PostScript Adobe Acrobat Distiller XI (картинка) в PDF. Сохраняем в Adobe Acrobat XI Pro в PDF-A
Берем файл PDF и программой ABBYY_FineReader_12.0.101.496.exe считываем его и в этой же программе и опять сохраняем в PDF-A. Загружаем на сайте РГБ, подписываем электронной подписью и Ву аля. Файл экземпляра прошёл автоматическую проверку. Пользуйтесь на здоровье.

_MBK_ · 26.11.2019

Спасибо, конечно, но этот способ был описан как уж совсем крайний, когда ничего не помогает и терять нечего. Да и файнридер в данном случае - отнюдь не бесплатная и недешевая сторонняя программа

german · 26.11.2019

Lupantrop сказал(а):
1. Мы должны выполнять требования законодательства. Не имея на начальном этапе собственной экспертизы в тонкостях PDF, библиотека, естественно, была вынуждена отдать задачу подрядчикам. В результате появился механизм, построенный на движке VeraPDF. Собственно говоря, все "ошибки на непонятном техноязе" - это переведённые на русский язык тексты ошибок, которые умеет генерить VeraPDF. К сожалению, от наличия перевода эти тексты понятнее не стали.

Если есть движок, который используется для проверки файлов, логично предполагать, что он же и должен использоваться для создания файлов? Он должен исправлять все эти проблемы или должен предоставлять механизмы для исправления ошибок?

german · 26.11.2019

ЯСергей сказал(а):
Все файлы PDF созданные в Adobe Acrobat XI Pro в PDF-A,отклонялись при проверке.

Мы попробовали делать в DC. РГБ эти файлы не отклонила.

~RA~ · 26.11.2019

Lupantrop сказал(а):
все "ошибки на непонятном техноязе" - это переведённые на русский язык тексты ошибок, которые умеет генерить VeraPDF

Если их не переводить, то они будут гуглиться хотя бы... Всё народу попроще.

vinnik63 · 26.11.2019

~RA~ сказал(а):
Вообще, было правильно, если бы ргб брала бы печатные или любые другие макеты без разбора и сама бы распознавала на них текст, индексировала его, каталогизировала и пр.

было бы ещё проще принимать всё в кривых или вообще джипегах — потомкам не один хрен, с чего читать нашу "нетленку" (читают же археологи и историки нацарапанное тыщи лет назад на камнях или пергаменте — и ничего...)?
тем более, что как минимум 90% всего собранного никогда никого не заинтересует...

dosp · 26.11.2019

vinnik63 сказал(а):
было бы ещё проще принимать всё в кривых или вообще джипегах

Так с поиском и индексацией сложновато будет.

Lupantrop · 26.11.2019

Не осилю цитирование всех отреагировавших, но в любом случае всем спасибо!

Полностью отказаться от текстового слоя... Сорри, пока не можем. На него сейчас завязана индексация. Возможно, что-то изменится, мы тоже ищем варианты. OCR - это примерно как копировать звук с одного компакт-диска на другой через аналоговый аудиовыход. То есть по-любому будут потери. Если больше уже ничего не помогает, то да, пусть хоть так, чем никак.

По "кривой" рекламе... Вы не поверите, с какой частотой и удовольствием люди смотрят рекламные объявления в каких-нибудь губернских ведомостях позапрошлого века! Реклама - пульс эпохи!

Если серьёзно, то в ОЭКе при создании новой заявки на 3-м шаге формы (Данные о файле экземпляра) есть поле "Дополнительные сведения". В этом поле можно попросить операторов проигнорировать отсутствие текстового слоя на определённых полосах (их надо перечислить). Решения принимаются индивидуально, но попытка не пытка

Встречный вопрос: кто-нибудь мог бы попробовать перегнать в PDF/A-3u какой-нибудь макет (у которого точно есть проблемы с кодировкой при конвертации в PDF/A-1b) и поделиться результатами?

AM Labs Solutions · 26.11.2019

Смотрите ЛС, отправил туда файл.

Lupantrop · 26.11.2019

AM Labs, спасибо! Текстовый слой из файла копируется без проблем и это сразу текст в кодировке UTF-8!

Коллеги, кто-то мог бы повторить эксперимент на своей стороне? Если у кого-то нет PDF/A-3u, но есть PDF/A-2u, то он тоже подойдёт, эти стандарты почти идентичны. Также был бы интересен эксперимент с включенным сабсеттингом шрифтов.

Я пока проясняю организационную возможность перейти на более новую ревизию стандарта PDF/A...

kstati · 26.11.2019

Lupantrop сказал(а):
По "кривой" рекламе... Вы не поверите, с какой частотой и удовольствием люди смотрят рекламные объявления в каких-нибудь губернских ведомостях позапрошлого века! Реклама - пульс эпохи! Если серьёзно, то в ОЭКе при создании новой заявки на 3-м шаге формы (Данные о файле экземпляра) есть поле "Дополнительные сведения". В этом поле можно попросить операторов проигнорировать отсутствие текстового слоя на определённых полосах (их надо перечислить). Решения принимаются индивидуально, но попытка не пытка

Да по-фигу как ищут. Суть уже отметили — ищут у вас, вы и разбирайтесь.
У нас — в печать. Решение — что не читается, то и вне результатов поиска.
Какого лешего требуется переводить в текст то, что автор дал в виде изображения? Давайте ещё и логотипы переводить в текст. Ну, а что?!

George · 27.11.2019

Lupantrop сказал(а):
смотрят

Смотрят, это не ищут поиском по тексту. Нет смысла искать прокладки с крылышками и орбит с мёдом, но без сахара, запивая каким-то гомеопатическим БАДом. Am I clear? Ладно, меня не слушайте, слушайте Kstati, что там непонятного в его постах про это же?
В общем, подход понятен - подход чиновника госорганизации. А потом удивляетесь негативу: "а чего это нас все ненавидят?".

_MBK_ · 27.11.2019

Ну мало ли, допустим, лет через двести ученым в старых газетах будут интересны не передовицы о новых великих свершениях, а именно гомеопатия древности в рекламных обьявлениях.

LeonidB · 27.11.2019

_MBK_ сказал(а):
лет через двести

Забавно, что мы сейчас типа заботимся о том, чтобы кому-то было удобно лет через двести что-то отыскать в наших нынешних пластах будущего окаменевшего г...а (это отсылка к Маяковскому, не подумайте ничего плохого). Как будто потомки станут настолько тупыми, что будут не в состоянии придумать ничего лучшего для оцифровки этих пластов (или конвертации ЛЮБОЙ нынешней цифры, в том числе и вполне кошерного ныне PDF/X, в будущие продвинутые и беспроблемные форматы, которые, несомненно, появятся) и текстовому поиску в них, чем вот этот самый PDF/A, в который сейчас всё упёрлось. Наши потуги позаботиться о потомках не вызовут у них, мне кажется, ничего, кроме недоумения и сожаления.

~RA~ · 27.11.2019

Индексация и поиск нужны сейчас для поиска крамолы.

german · 27.11.2019

Lupantrop сказал(а):
Я пока проясняю организационную возможность перейти на более новую ревизию стандарта PDF/A...

А какие всех могут ждать последствия от такого перехода?

andrejK · 27.11.2019

german сказал(а):
какие всех могут ждать последствия от такого перехода

очевидно, что плохие, Гера)))
иначе они не могут)

andrejK · 27.11.2019

вот единственно верное предложение)))

~RA~ сказал(а):
Вообще, было правильно, если бы ргб брала бы печатные или любые другие макеты без разбора и сама бы распознавала на них текст, индексировала его, каталогизировала и пр.

Поиск

Обязательный электронный экземпляр и преобразование PDF в PDF/A для РГБ

kstati

иɯɐɯɔʞ

~RA~

🄯

ЯСергей

Участник

_MBK_

Пикирующий бомбардировщик

german

german

~RA~

🄯

vinnik63

Участник

dosp

Участник

Lupantrop

Участник

AM Labs Solutions

ESKO | Enfocus

Lupantrop

Участник

kstati

иɯɐɯɔʞ

George

I wish I was the monster you think I am

_MBK_

Пикирующий бомбардировщик

LeonidB

Шпационный шмотритель

~RA~

🄯

german

andrejK

andrejK