Обязательный электронный экземпляр и преобразование PDF в PDF/A для РГБ

  • Автор темы Автор темы BorA
  • Дата начала Дата начала
Получаю, я, например, социалку-рекламу от союзного государства. С федерального уровня падает мне "кривая" вкладка на 16 полос. Я должен гордо сказать — идите на фиг, РГБ не пропустит. Ага.
 
Вообще, было правильно, если бы ргб брала бы печатные или любые другие макеты без разбора и сама бы распознавала на них текст, индексировала его, каталогизировала и пр.

Не по теме:
Но у нас же так не принято — нужно непременно всех обязать, нагнуть и покарать.
 
Мы встретились с проблемой отправки обязательного экземпляра газет в РГБ.
Все файлы PDF созданные в Adobe Acrobat XI Pro в PDF-A,отклонялись при проверке.( Файл экземпляра не прошёл автоматическую проверку , неверная кодировка текстового слоя).Как они достали меня пустыми рекомендациями и советами в переписке.
Как же обойти эту проблему?
Переводим газету через виртуальный принтер HP LaserJet 4V/4MV в файл PS затем через PostScript Adobe Acrobat Distiller XI (картинка) в PDF. Сохраняем в Adobe Acrobat XI Pro в PDF-A
Берем файл PDF и программой ABBYY_FineReader_12.0.101.496.exe считываем его и в этой же программе и опять сохраняем в PDF-A. Загружаем на сайте РГБ, подписываем электронной подписью и Ву аля. Файл экземпляра прошёл автоматическую проверку. Пользуйтесь на здоровье.

Дистиллер.png
 
Последнее редактирование модератором:
  • Спасибо
Реакции: Yar
Спасибо, конечно, но этот способ был описан как уж совсем крайний, когда ничего не помогает и терять нечего. Да и файнридер в данном случае - отнюдь не бесплатная и недешевая сторонняя программа
 
1. Мы должны выполнять требования законодательства. Не имея на начальном этапе собственной экспертизы в тонкостях PDF, библиотека, естественно, была вынуждена отдать задачу подрядчикам. В результате появился механизм, построенный на движке VeraPDF. Собственно говоря, все "ошибки на непонятном техноязе" - это переведённые на русский язык тексты ошибок, которые умеет генерить VeraPDF. К сожалению, от наличия перевода эти тексты понятнее не стали.
Если есть движок, который используется для проверки файлов, логично предполагать, что он же и должен использоваться для создания файлов? Он должен исправлять все эти проблемы или должен предоставлять механизмы для исправления ошибок?
 
все "ошибки на непонятном техноязе" - это переведённые на русский язык тексты ошибок, которые умеет генерить VeraPDF
Если их не переводить, то они будут гуглиться хотя бы... Всё народу попроще.
1574750616829.png
 
Последнее редактирование:
  • Спасибо
Реакции: german
Вообще, было правильно, если бы ргб брала бы печатные или любые другие макеты без разбора и сама бы распознавала на них текст, индексировала его, каталогизировала и пр.
было бы ещё проще принимать всё в кривых или вообще джипегах — потомкам не один хрен, с чего читать нашу "нетленку" (читают же археологи и историки нацарапанное тыщи лет назад на камнях или пергаменте — и ничего...)?
тем более, что как минимум 90% всего собранного никогда никого не заинтересует... :)
 
Не осилю цитирование всех отреагировавших, но в любом случае всем спасибо!

Полностью отказаться от текстового слоя... Сорри, пока не можем. На него сейчас завязана индексация. Возможно, что-то изменится, мы тоже ищем варианты. OCR - это примерно как копировать звук с одного компакт-диска на другой через аналоговый аудиовыход. То есть по-любому будут потери. Если больше уже ничего не помогает, то да, пусть хоть так, чем никак.

По "кривой" рекламе... Вы не поверите, с какой частотой и удовольствием люди смотрят рекламные объявления в каких-нибудь губернских ведомостях позапрошлого века! Реклама - пульс эпохи! :) Если серьёзно, то в ОЭКе при создании новой заявки на 3-м шаге формы (Данные о файле экземпляра) есть поле "Дополнительные сведения". В этом поле можно попросить операторов проигнорировать отсутствие текстового слоя на определённых полосах (их надо перечислить). Решения принимаются индивидуально, но попытка не пытка ;)

Встречный вопрос: кто-нибудь мог бы попробовать перегнать в PDF/A-3u какой-нибудь макет (у которого точно есть проблемы с кодировкой при конвертации в PDF/A-1b) и поделиться результатами?
 
Смотрите ЛС, отправил туда файл.
 
AM Labs, спасибо! Текстовый слой из файла копируется без проблем и это сразу текст в кодировке UTF-8!

Коллеги, кто-то мог бы повторить эксперимент на своей стороне? Если у кого-то нет PDF/A-3u, но есть PDF/A-2u, то он тоже подойдёт, эти стандарты почти идентичны. Также был бы интересен эксперимент с включенным сабсеттингом шрифтов.

Я пока проясняю организационную возможность перейти на более новую ревизию стандарта PDF/A...
 
По "кривой" рекламе... Вы не поверите, с какой частотой и удовольствием люди смотрят рекламные объявления в каких-нибудь губернских ведомостях позапрошлого века! Реклама - пульс эпохи! :) Если серьёзно, то в ОЭКе при создании новой заявки на 3-м шаге формы (Данные о файле экземпляра) есть поле "Дополнительные сведения". В этом поле можно попросить операторов проигнорировать отсутствие текстового слоя на определённых полосах (их надо перечислить). Решения принимаются индивидуально, но попытка не пытка ;)
Да по-фигу как ищут. Суть уже отметили — ищут у вас, вы и разбирайтесь.
У нас — в печать. Решение — что не читается, то и вне результатов поиска.
Какого лешего требуется переводить в текст то, что автор дал в виде изображения? Давайте ещё и логотипы переводить в текст. Ну, а что?!
 
Последнее редактирование:
Смотрят, это не ищут поиском по тексту. Нет смысла искать прокладки с крылышками и орбит с мёдом, но без сахара, запивая каким-то гомеопатическим БАДом. Am I clear? Ладно, меня не слушайте, слушайте Kstati, что там непонятного в его постах про это же?
В общем, подход понятен - подход чиновника госорганизации. А потом удивляетесь негативу: "а чего это нас все ненавидят?".

I-Have-Spoken-430x430.jpg
 
Последнее редактирование:
Ну мало ли, допустим, лет через двести ученым в старых газетах будут интересны не передовицы о новых великих свершениях, а именно гомеопатия древности в рекламных обьявлениях.
 
лет через двести
Забавно, что мы сейчас типа заботимся о том, чтобы кому-то было удобно лет через двести что-то отыскать в наших нынешних пластах будущего окаменевшего г...а (это отсылка к Маяковскому, не подумайте ничего плохого). Как будто потомки станут настолько тупыми, что будут не в состоянии придумать ничего лучшего для оцифровки этих пластов (или конвертации ЛЮБОЙ нынешней цифры, в том числе и вполне кошерного ныне PDF/X, в будущие продвинутые и беспроблемные форматы, которые, несомненно, появятся) и текстовому поиску в них, чем вот этот самый PDF/A, в который сейчас всё упёрлось. Наши потуги позаботиться о потомках не вызовут у них, мне кажется, ничего, кроме недоумения и сожаления.
 
Последнее редактирование:
  • Спасибо
Реакции: kstati и ~RA~
Индексация и поиск нужны сейчас для поиска крамолы.
 
вот единственно верное предложение)))

Вообще, было правильно, если бы ргб брала бы печатные или любые другие макеты без разбора и сама бы распознавала на них текст, индексировала его, каталогизировала и пр.