Обязательный электронный экземпляр и преобразование PDF в PDF/A для РГБ

  • Автор темы Автор темы BorA
  • Дата начала Дата начала
Вообще, требование иметь читабельный текст разумно, если планируется индексация и пр. В таком случае мульки со скривлением или растеризацией временны и скоро они это научатся отлавливать.
Вы смотрели их круглый стол? Посмотрите, там не в этом дело... Там не предполагается ни создание копий ни пересылки экземпляров куда-то... А читаемость текста обеспечивается 300 дпи.
 
Я об индексации, систематизации и поиске.
понял. ЗАДАЧА ТО БЛАГАЯ КАК БЫ... как в американских фильмах страые газеты на экране компов 80-х ггодов . видел такое :) только почему то пессимистчино думаю что никто ничего искать не будет, а тегов проставляемых автоматом в акробате я думаю должно хватить)))0 а вообще если подумать неподъемная задача ИМХО. И ГЕМОР. конечно формат пдф для этого ВЫБРАН самый подходящий))) ведь кстати сперва он и планировался для веб...
 
Мне другое интересно. Ведь префлайту в общем то, пофиг на каких местах какие символы сидят, а кодировка в свойствах шрифта сидит. Перезаписать ее и дело с концом?
 
Префлайту всё равно, а если проверяльщик в тексте не опознаёт ни одного слова, то можно и ошибку выкинуть, а файл стопорнуть.
Но это, опять же, мои догадки, не более.
 
Префлайту всё равно, а если проверяльщик в тексте не опознаёт ни одного слова, то можно и ошибку выкинуть, а файл стопорнуть.
Но это, опять же, мои догадки, не более.
Как ты себе это мыслишь "проверяльщик не найдет ни одного знакомого слова"? Проверяльщик - безмозглый робот и настроить его на поиск осмысленного текста - нетривиальная задача
 
Одно из требований, для поступающих документов, это наличие текстового слоя. В нашем случае речь идет не о распознании текста, а о наличие уже готового текстового слоя, который можно отделить от подложки и воспроизвести машинными средствами.
Всё-таки они хотят анализировать содержание.
 
Мне другое интересно.
А мне интересно другое. Почему выбран мутный формат PDF/A, мало кому знакомый и вызывающий такую кучу проблем. Чем РГБ не устроил формат PDF/X, хорошо освоенный в подавляющем большинстве издательств и типографий, - формат, в котором многие издания сдаются в печать?
Если эту тему сотрудники РГБ всё-таки читают, то предлагаю им подумать над тем, чтобы расширить свои прокрустовы рамки требований, разрешив загрузку макетов в формате PDF/X. Вам же, господа, легче будет, между прочим.
 
@Danila,
А мне интересно другое. Почему выбран мутный формат PDF/A, мало кому знакомый и вызывающий такую кучу проблем. Чем РГБ не устроил формат PDF/X, хорошо освоенный в подавляющем большинстве издательств и типографий, - формат, в котором многие издания сдаются в печать?
Если эту тему сотрудники РГБ всё-таки читают, то предлагаю им подумать над тем, чтобы расширить свои прокрустовы рамки требований, разрешив загрузку макетов в формате PDF/X. Им же легче будет, между прочим.
ну как я понял пдфа формат для длительного хранения... я не вдавался но как понимаю только он дает возможность ставить теги...
а про дфикс вы правильно... там кстате коммент у видео на круглом столе... дык я с ним полность согласен. отсылаем им пдфикс а они пусть маи конвертят как им надо. просто судебные прецеденты будут такими, грубо: мы хотим исполнить закон но нет технической возможности...
 
ну как я понял пдфа формат для длительного хранения...
Да это я всё читал тоже.
"Википедия" вот что говорит:
PDF/A является подмножеством формата PDF, из которого исключены некоторые особенности, не подходящие для долгосрочного архивного хранения...
...Совокупность параметров для электронных документов, которые гарантируют, что документ может быть воспроизведён в том же виде и через несколько лет. Ключевой элемент воспроизводимости состоит в требовании, чтобы документы в формате PDF/A были на 100 % самодостаточными. Вся информация, необходимая для того, чтобы каждый раз отображать документ в неизменном виде, внедрена в файл. Сюда входит (не ограничиваясь только этим) всё содержимое документа (текст, растровые изображения и векторная графика), шрифты и информация о цвете. Документы формата PDF/A не могут использовать информацию из внешних источников (как то шрифтовые программы или гиперссылки).
Другие ключевые элементы для соответствия требованиям PDF/A включают:
  • запрещён аудио и видео контент;
  • запрещено внедрение кода на javascript и команд на запуск исполняемых файлов;
  • все шрифты должны быть внедрены и также они должны быть легально внедряемы для неограниченного универсального отображения. Это так же касается и так называемых стандартных шрифтов Postscript, таких как Times или Helvetica;
  • цветовые пространства определяются независимым от устройства способом;
  • шифрование не разрешено;
  • предписывается использование основанных на стандартах метаданных.
Что-то мне подсказывает, что правильные настройки дистиллера при выводе PDF/X смогут эти проблемы как-то решить.
 
Причём вот ещё насчёт индексирования. Пока РГБ этим вряд ли озадачена, поскольку жёстко не требует подформат PDF/A-1a, а допускает файлы в подформате PDF/A-1b.
Стандарт определяет два уровня соответствия для PDF-файлов:
  • PDF/A-1a — соответствие Уровню A (в Части 1);
  • PDF/A-1b — соответствие Уровню B (в Части 1).
PDF/A-1b ставит целью обеспечение надёжного воспроизведения внешнего вида документа. PDF/A-1a включает все требования стандарта PDF/A-1b и дополнительно требует, чтобы была включена структура документа, ставя при этом целью обеспечение возможности поиска и переназначения (преобразования) содержимого документа.
 
Да это я всё читал тоже.
"Википедия" вот что говорит:

Что-то мне подсказывает, что правильные настройки дистиллера при выводе PDF/X смогут эти проблемы как-то решить.

вы правы. чисто технически. но ргб делает простой логический контроль на исо19005:2005. если файл не соответствует ему, дальше не смотрят. а упомянутый исо, мне кажется, это только два формата /a-1a и /a-1b, остальные лично у меня отваливались с ошибкой.
 
вы правы. чисто технически. но ргб делает простой логический контроль на исо19005:2005. если файл не соответствует ему, дальше не смотрят. а упомянутый исо, мне кажется, это только два формата /a-1a и /a-1b, остальные лично у меня отваливались с ошибкой.
Да это-то понятно. Они же допустили только PDF/A, остальные у них и не должны проходить.
 
У них еще ссылка "Помощь и поддержка" при ошибке внушает. По идее по ссылке ни помощи, ни поддержки. Короче наверное надо то ли до Медведева идти то ли до Путина. Чтоб растолковали что делать и как жить.
 
Рома а как ты себе это мыслишь? Узкоспецифический научный текст? Технический каталог? Текст на экзотическом языке? Там что где то требование осмысленности текста прописано?