[PDF] Вопросы по созданию PDF/A через FineReader v14 по v16

themoloko · 24.12.2024

zollinger сказал(а):
как-то так

Мне этот вариант тоже больше нравится, я его еще на первой, кажется, странице предлагал.
Вот что получилось у меня.
Меня другое смущает. У Тса не PDF/A файл, у него там слои используются, а это недопустимо для pdf/a.
Проверку префлайтом акробатовским он не проходит.
Мой, кстати, проходит

Доброго, можно отсылочку к запрету на использование в архивном PDF слоёв?

themoloko · 24.12.2024

zollinger сказал(а):
Мне другое интересно. Для него это вопрос академический или принципиально-рабочий? Потому что эти его серые пятнышки в файле я довольно долго искал, на отображение/чтение/печать они практического влияния не имеют. в чём смысл заморочки? Ну, если вопрос академический, то да, а так - не понимаю, зачем весь сыр-бор

Вопрос скажем так производственный.
Со сканера получаем цветной разворот TIFF LZW, далее режем на страницы, бинаризуем в BW (G4), чтобы уменьшить вес образа, и получить пользовательское представление оптимальное для чтения. Чтобы сохранить эстетичность иллюстраций, они оставляются на странице цветными, либо в оттенках серого. Всё это делается в ScanTaylor, на выходе получаем TIFF LZW.
Если на страницах нет иллюстраций, то образ сохраняется в TIFF G4.

*ПРИ распознавании-сборке PDF ABBY Fine Reader server (AFRS) на образах с нерегулярной периодичностью лепит артефакты...
*ПРИ ТОМ, при работе с TIFF G4 в AFRS - артефактов в виде ореолов не наблюдается вообще.

Так вот, те самые ореолы в виде пикселей, это лишние байтики, которые в конечном счёте вырастут в Тбайты..
Не хотелось бы лепить горбатого... Ищу, исследую оптимальные решения задачки.
Найти бы где в конфиге, или настройках гуя, указать для иморта экспорта алгоритмы обработки образа и избежать артефактов.
В Акробате нашёл эти настроечки обработки TIFF, позволяют настроить поведение обработчика в зависимости от типа сжатия тифа. Но ёпрст, для распознавания ABBY, для сборки PDF Acrobat - получается прыганье туда сюда, размножение сущностей, что приводит к временным затратам (AFRS и Acrobat лицухи есть, вопрос закупки иного ПО отметается)

Спасибо всем за участие в дискуссии и помощь!
Чуть позже скину исходные образы изображений, со сканера, после резки.

Gad · 24.12.2024

themoloko сказал(а):
отсылочку

Да, собственно не предусмотрены они в адобовском PDF/A - 1a

themoloko сказал(а):
к запрету на использование в архивном PDF

А вот по поводу запретов... это туда куда сдаете думаю

Drawer · 24.12.2024

А засуньте в свой FR эти 2 файла как исходные

Drawer · 24.12.2024

И кстати, это вот не оно?

zollinger · 24.12.2024

themoloko сказал(а):
Доброго, можно отсылочку к запрету на использование в архивном PDF слоёв?

Прфлайт Acrobat'овский так говорит, там есть профиль для проверки на соответствие PDF/A.

Я другого не понимаю - а почему не хранить его jpeg'ом? Что вам так сжатие без потерь далось-то? текстовый слой там есть, что кто-то захочет рассматривать картинку как текст, маловероятно

~RA~ · 24.12.2024

zollinger сказал(а):
Я другого не понимаю - а почему не хранить его jpeg'ом? Что вам так сжатие без потерь далось-то? текстовый слой там есть, что кто-то захочет рассматривать картинку как текст, маловероятно

Товарищ думает, что эти артефакты добавляют вес, а не снижают его.

themoloko сказал(а):
те самые ореолы в виде пикселей, это лишние байтики, которые в конечном счёте вырастут в Тбайты..

zollinger · 24.12.2024

~RA~ сказал(а):
Товарищ думает, что эти артефакты добавляют вес, а не снижают его.

Вот я и удивляюсь

themoloko · 24.12.2024

Drawer сказал(а):
А засуньте в свой FR эти 2 файла как исходные

Артефактов нет

~RA~ · 24.12.2024

А вот этот если запихать?

themoloko · 24.12.2024

~RA~ сказал(а):
А вот этот если запихать?

Перегнал jp2 при помощи AFRS в:

pdf 1a 1.4
pdf 3a 1.7
pdf 4 2.0
Смотрю через foxit и Ocular - всё ок.

themoloko · 24.12.2024

Drawer сказал(а):
И кстати, это вот не оно?
Посмотреть вложение 170273

Это что за AFR такой?
Не могли бы вы скинуть экспорт настроек вашего AFR в xml?
Вот какой гуй у меня....
Надеюсь в xml есть возможность поправить отсутствующие опции вывода..

visitor2021 · 24.12.2024

Цель - получить файл меньшего размера?

themoloko · 24.12.2024

visitor2021 сказал(а):
Цель - получить файл меньшего размера?

Цель:
1. Заставить AFRS не портить исходники при распознавании и размещении их в PDF.
2. Найти компромиссное решение качество/размер.

~RA~ · 24.12.2024

А файлы из этого поста пережимает?

~RA~ сказал(а):
Кстати про величину файлов

Они и пока чемпионы по соотношению качество/размер.

visitor2021 · 24.12.2024

В 1-ом сообщении все видно же, зачем 5 страниц:

Видимо, алгоритм "AFR" часть фона от чела в шапке оставил в "тексте", а чел в очочках прошел ОК. Поэтому на 2-й полосе "текст" = тяжелый jpeg ~1.7kk вместо ~30k на 1й полосе. Вот к какой экономии размеров надо стремиться-то.

Не проверено мной, конечно, но что-то вроде кривых для изображений при пред-обработке м.б. наставят "алгоритм "AFR"" на правильный путь. Лишь бы что-то очень светлое не попало в край "изображения", но с такими кривыми будет заведомо так, поэкспериментируйте сами.

themoloko · 24.12.2024

~RA~ сказал(а):
А файлы из этого поста пережимает?

Они и пока чемпионы по соотношению качество/размер.

По крайней мере не вываливает артефакты при обработке через AFRS

themoloko · 24.12.2024

visitor2021 сказал(а):
Видимо, алгоритм "AFR" часть фона от чела в шапке оставил в "тексте", а чел в очочках прошел ОК. Поэтому на 2-й полосе "текст" = тяжелый jpeg ~1.7kk вместо ~30k на 1й полосе. Вот к какой экономии размеров надо стремиться-то.

Не проверено мной, конечно, но что-то вроде кривых для изображений при пред-обработке м.б. наставят "алгоритм "AFR"" на правильный путь. Лишь бы что-то очень светлое не попало в край "изображения", но с такими кривыми будет заведомо так, поэкспериментируйте сами.

Что-то на вечернюю голову уже не улавливаю связь между...:

алгоритм "AFR" часть фона от чела в шапке оставил в "тексте"
и
AFR вываливает артефакты в виде россыпи точек вокруг букв.

Drawer · 24.12.2024

themoloko сказал(а):
связь между...:

алгоритм "AFR" часть фона от чела в шапке оставил в "тексте"
и
AFR вываливает артефакты в виде россыпи точек вокруг букв.

У Вас не отключена постобработка изображений, тем не менее вы предварительно обработали область с текстом так, чтобы в ней не осталось полутонов, таким образом, на первой странице (7) где автоматический анализ страницы сработал как надо у Вас постобработка по логике FR не нужна и он не трогает изображение, а на второй (8) он цепляет часть изображения где есть полутон

и постобработка жмет его в jpg.

Drawer · 24.12.2024

~RA~ сказал(а):
Они и пока чемпионы по соотношению качество/размер.

Уже нет

[PDF] Вопросы по созданию PDF/A через FineReader v14 по v16

Участник

Участник

Участник

Вложения

Участник

Не человек. Золото

🄯

Не человек. Золото

Участник

Вложения

🄯

Вложения

Участник

Вложения

Участник

Вложения

Участник

Участник

🄯

Участник

Участник

Вложения

Участник

Участник

Участник