[Acr XI] Вопросы по созданию PDF/A через FineReader v14 по v16

как-то так

Мне этот вариант тоже больше нравится, я его еще на первой, кажется, странице предлагал.
Вот что получилось у меня.
Меня другое смущает. У Тса не PDF/A файл, у него там слои используются, а это недопустимо для pdf/a.
Проверку префлайтом акробатовским он не проходит.
Мой, кстати, проходит
Доброго, можно отсылочку к запрету на использование в архивном PDF слоёв?
 
Мне другое интересно. Для него это вопрос академический или принципиально-рабочий? Потому что эти его серые пятнышки в файле я довольно долго искал, на отображение/чтение/печать они практического влияния не имеют. в чём смысл заморочки? Ну, если вопрос академический, то да, а так - не понимаю, зачем весь сыр-бор
Вопрос скажем так производственный.
Со сканера получаем цветной разворот TIFF LZW, далее режем на страницы, бинаризуем в BW (G4), чтобы уменьшить вес образа, и получить пользовательское представление оптимальное для чтения. Чтобы сохранить эстетичность иллюстраций, они оставляются на странице цветными, либо в оттенках серого. Всё это делается в ScanTaylor, на выходе получаем TIFF LZW.
Если на страницах нет иллюстраций, то образ сохраняется в TIFF G4.

*ПРИ распознавании-сборке PDF ABBY Fine Reader server (AFRS) на образах с нерегулярной периодичностью лепит артефакты...
*ПРИ ТОМ, при работе с TIFF G4 в AFRS - артефактов в виде ореолов не наблюдается вообще.

Так вот, те самые ореолы в виде пикселей, это лишние байтики, которые в конечном счёте вырастут в Тбайты..
Не хотелось бы лепить горбатого... Ищу, исследую оптимальные решения задачки.
Найти бы где в конфиге, или настройках гуя, указать для иморта экспорта алгоритмы обработки образа и избежать артефактов.
В Акробате нашёл эти настроечки обработки TIFF, позволяют настроить поведение обработчика в зависимости от типа сжатия тифа. Но ёпрст, для распознавания ABBY, для сборки PDF Acrobat - получается прыганье туда сюда, размножение сущностей, что приводит к временным затратам (AFRS и Acrobat лицухи есть, вопрос закупки иного ПО отметается)

Спасибо всем за участие в дискуссии и помощь!
Чуть позже скину исходные образы изображений, со сканера, после резки.
 
Да, собственно не предусмотрены они в адобовском PDF/A - 1a :)
1735035962611.png
к запрету на использование в архивном PDF
А вот по поводу запретов... это туда куда сдаете думаю :)
 
  • Спасибо
Реакции: zollinger и themoloko
А засуньте в свой FR эти 2 файла как исходные :)
 

Вложения

И кстати, это вот не оно? :)
1735038918289.png
 
  • Спасибо
Реакции: themoloko и George
Доброго, можно отсылочку к запрету на использование в архивном PDF слоёв?
Прфлайт Acrobat'овский так говорит, там есть профиль для проверки на соответствие PDF/A.
1735042840144.png
1735042875593.png
1735042898509.png

Я другого не понимаю - а почему не хранить его jpeg'ом? Что вам так сжатие без потерь далось-то? текстовый слой там есть, что кто-то захочет рассматривать картинку как текст, маловероятно
 
Последнее редактирование:
  • Спасибо
Реакции: themoloko
Я другого не понимаю - а почему не хранить его jpeg'ом? Что вам так сжатие без потерь далось-то? текстовый слой там есть, что кто-то захочет рассматривать картинку как текст, маловероятно
Товарищ думает, что эти артефакты добавляют вес, а не снижают его.

те самые ореолы в виде пикселей, это лишние байтики, которые в конечном счёте вырастут в Тбайты..
 
  • Спасибо
Реакции: Chiga
А вот этот если запихать?
 

Вложения

  • Спасибо
Реакции: themoloko

Вложения

Вложения

  • AFRS14_exportPDF1a1.4.png
    AFRS14_exportPDF1a1.4.png
    344.7 КБ · Просм.: 12
Последнее редактирование:
В 1-ом сообщении все видно же, зачем 5 страниц:
this.png


Видимо, алгоритм "AFR" часть фона от чела в шапке оставил в "тексте", а чел в очочках прошел ОК. Поэтому на 2-й полосе "текст" = тяжелый jpeg ~1.7kk вместо ~30k на 1й полосе. Вот к какой экономии размеров надо стремиться-то.

Не проверено мной, конечно, но что-то вроде кривых для изображений при пред-обработке м.б. наставят "алгоритм "AFR"" на правильный путь. Лишь бы что-то очень светлое не попало в край "изображения", но с такими кривыми будет заведомо так, поэкспериментируйте сами.
curves.png
 
  • Спасибо
Реакции: Drawer
А файлы из этого поста пережимает?

Они и пока чемпионы по соотношению качество/размер.
По крайней мере не вываливает артефакты при обработке через AFRS
 

Вложения

Видимо, алгоритм "AFR" часть фона от чела в шапке оставил в "тексте", а чел в очочках прошел ОК. Поэтому на 2-й полосе "текст" = тяжелый jpeg ~1.7kk вместо ~30k на 1й полосе. Вот к какой экономии размеров надо стремиться-то.

Не проверено мной, конечно, но что-то вроде кривых для изображений при пред-обработке м.б. наставят "алгоритм "AFR"" на правильный путь. Лишь бы что-то очень светлое не попало в край "изображения", но с такими кривыми будет заведомо так, поэкспериментируйте сами.
Что-то на вечернюю голову уже не улавливаю связь между...:

алгоритм "AFR" часть фона от чела в шапке оставил в "тексте"
и
AFR вываливает артефакты в виде россыпи точек вокруг букв.
 
связь между...:

алгоритм "AFR" часть фона от чела в шапке оставил в "тексте"
и
AFR вываливает артефакты в виде россыпи точек вокруг букв.
У Вас не отключена постобработка изображений, тем не менее вы предварительно обработали область с текстом так, чтобы в ней не осталось полутонов, таким образом, на первой странице (7) где автоматический анализ страницы сработал как надо у Вас постобработка по логике FR не нужна и он не трогает изображение, а на второй (8) он цепляет часть изображения где есть полутон
1735064638912.png


и постобработка жмет его в jpg.