[Acr XI] Вопросы по созданию PDF/A через FineReader v14 по v16

themoloko

Участник
Топикстартер
Сообщения
23
Реакции
1
Всем привет!
Есть ряд вопросов, по сборке tif в PDF контейнер.
1. Как происходит импорт в PDF, что происходит с изображениями при импорте?
2. Есть ли варианты честного импорта без модификации исходных файлов?

Теперь про эксперимент...
Задача: собрать tif/LZW, tif/G4 в контейнер PDF/A с качеством исходных файлов.
Что делаю:
Беру исходные скан-копии, бинаризованные (CCITT Group 4 сжатие) сканы, с grayscale изображениями внутри, формат скан копий - TIF с сжатием LZW - назовём "гибриды" - прикрепляю - page7.tif; page8.tif;
Запускаю механизм сборки через FineReader 16, получаю на выходе файл PDF/A 1.4
При просмотре собранного PDF вижу интересную ситуацию:
page7 - отображается корректно
page8 - имеет артефакты вокруг букв в виде серых точек.
При том - страница 7 всегда нормальная, а страница 8 всегда с артефактами.
Прилагаю Архив.zip в котором расположены:
Исходные файлы - [TIF LZW] - page7.tif; page8.tif;
Выходной файл - [PDF/A_1a_1.4] - 78.pdf;
Кроп артефактов - sample.png

Пробовал различные настройки, в том числе и различные ревизии PDF/A (вплоть до PDF/A_4_2.0) - всё равно появляются артефакты, протестировал на ABBY FineReader 16, на FineReader server 14 - отрицательный результат, лезут артефакты.
На ABBY FineReader 15 - получил положительный результат, страницы в PDF все чистые, без артефактов.
Если собирать PDF из исходников TIF/G4 - то артефактов не наблюдается на любом софте, в том числе и на Adobe Acrobat.
Отсюда главный вопрос: откуда появляются описанные артефакты? как их исключить?
кто сталкивался с данным наблюдением?
Помогите пожалуйста разобраться....
 

Вложения

На ABBY FineReader 15 - получил положительный результат, страницы в PDF все чистые, без артефактов.
Вот и работайте с ним. В версии 16 и его русском клоне ровным счётом ничего интересного не было добавлено, окромя рабской модели лицензирования "ежегодно".

протестировал на ABBY FineReader 16,
Вы не из России? В РФ эта версия не продаётся и не будет, скорее всего, больше никогда продаваться и Вы не можете её использовать на территории РФ.

Теперь это продукт с др. названием, если надо прям новую версию и платить каждый год ("ContentAI" - курить в гугле).
 
Последнее редактирование:
Как происходит импорт в PDF, что происходит с изображениями при импорте?
Как запроектировали разработчики софта. Обычно пережимается.
Вот, например, что внутри вашего pdf на самом деле.

Код:
page   num  type   width height color comp bpc  enc interp  object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
   1     0 image    1939  2883  icc     1   1  jbig2  no        30  0   300   300 30.5K 4.5%
   1     1 image    1666   804  icc     1   8  jpeg   no        36  0   300   300  479K  37%
   1     2 image     811  1023  icc     1   8  jpeg   no        42  0   300   300  285K  35%
   2     3 image    1939  2883  icc     1   8  jpeg   no        79  0   300   300 1752K  32%
   2     4 image     487   622  icc     1   8  jpeg   no        85  0   300   300  124K  42%
   2     5 image     484   616  icc     1   8  jpeg   no        91  0   300   300 91.6K  31%
Почему не эксель или танчики?
 
  • Спасибо
Реакции: _MBK_ и themoloko
Вы не из России? В РФ эта версия не продаётся и не будет, скорее всего, больше никогда продаваться и Вы не можете её использовать на территории РФ.
Договорились же не провоцировать 'skelet'
 
Если собирать PDF из исходников TIF/G4 - то артефактов не наблюдается на любом софте, в том числе и на Adobe Acrobat.
Потому что в настройках стоит не пережимать g4. Загляните в них.
 
бинаризованные (CCITT Group 4 сжатие) сканы, с grayscale изображениями внутри
Это как? '%)'
У вас обычные grayscale файлы с lzw компрессией.
Код:
File page7.tif:
=== TIFF directory 0 ===
TIFF Directory at offset 0x20408c (2113676)
  Image Width: 1939 Image Length: 2883
  Resolution: 300, 300 pixels/inch
  Bits/Sample: 8
  Sample Format: unsigned integer
  Compression Scheme: LZW
  Photometric Interpretation: min-is-black
  Samples/Pixel: 1
  Planar Configuration: single image plane

File page8.tif:
=== TIFF directory 0 ===
TIFF Directory at offset 0xdce40 (904768)
  Image Width: 1939 Image Length: 2883
  Resolution: 300, 300 pixels/inch
  Bits/Sample: 8
  Sample Format: unsigned integer
  Compression Scheme: LZW
  Photometric Interpretation: min-is-black
  Samples/Pixel: 1
  Planar Configuration: single image plane
 
  • Спасибо
Реакции: Flame
  • Спасибо
Реакции: Flame
Это не провокация, это сделанный неправильный выбор новой версии, если человек из РФ.
Это провокация сам знаешь чего, к вопросу не имеет отношения. Где взял там и взял.
 
Это провокация сам знаешь чего, к вопросу не имеет отношения. Где взял там и взял.
Нет. Тебе не о чем поговорить? Ещё раз - нет. FR16 не работает "здесь" и рассматривать его работу бессмысленно. Человек, скорее всего, не знает что есть верная русская версия более новая.
 
Значит он не из России, потому что мы не провоцируем без дела, как и договорились. Ты еще про Server 14 спроси, зачем такая лицензия для таких задач и откуда вообще сразу 3 версии. :)
 
Последнее редактирование:
Нет, не проверю (у меня FR15 бессрочка). И навряд ли кто здесь проверит. FR16 это суслик для этого форума. Ну нравится тебе гонять мельницы - гоняй. Ещё раз, для тех у кого рация на бронепоезде - отвечать на вопросы надо топикстартеру, а не тебе. Гоняться за новой версией, ради того, чтобы она была последняя, но недоступная - смысла НЕТ.
 
Последнее редактирование:
FineReader странный выбор для задачи конверсии tiff в pdf. Почему не Acrobat или, скажем PDF-XChange? cpdf? Всё просто и логично. А тут "череззаборногузадерищенко"
 
Последнее редактирование:
FineReader странный выбор для задачи конверсии tiff в pdf
Да нормальный выбор. Лучше Акробата, имхо. Ибо если это сканы, - FR/Сai умеют лучше "шаманить" эти сканы. А OCR у FR однозначно лучше Акробатовского.

Если выбирать между Акробатом и FR задачу по скану книг - выбор явно в сторону FR/CAi при его наличии.
 
Последнее редактирование:
В КонтентАИ проверь. А лучше удали офтоп вместе с провокацией. Это не наша задача играть в копов.
Он так не поймёт, что не надо гоняться за мельницами как ты. Пусть остаётся. Ждём его ответ.