[Acr XI] Вопросы по созданию PDF/A через FineReader v14 по v16

Не имея FineReader, спрошу - а нельзя в него загнать собранный из растров pdf и на выходе получить такой pdf, как нужен тс'у?
 
Кстати, zip эффективнее на ваших сюжетах, жмите им лучше, если не хотите в BW.
 

Вложения

Как запроектировали разработчики софта. Обычно пережимается.
Вот, например, что внутри вашего pdf на самом деле.

Код:
page   num  type   width height color comp bpc  enc interp  object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
   1     0 image    1939  2883  icc     1   1  jbig2  no        30  0   300   300 30.5K 4.5%
   1     1 image    1666   804  icc     1   8  jpeg   no        36  0   300   300  479K  37%
   1     2 image     811  1023  icc     1   8  jpeg   no        42  0   300   300  285K  35%
   2     3 image    1939  2883  icc     1   8  jpeg   no        79  0   300   300 1752K  32%
   2     4 image     487   622  icc     1   8  jpeg   no        85  0   300   300  124K  42%
   2     5 image     484   616  icc     1   8  jpeg   no        91  0   300   300 91.6K  31%

Почему не эксель или танчики?
Подскажите пожалуйста, каким софтом вы расковыряли pdf и получили эти данные?
 
в приложенном pdf. FR делает pdf из битмапа и сверху распознанный текст.
1734954605049.png
 
Последнее редактирование:
Вот и работайте с ним. В версии 16 и его русском клоне ровным счётом ничего интересного не было добавлено, окромя рабской модели лицензирования "ежегодно".


Вы не из России? В РФ эта версия не продаётся и не будет, скорее всего, больше никогда продаваться и Вы не можете её использовать на территории РФ.

Теперь это продукт с др. названием, если надо прям новую версию и платить каждый год ("ContentAI" - курить в гугле).
Я из России, в профиле указан город)... Не стал напрямую в ABBY писать, ибо много нового-староuо не охота услышать.. ну вы поняли.
По лицензированию в курсе и кто такие ContentAI тоже и про их схемы лицензирования тоже.
Спасибо за инфу по лицензированию, тоже всегда стараюсь не обижать правообладателей софта, понимаю Вас.

Есть в проде лицензия на AFR server 14, он артефачит... Хочется за один проход и распознать и создать PDF средствами уже купленного ПО.
Процесс обработки файлов не хочется дробить на два три этапа используя разный софт, ведь это как минимум накладные расходы, как временные, так и финансовые.
Касаемо AF 15 и AF 16 - протестировал на пробных версиях, для эксперимента. Увы, AF 16 артефачит, AF15 к сожалению да, не приобрести уже.
 
  • Спасибо
Реакции: suntory
Это как? '%)'
У вас обычные grayscale файлы с lzw компрессией.
Код:
File page7.tif:
=== TIFF directory 0 ===
TIFF Directory at offset 0x20408c (2113676)
  Image Width: 1939 Image Length: 2883
  Resolution: 300, 300 pixels/inch
  Bits/Sample: 8
  Sample Format: unsigned integer
  Compression Scheme: LZW
  Photometric Interpretation: min-is-black
  Samples/Pixel: 1
  Planar Configuration: single image plane

File page8.tif:
=== TIFF directory 0 ===
TIFF Directory at offset 0xdce40 (904768)
  Image Width: 1939 Image Length: 2883
  Resolution: 300, 300 pixels/inch
  Bits/Sample: 8
  Sample Format: unsigned integer
  Compression Scheme: LZW
  Photometric Interpretation: min-is-black
  Samples/Pixel: 1
  Planar Configuration: single image plane
Процесс получения изображения.
1. Со сканера получаю tif LZW.
2. Обрабатываю исходник в ScanTailor (ST) (жму текст в G4, картинки на странице оставляю tif LZW)
3. Обработанный образ экспортирую из ST в tif LZW.
Далее tif LZW распознаю и собираю в PDF/A посредством AFR server 14.
Вот такая схемка процесса по что...
upd... Не grayscale, ибо из EXIF читает свойства модели RGB.
 
Последнее редактирование:
Далее tif LZW распознаю и собираю в PDF/A посредством AFR server 14.
Намного лучше опенсорсных решений распознаёт? Стоило покупать?
Вот, например, запихал в совершенно ненастроенный tesseract.
 

Вложения

Намного лучше опенсорсных решений распознаёт? Стоило покупать?
Вот, например, запихал в совершенно ненастроенный tesseract.
там же дореформенная орфография, вроде тессеракт не алё
 
  • Спасибо
Реакции: suntory
1. Со сканера получаю tif LZW.
2. Обрабатываю исходник в ScanTailor (ST) (жму текст в G4, картинки на странице оставляю tif LZW)
3. Обработанный образ экспортирую из ST в tif LZW.
Почему бы не сканировать сразу средствами файнридера?
 
  • Спасибо
Реакции: zollinger
Да, г... много будет. А FR её понимает?
Ага, довольно недурно:
КРУКОВСКІЙ, Феликсъ Антоновичъ
(Станиславовичъ), г.-м., бывш. наказн. атаманъ
Кавказ, лин. войска, герой Кавказ, войны,
род. въ 1804 г. въ Гродн. губ., воспитывался въ
іезуит. коллегіи, 8 снт. 1821 г. вступилъ въ службу
у.-оф-ромъ въ л.-гв. Подольск, кирас, п. и въ
1823 г. б. произв. въ 1-й офицер, чинъ; въ 1829 г.,
въ чинѣ пор-ка, К. б. переведенъ въ Татар, улан,
п., по расформ—ніи к-раго, въ 1833 г., въ чинѣ
кап-на, перешелъ въ Рижск. драг' п.; въ 1837 г.