[PDF] Вопросы по созданию PDF/A через FineReader v14 по v16

George · 23.12.2024

suntory сказал(а):
В КонтентАИ проверь.

George сказал(а):
(у меня FR15 бессрочка).

У меня нет православной новой версии.

George · 23.12.2024

~RA~ сказал(а):
Да где там про OCR?

FR14 и выше это ~~не только два килограмма диетического мяса~~ и пдф-редактор, и ocr в комплекте поставки.

zollinger · 23.12.2024

Не имея FineReader, спрошу - а нельзя в него загнать собранный из растров pdf и на выходе получить такой pdf, как нужен тс'у?

~RA~ · 23.12.2024

Кстати, zip эффективнее на ваших сюжетах, жмите им лучше, если не хотите в BW.

~RA~ · 23.12.2024

George сказал(а):
ocr в комплекте поставки

Мало ли что у него в поставке. Например, каждя человеческая черепушка поставляется вместе с мозгами, но не каждый пользуется.

zollinger · 23.12.2024

George сказал(а):
Да нормальный выбор. Лучше Акробата, имхо.

Я упустил, что там распознанный текст. Увидел про tiff'ы

~RA~ · 23.12.2024

zollinger сказал(а):
там распознанный текст

Где?

~RA~ · 23.12.2024

~RA~ сказал(а):
BW

сильно меньше зато.

themoloko · 23.12.2024

~RA~ сказал(а):
Как запроектировали разработчики софта. Обычно пережимается.
Вот, например, что внутри вашего pdf на самом деле.

Код:

page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio -------------------------------------------------------------------------------------------- 1 0 image 1939 2883 icc 1 1 jbig2 no 30 0 300 300 30.5K 4.5% 1 1 image 1666 804 icc 1 8 jpeg no 36 0 300 300 479K 37% 1 2 image 811 1023 icc 1 8 jpeg no 42 0 300 300 285K 35% 2 3 image 1939 2883 icc 1 8 jpeg no 79 0 300 300 1752K 32% 2 4 image 487 622 icc 1 8 jpeg no 85 0 300 300 124K 42% 2 5 image 484 616 icc 1 8 jpeg no 91 0 300 300 91.6K 31%

Почему не эксель или танчики?

Подскажите пожалуйста, каким софтом вы расковыряли pdf и получили эти данные?

~RA~ · 23.12.2024

themoloko сказал(а):
Подскажите пожалуйста, каким софтом вы расковыряли pdf и получили эти данные?

Poppler

poppler.freedesktop.org

А оно вам точно надо?

zollinger · 23.12.2024

~RA~ сказал(а):
Где?

в приложенном pdf. FR делает pdf из битмапа и сверху распознанный текст.

themoloko · 23.12.2024

George сказал(а):
Вот и работайте с ним. В версии 16 и его русском клоне ровным счётом ничего интересного не было добавлено, окромя рабской модели лицензирования "ежегодно".

Вы не из России? В РФ эта версия не продаётся и не будет, скорее всего, больше никогда продаваться и Вы не можете её использовать на территории РФ.

Теперь это продукт с др. названием, если надо прям новую версию и платить каждый год ("ContentAI" - курить в гугле).

Я из России, в профиле указан город)... Не стал напрямую в ABBY писать, ибо много нового-староuо не охота услышать.. ну вы поняли.
По лицензированию в курсе и кто такие ContentAI тоже и про их схемы лицензирования тоже.
Спасибо за инфу по лицензированию, тоже всегда стараюсь не обижать правообладателей софта, понимаю Вас.

Есть в проде лицензия на AFR server 14, он артефачит... Хочется за один проход и распознать и создать PDF средствами уже купленного ПО.
Процесс обработки файлов не хочется дробить на два три этапа используя разный софт, ведь это как минимум накладные расходы, как временные, так и финансовые.
Касаемо AF 15 и AF 16 - протестировал на пробных версиях, для эксперимента. Увы, AF 16 артефачит, AF15 к сожалению да, не приобрести уже.

themoloko · 23.12.2024

~RA~ сказал(а):
Poppler

poppler.freedesktop.org

А оно вам точно надо?

точно надо, погружаюсь глубже)) Спасибо за ссылочку!

themoloko · 23.12.2024

~RA~ сказал(а):

Это как?

У вас обычные grayscale файлы с lzw компрессией.

Код:

File page7.tif:
=== TIFF directory 0 ===
TIFF Directory at offset 0x20408c (2113676)
  Image Width: 1939 Image Length: 2883
  Resolution: 300, 300 pixels/inch
  Bits/Sample: 8
  Sample Format: unsigned integer
  Compression Scheme: LZW
  Photometric Interpretation: min-is-black
  Samples/Pixel: 1
  Planar Configuration: single image plane

File page8.tif:
=== TIFF directory 0 ===
TIFF Directory at offset 0xdce40 (904768)
  Image Width: 1939 Image Length: 2883
  Resolution: 300, 300 pixels/inch
  Bits/Sample: 8
  Sample Format: unsigned integer
  Compression Scheme: LZW
  Photometric Interpretation: min-is-black
  Samples/Pixel: 1
  Planar Configuration: single image plane

Процесс получения изображения.
1. Со сканера получаю tif LZW.
2. Обрабатываю исходник в ScanTailor (ST) (жму текст в G4, картинки на странице оставляю tif LZW)
3. Обработанный образ экспортирую из ST в tif LZW.
Далее tif LZW распознаю и собираю в PDF/A посредством AFR server 14.
Вот такая схемка процесса по что...
upd... Не grayscale, ибо из EXIF читает свойства модели RGB.

~RA~ · 23.12.2024

themoloko сказал(а):
upd... Не grayscale, ибо из EXIF читает свойства модели RGB.

Я не понял, кто и что у вас читает, но RGB они быть не могут, ибо
Samples/Pixel: 1

~RA~ · 23.12.2024

themoloko сказал(а):
Далее tif LZW распознаю и собираю в PDF/A посредством AFR server 14.

Намного лучше опенсорсных решений распознаёт? Стоило покупать?
Вот, например, запихал в совершенно ненастроенный tesseract.

Flame · 23.12.2024

~RA~ сказал(а):
Намного лучше опенсорсных решений распознаёт? Стоило покупать?
Вот, например, запихал в совершенно ненастроенный tesseract.

там же дореформенная орфография, вроде тессеракт не алё

~RA~ · 23.12.2024

Flame сказал(а):
там же дореформенная орфография, вроде тессеракт не алё

Да, г... много будет. А FR её понимает?

George · 23.12.2024

themoloko сказал(а):
1. Со сканера получаю tif LZW.
2. Обрабатываю исходник в ScanTailor (ST) (жму текст в G4, картинки на странице оставляю tif LZW)
3. Обработанный образ экспортирую из ST в tif LZW.

Почему бы не сканировать сразу средствами файнридера?

Flame · 23.12.2024

~RA~ сказал(а):
Да, г... много будет. А FR её понимает?

Ага, довольно недурно:
КРУКОВСКІЙ, Феликсъ Антоновичъ
(Станиславовичъ), г.-м., бывш. наказн. атаманъ
Кавказ, лин. войска, герой Кавказ, войны,
род. въ 1804 г. въ Гродн. губ., воспитывался въ
іезуит. коллегіи, 8 снт. 1821 г. вступилъ въ службу
у.-оф-ромъ въ л.-гв. Подольск, кирас, п. и въ
1823 г. б. произв. въ 1-й офицер, чинъ; въ 1829 г.,
въ чинѣ пор-ка, К. б. переведенъ въ Татар, улан,
п., по расформ—ніи к-раго, въ 1833 г., въ чинѣ
кап-на, перешелъ въ Рижск. драг' п.; въ 1837 г.

[PDF] Вопросы по созданию PDF/A через FineReader v14 по v16

I wish I was the monster you think I am

I wish I was the monster you think I am

Не человек. Золото

🄯

Вложения

🄯

Не человек. Золото

🄯

🄯

Вложения

Участник

🄯

Не человек. Золото

Участник

Участник

Участник

🄯

🄯

Вложения

Unregistered user

🄯

I wish I was the monster you think I am

Unregistered user