- Сообщения
- 17 574
- Реакции
- 7 937
В КонтентАИ проверь.
У меня нет православной новой версии.(у меня FR15 бессрочка).
В КонтентАИ проверь.
У меня нет православной новой версии.(у меня FR15 бессрочка).
FR14 и выше этоДа где там про OCR?
Мало ли что у него в поставке. Например, каждя человеческая черепушка поставляется вместе с мозгами, но не каждый пользуется.ocr в комплекте поставки
Я упустил, что там распознанный текст. Увидел про tiff'ыДа нормальный выбор. Лучше Акробата, имхо.
сильно меньше зато.
Подскажите пожалуйста, каким софтом вы расковыряли pdf и получили эти данные?Как запроектировали разработчики софта. Обычно пережимается.
Вот, например, что внутри вашего pdf на самом деле.
Код:page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio -------------------------------------------------------------------------------------------- 1 0 image 1939 2883 icc 1 1 jbig2 no 30 0 300 300 30.5K 4.5% 1 1 image 1666 804 icc 1 8 jpeg no 36 0 300 300 479K 37% 1 2 image 811 1023 icc 1 8 jpeg no 42 0 300 300 285K 35% 2 3 image 1939 2883 icc 1 8 jpeg no 79 0 300 300 1752K 32% 2 4 image 487 622 icc 1 8 jpeg no 85 0 300 300 124K 42% 2 5 image 484 616 icc 1 8 jpeg no 91 0 300 300 91.6K 31%
Почему не эксель или танчики?
А оно вам точно надо?Подскажите пожалуйста, каким софтом вы расковыряли pdf и получили эти данные?
в приложенном pdf. FR делает pdf из битмапа и сверху распознанный текст.
Я из России, в профиле указан город)... Не стал напрямую в ABBY писать, ибо много нового-староuо не охота услышать.. ну вы поняли.Вот и работайте с ним. В версии 16 и его русском клоне ровным счётом ничего интересного не было добавлено, окромя рабской модели лицензирования "ежегодно".
Вы не из России? В РФ эта версия не продаётся и не будет, скорее всего, больше никогда продаваться и Вы не можете её использовать на территории РФ.
Теперь это продукт с др. названием, если надо прям новую версию и платить каждый год ("ContentAI" - курить в гугле).
точно надо, погружаюсь глубже)) Спасибо за ссылочку!А оно вам точно надо?
Процесс получения изображения.Это как?
У вас обычные grayscale файлы с lzw компрессией.
Код:File page7.tif: === TIFF directory 0 === TIFF Directory at offset 0x20408c (2113676) Image Width: 1939 Image Length: 2883 Resolution: 300, 300 pixels/inch Bits/Sample: 8 Sample Format: unsigned integer Compression Scheme: LZW Photometric Interpretation: min-is-black Samples/Pixel: 1 Planar Configuration: single image plane File page8.tif: === TIFF directory 0 === TIFF Directory at offset 0xdce40 (904768) Image Width: 1939 Image Length: 2883 Resolution: 300, 300 pixels/inch Bits/Sample: 8 Sample Format: unsigned integer Compression Scheme: LZW Photometric Interpretation: min-is-black Samples/Pixel: 1 Planar Configuration: single image plane
Я не понял, кто и что у вас читает, но RGB они быть не могут, ибоupd... Не grayscale, ибо из EXIF читает свойства модели RGB.
Samples/Pixel: 1
Намного лучше опенсорсных решений распознаёт? Стоило покупать?Далее tif LZW распознаю и собираю в PDF/A посредством AFR server 14.
там же дореформенная орфография, вроде тессеракт не алёНамного лучше опенсорсных решений распознаёт? Стоило покупать?
Вот, например, запихал в совершенно ненастроенный tesseract.
Да, г... много будет. А FR её понимает?там же дореформенная орфография, вроде тессеракт не алё
Почему бы не сканировать сразу средствами файнридера?1. Со сканера получаю tif LZW.
2. Обрабатываю исходник в ScanTailor (ST) (жму текст в G4, картинки на странице оставляю tif LZW)
3. Обработанный образ экспортирую из ST в tif LZW.
Ага, довольно недурно:Да, г... много будет. А FR её понимает?