[Acr XI] Вопросы по созданию PDF/A через FineReader v14 по v16

Намного лучше опенсорсных решений распознаёт? Стоило покупать?
Вот, например, запихал в совершенно ненастроенный tesseract.
Системный архитектор при проектировке информ-системы заложил AFR server 14, вот и появилась лицензия.
Покупать от контентАИ софт.... Кхм, посмотрел на цены, нууууууууууу.... жесть.
Намного лучше опенсорсных решений распознаёт? Стоило покупать?
Узнаю позже, сравнив доступные решения на рынке с AFR серваком - после, могу заделиться статистикой.
По качеству OCR у меня нет пока референса....
Меня подкупает наличие такого инструмента, как AFR server, продукт известный, и довольно неплохо распознаёт, им и пользовался всегда, поскольку есть лицензия. Возможно есть лучшие альтернативы?... Нужно исследовать.
Встала задача собирать из растра PDF с текстовым слоем минимальными временными и человеческими затратами, и тут... приехали... артефакты...

Подскажите пожалуйста, как бы Вы решали задачу из пункта 4 и каким опенсорсным софтом...

1. Со сканера получаем страницы tif LZW.
2. Обрабатываем страницы в ScanTailor (ST) (жму текст в G4, картинки на странице оставляю tif LZW)
3. Страницы экспортируем из ST в tif LZW.
4. Распознаём и собираем PDF в режиме пакетной сборки. (например, натравил на папку с растром, получили вывод в другую папку с PDF.
 
А смысл? Оставили бы тоже Grayscale, края были бы не такие рваные.
данных очень много, затраты на хранение данных возрастают... по этому выбрана гибридка - G4 текст, tif LZW картинки.
 
Последнее редактирование:
данных очень много, затраты на хранение данных возрастают... по этому выбрана гибридка - G4 текст, tif LZW картинки.
Нет у вас никакой гибридки. После сохранения в тифе только лзв.
 
1. Со сканера получаем страницы tif LZW.
Можно взглянуть?
И сравнить с результатом

экспортируем из ST в tif LZW.
То есть нужно 2 файла до и после шаманства в
 
  • Спасибо
Реакции: themoloko
Если собирать PDF из исходников TIF/G4 - то артефактов не наблюдается на любом софте
Может чего не понял, если собирать сначала в pdf, потом пихать в FR проблем не наблюдается?
 
  • Спасибо
Реакции: zollinger
Может чего не понял, если собирать сначала в pdf, потом пихать в FR проблем не наблюдается?
Нет, не так.
Если на вход AFR предоставить tif с сжатием G4 (black-and-white) - то проблем не наблюдается.
Если на вход предоставить tif LZW полученный из tif g4 - наблюдаются ореолы вокруг букв в виде россыпи серых пикселей.
 
артефактов jpg сжатия...
Похоже на то.. Но, с какого перепуга баг проявляется только на page8?... Выходит AFR обрабатывает page7 по другому алгоритму?
И с какого перепуга AFR server 14 и AFR 16 - артефакты валят, а AFR15 нет.
Глянул dll'ки от AFR16, AFR15, AFR server 14... AFR server 14 и AFR 16 очень похожи по набору библиотек.
В AFR15 набор библиотек меньше....
Ох уж эти форточки закрытые..
Вот у меня диссонанс от всего увиденного, знаний расковырять глубоко PDF и TIFF пока не хватает, подтягиваю..
Ковырять либы от виндузового AFR совсем уж душно будет))))..
 
Это не то, что Вы хотите?
 

Вложения

  • Спасибо
Реакции: themoloko
Потому что в настройках стоит не пережимать g4. Загляните в них.
Ага, видел, в акробате это настраивается, в AFR не нашёл настроек этих, ощущение, что по умолчанию в AFR используется сжатие с потерями.. Но... С какого перепуга AFR server 14 и AFR 16 - артефакты валят, а AFR15 нет.
 
  • Спасибо
Реакции: themoloko
  • Ого!
Реакции: ~RA~
Что-то ты намудрил, имхо.
Есть подозрение, что в FR не удастся без танцев с бубном убрать сжатие... искал способ халявно, быстро и одной кнопкой :)
Больно тяжёлый файл получился.
Ну вот так...
PDF/A кстати, требование?
 

Вложения

Из того супового набора что Вы дали. Удалил изображения, из Вашего, создал файл с изображениями из тиф, слил 2 файла.

cpdf
ууууух.... рядовой пользователь данный метод не осилит..