Потеря качества изображений после использования ClearScan

  • Автор темы Автор темы xseed
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.

xseed

Участник
Топикстартер
Сообщения
118
Реакции
1
Здравствуйте всем!
Столкнулся с такой проблемой. Импортирую в Acrobat XI отсканированный 600 dpi ZIP TIF, сохраняю. Смотрю свойства файла утилитой pdinfotool для PStill. Смотрю качество получившегося изображения в PDF'е в поле Image DPI: 600 dpi, 1 img [Flate ]. Ну, думаю, Flate так Flate, вроде этот формат без потерь, пока нормально. Далее этот файл распознаю ClearScan через инструмент распознавание текста:
Язык русский, Стиль ClearScan, Понижение разрешения до 600 dpi. Опять сохраняю, смотрю свойства - бац, а тут уже: 600 dpi, 8 imgs [JPEG ]. Что делать? Как применить процедуру ClearScan, чтобы она не пережимала Flate в JPEG, а например, сохраняла получившийся бэкграунд во Flate или в JPX? Почему в программе нельзя изменить параметры этого процесса? Или можно? Кто-нибудь знает?

PS: К сожалению, кроме pdfinfotool, не смог найти нормальную утилиту для отображения свойств изображений в pdf :-(. Мало того, что она платная, так и показывает только dpi и формат. А меня интересует каков процент сжатия изображения в этом формате. Вот ClearScan сохранил в JPEG, а в каком качестве, хз. Если это нельзя настроить, я вообще выпаду в осадок...

Короче как узнать степень сжатия изображений в готовом pdf файле? Формат хранения изображений - JPEG, JPX (JPEG2000), FLATE - может дать прога pdfinfotool, а вот какой уровень сжатия в каждом из этих форматов? FLATE - понятно, запакованный lossless. А вот какой уровень сжатия в форматах JPEG, JPX - lossless, max, middle, low, min? Как узнать - не понятно.

PS: Да. у меня седня ДР, просьба не пинать ногами за кошерную дату :)
 
Ответ: Потеря качества изображений после использования ClearScan

Скажите честно: то что при проведении OCR акробат "жпегует" растр это для Вас критично?
 
Ответ: Потеря качества изображений после использования ClearScan

Нет уж не особо, но если это какой-нибудь JPEG low, то наверное, имеет смысл сохранить в JPX low, ведь последний по заверениям разработчиков обладает лучшим качеством и размером? Кстати, оптимизировать полученный ClearScan материал тоже получается не нужно? Зачем пережимать JPEG в JPEG2000 low, если все и так пережато (размер выходного файла уменьшился в 16 раз)?

Гораздо большее беспокойство у меня вызывает случай, когда я сжимаю скан 600 dpi tif в 300 dpi ClearScan. Во-первых, непонятно, какой downsample Acrobat выставляет в этом случае. При этом у меня съезжает весь типографский растр на цветном изображении (маленькие такие разноцетные точки струйника при увеличении до 800%, просто я не применял decreen-фильтр, т.к. не нашел пока) и превращаются в горстки съеженных пикселей. Что подскажете отдельно по этому вопросу?

Вот:
март-1996_008_FLATE.pdf _ttp://yadi.sk/d/E9ghZ1oc46jpA (оригинал)
март-1996_008_cl600_JPEG.pdf _ttp://yadi.sk/d/dESj9ptp46jmE (clearscan 600 оригинала)
март-1996_008_cl300_JPEG.pdf _ttp://yadi.sk/d/UnCNQa4G46jmQ (clearscan 300 оригинала)

Странно, но когда я сжимаю оригинал PDF-optimizer'ом просто без распознавания, в bicubic 300 dpi JPEG2000 low (это единственное, что может сравниться по размеру с март-1996_008_cl300_JPEG.pdf), так - март-1996_008_opt_300_jpx_low_JPX.pdf _ttp://yadi.sk/d/paWAjY7v46js0, получившиеся изображение хуже, чем март-1996_008_cl300_JPEG.pdf, хотя по размеру больше. Получается, что JPEG2000 хуже JPEG? Вряд ли, я конечно понимаю, что весь текст в изображении запаковывается в вектор, и поэтому становиться маленьким, но все же хотлось бы действительно увидеть clearscan с jpeg2000 сжатием... Эх, мечты, мечты...

Да и вы не ответили на вопрос. Как узнать степень сжатия jpeg-а в pdf - lossless, max, middle, low, min :)?
 
Ответ: Потеря качества изображений после использования ClearScan

При анализе большого файла 200 страниц, распознанного ClearScan 300 dpi, оказалось, что тип компрессии имеется и другой, а output dpi варьируется от 72 до 600 dpi:

71.9 - 600 dpi, 836 imgs [JPEG ,JPEG Flate ]

Как такое возможно? И что такое JPEG Flate? Алгоритм сжатия без потерь или с потерями?
 
Ответ: Потеря качества изображений после использования ClearScan

Jpeg - это всегда сжатие с потерями. Какой именно jpeg на выходе после распознавания можно глянуть в object inspector, по моему так называется окошко, извините, не с ПК пишу.
 
Ответ: Потеря качества изображений после использования ClearScan

Окошко Output Preview, это один из пунктов в его меню.
 
Ответ: Потеря качества изображений после использования ClearScan

Спасибо, что-то такого в Acrobat XI не припомню, но обязательно посмотрю, отпишу через пару дней.
 
Ответ: Потеря качества изображений после использования ClearScan

Ладно, спасибо, посмотрел Output Preview -> object inspector. По-видимому то, что нельзя посмотреть качество jpeg - это особенности алгоритма сжатия, нет такого поля, где написано качество сжатия. Если уже сжало, то потом не узнаешь, насколько.
 
Ответ: Потеря качества изображений после использования ClearScan

Этот плагин показывает качество:
http://www.quite.com/box/features.htm
 
Ответ: Потеря качества изображений после использования ClearScan

Пока джипег не подвергается сильным преобразованиям по тоновым кривым и идёт на офсет как есть - всё почти хорошо. Но когда начинаешь его корректировать под трафарет или вычитать фон - начинается ужас кошмарный.
 
Ответ: Потеря качества изображений после использования ClearScan

Спасибо за инфо, посмотрим. :)
 
Ответ: Потеря качества изображений после использования ClearScan

Скажите честно: то что при проведении OCR акробат "жпегует" растр это для Вас критично?
А если критично, как быть? Я делаю после ClearScan обрезку PDF инструментом Crop и затем, сохранив его как PScript, прогоняю его через Distiller, чтобы вычистить обрезки. Но проблема в том, что в настройках профиля joboptions Distiller необходимо указать качество изображений, подлежащих обрезке:
joboptions.jpg
Если указывать формат без потерь - получим раздутый файл на выходе, не годящийся для электронной книги. Если же выставим JPEG примерно с тем же Q-Factor, что и дает ClearScan (а это Q=10-25 , судя по 2-3% уровню компрессии JPEG в Quite a Box of Tricks), то при самом печальном раскладе после повторного сжатия получим потерю в качестве (по отношению к Qmax=100) от Q=10/100*10/100*100 = 1 до Q=25/100*25/100*100=12,5, т.е. качество снижается в диапазон от minimum до low. Похоже, что алгоритма jpegtrain Distiller при обрезке не использует.

Как-нибудь можно обойтись без JPEG-сжатия?
 
Но проблема в том, что в настройках профиля joboptions Distiller необходимо указать качество изображений, подлежащих обрезке:
Щито?
Этим пунктом настроек говорится, как жать картинки. Не более. Не "какие", а "как". Улавливаете разницу?
Как-нибудь можно обойтись без JPEG-сжатия?
Так вы уж определитесь, что нужно: сжимать или не сжимать.
Когда определитесь, что сжимать всё-таки нужно, то выбирайте тот формат, который дает наименьшее количество потерь. А это формат zip.
 
Щито?
Этим пунктом настроек говорится, как жать картинки. Не более. Не "какие", а "как". Улавливаете разницу?
Да, но есть еще один пункт в меню Advanced :)
joboptions-advanced.jpg
Например, я выставляю следующий профиль:
joboptions-jpeg2000_high.jpg
Вот двухстраничный PDF-файл.
http://yadi.sk/d/oVKUNWGTNKC65
Первая страница - в формате ZIP (импортированный TIF-файл), вторая - такая же, но распознанная ClearScan - изображение конвертируется им в формат JPEG, - можете проверить Quite a Box of Tricks. После прогона PScript через Distiller с указанным профилем изображение в формате ZIP переводится в JPEG2000 - это да, действительно,в любом случае, как вы и говорите. Но изображение JPEG со второй страницы остается в прежнем формате JPEG, так как оно не выходит за границы CropBox. Если же я удаляю эти белые скосы по краям с помощью инструмента обрезки Adobe Acrobat - Pages - Crop, то после прогона через Distiller изображение JPEG не обрезается без потерь, как в JPEGtrain, а конвертируется также в JPEG2000, как 1-я ZIP-страница. Но я заметил что это происходит не во всех случаях обрезки, то ли когда в область CropBox попадает изображение, то ли - когда попадают векторные объекты.
Вот результат:
http://yadi.sk/d/HZJ4WqQgNKHXV
binder1_crop_and_distiller_shot.jpg
Так вы уж определитесь, что нужно: сжимать или не сжимать.
Я имел ввиду повторное пересжатие с потерями Distiller'ом изображений в формате jpeg в формат jpeg2000. Алгоритма JPEGtrain Adobe тут не предусмотрела.
 
Последнее редактирование:
Извиняюсь что встреваю, тем более, не совсем пойму, что мыслится в оригинале - чтобы изображение не портилось при пережимании в процессе обработки, а в итоге было сжато алгоритмом JPEGtrain?
Так может, сперва конвертировать все в ZIP, обрабатывать в нем, а на самом последнем этапе все скопом в этот самый JPEGtrain перевести?
 
Извиняюсь что встреваю, тем более, не совсем пойму, что мыслится в оригинале - чтобы изображение не портилось при пережимании в процессе обработки, а в итоге было сжато алгоритмом JPEGtran?
Так может, сперва конвертировать все в ZIP, обрабатывать в нем, а на самом последнем этапе все скопом в этот самый JPEGtran перевести?

Дело в том, что Adobe такой опции не предусмотрела. Нет такой опции - конвертация JPEG без потерь, ни в Acrobat, ни в Distiller. Алгоритм JPEGtran реализован в программе JPEGcrops.
Насчет конвертации в ZIP - аналогично, Adobe такой опции в ClearScan не предусмотрела. ClearScan конвертит практически все (за исключением однотонных изображений) импортированные ZIP TIFF в JPEG low-medium, не предоставляя пользователю дальнейшей возможности редактирования материала без потерь, в том числе в сторонних приложениях.

Процедура ClearScan состоит из последовательности шагов:
Код:
Opening Images File as Adobe PDF
Optimizing
Preprocessing Image
Loading image
Deskewing Image
Rotating image
Decompositing Image
Recognizing
Postprocessing
Generating Output
Фактически, весь проход ClearScan действует автономно и в автоматическом режиме, без контроля участия пользователя. Т.е. пользователь не может влиять на шаги процедуры выполнения ClearScan.

Вот если бы было так, я думаю, не было проблем:
ClearScan_new.jpg ClearScan_new_2.jpg
 
Последнее редактирование:
То есть, я правильно понимаю, что если принудительно перевести в акробате все встроенные изображения в ZIP компрессию, то Clearscan все равно при обработке перекорежит их в JPEG low-medium и помешать этому невозможно, поскольку опция отсутствует?
 
Конченные адобовцы, да и весь остальной мир не предусмотрели jpeg без потерь.
 
  • Спасибо
Реакции: xseed
Ну я так понимаю, сам по себе этот ClearScan задуман, как средство для еще большего сжатия изображений, соответственно, они сами выбирают по ходу как в определенном случае будет оптимальнее.
 
Статус
Закрыто для дальнейших ответов.