Потеря качества изображений после использования ClearScan

Статус
Закрыто для дальнейших ответов.

xseed

Участник
Топикстартер
Сообщения
118
Реакции
1
Здравствуйте всем!
Столкнулся с такой проблемой. Импортирую в Acrobat XI отсканированный 600 dpi ZIP TIF, сохраняю. Смотрю свойства файла утилитой pdinfotool для PStill. Смотрю качество получившегося изображения в PDF'е в поле Image DPI: 600 dpi, 1 img [Flate ]. Ну, думаю, Flate так Flate, вроде этот формат без потерь, пока нормально. Далее этот файл распознаю ClearScan через инструмент распознавание текста:
Язык русский, Стиль ClearScan, Понижение разрешения до 600 dpi. Опять сохраняю, смотрю свойства - бац, а тут уже: 600 dpi, 8 imgs [JPEG ]. Что делать? Как применить процедуру ClearScan, чтобы она не пережимала Flate в JPEG, а например, сохраняла получившийся бэкграунд во Flate или в JPX? Почему в программе нельзя изменить параметры этого процесса? Или можно? Кто-нибудь знает?

PS: К сожалению, кроме pdfinfotool, не смог найти нормальную утилиту для отображения свойств изображений в pdf :(. Мало того, что она платная, так и показывает только dpi и формат. А меня интересует каков процент сжатия изображения в этом формате. Вот ClearScan сохранил в JPEG, а в каком качестве, хз. Если это нельзя настроить, я вообще выпаду в осадок...

Короче как узнать степень сжатия изображений в готовом pdf файле? Формат хранения изображений - JPEG, JPX (JPEG2000), FLATE - может дать прога pdfinfotool, а вот какой уровень сжатия в каждом из этих форматов? FLATE - понятно, запакованный lossless. А вот какой уровень сжатия в форматах JPEG, JPX - lossless, max, middle, low, min? Как узнать - не понятно.

PS: Да. у меня седня ДР, просьба не пинать ногами за кошерную дату :)
 

George

I wish I was a monster you think I am
15 лет на форуме
Сообщения
17 323
Реакции
7 870
Ответ: Потеря качества изображений после использования ClearScan

Скажите честно: то что при проведении OCR акробат "жпегует" растр это для Вас критично?
 

xseed

Участник
Топикстартер
Сообщения
118
Реакции
1
Ответ: Потеря качества изображений после использования ClearScan

Нет уж не особо, но если это какой-нибудь JPEG low, то наверное, имеет смысл сохранить в JPX low, ведь последний по заверениям разработчиков обладает лучшим качеством и размером? Кстати, оптимизировать полученный ClearScan материал тоже получается не нужно? Зачем пережимать JPEG в JPEG2000 low, если все и так пережато (размер выходного файла уменьшился в 16 раз)?

Гораздо большее беспокойство у меня вызывает случай, когда я сжимаю скан 600 dpi tif в 300 dpi ClearScan. Во-первых, непонятно, какой downsample Acrobat выставляет в этом случае. При этом у меня съезжает весь типографский растр на цветном изображении (маленькие такие разноцетные точки струйника при увеличении до 800%, просто я не применял decreen-фильтр, т.к. не нашел пока) и превращаются в горстки съеженных пикселей. Что подскажете отдельно по этому вопросу?

Вот:
март-1996_008_FLATE.pdf _ttp://yadi.sk/d/E9ghZ1oc46jpA (оригинал)
март-1996_008_cl600_JPEG.pdf _ttp://yadi.sk/d/dESj9ptp46jmE (clearscan 600 оригинала)
март-1996_008_cl300_JPEG.pdf _ttp://yadi.sk/d/UnCNQa4G46jmQ (clearscan 300 оригинала)

Странно, но когда я сжимаю оригинал PDF-optimizer'ом просто без распознавания, в bicubic 300 dpi JPEG2000 low (это единственное, что может сравниться по размеру с март-1996_008_cl300_JPEG.pdf), так - март-1996_008_opt_300_jpx_low_JPX.pdf _ttp://yadi.sk/d/paWAjY7v46js0, получившиеся изображение хуже, чем март-1996_008_cl300_JPEG.pdf, хотя по размеру больше. Получается, что JPEG2000 хуже JPEG? Вряд ли, я конечно понимаю, что весь текст в изображении запаковывается в вектор, и поэтому становиться маленьким, но все же хотлось бы действительно увидеть clearscan с jpeg2000 сжатием... Эх, мечты, мечты...

Да и вы не ответили на вопрос. Как узнать степень сжатия jpeg-а в pdf - lossless, max, middle, low, min :)?
 

xseed

Участник
Топикстартер
Сообщения
118
Реакции
1
Ответ: Потеря качества изображений после использования ClearScan

При анализе большого файла 200 страниц, распознанного ClearScan 300 dpi, оказалось, что тип компрессии имеется и другой, а output dpi варьируется от 72 до 600 dpi:

71.9 - 600 dpi, 836 imgs [JPEG ,JPEG Flate ]

Как такое возможно? И что такое JPEG Flate? Алгоритм сжатия без потерь или с потерями?
 

George

I wish I was a monster you think I am
15 лет на форуме
Сообщения
17 323
Реакции
7 870
Ответ: Потеря качества изображений после использования ClearScan

Jpeg - это всегда сжатие с потерями. Какой именно jpeg на выходе после распознавания можно глянуть в object inspector, по моему так называется окошко, извините, не с ПК пишу.
 

suntory

Administrator
15 лет на форуме
Сообщения
23 431
Реакции
12 477
Ответ: Потеря качества изображений после использования ClearScan

Окошко Output Preview, это один из пунктов в его меню.
 

xseed

Участник
Топикстартер
Сообщения
118
Реакции
1
Ответ: Потеря качества изображений после использования ClearScan

Спасибо, что-то такого в Acrobat XI не припомню, но обязательно посмотрю, отпишу через пару дней.
 

xseed

Участник
Топикстартер
Сообщения
118
Реакции
1
Ответ: Потеря качества изображений после использования ClearScan

Ладно, спасибо, посмотрел Output Preview -> object inspector. По-видимому то, что нельзя посмотреть качество jpeg - это особенности алгоритма сжатия, нет такого поля, где написано качество сжатия. Если уже сжало, то потом не узнаешь, насколько.
 

suntory

Administrator
15 лет на форуме
Сообщения
23 431
Реакции
12 477
Ответ: Потеря качества изображений после использования ClearScan

Этот плагин показывает качество:
http://www.quite.com/box/features.htm
 

ch_alex

Погулять вышел.
15 лет на форуме
Сообщения
8 420
Реакции
2 709
Ответ: Потеря качества изображений после использования ClearScan

Пока джипег не подвергается сильным преобразованиям по тоновым кривым и идёт на офсет как есть - всё почти хорошо. Но когда начинаешь его корректировать под трафарет или вычитать фон - начинается ужас кошмарный.
 

xseed

Участник
Топикстартер
Сообщения
118
Реакции
1
Ответ: Потеря качества изображений после использования ClearScan

Спасибо за инфо, посмотрим. :)
 

xseed

Участник
Топикстартер
Сообщения
118
Реакции
1
Ответ: Потеря качества изображений после использования ClearScan

Скажите честно: то что при проведении OCR акробат "жпегует" растр это для Вас критично?
А если критично, как быть? Я делаю после ClearScan обрезку PDF инструментом Crop и затем, сохранив его как PScript, прогоняю его через Distiller, чтобы вычистить обрезки. Но проблема в том, что в настройках профиля joboptions Distiller необходимо указать качество изображений, подлежащих обрезке:
joboptions.jpg
Если указывать формат без потерь - получим раздутый файл на выходе, не годящийся для электронной книги. Если же выставим JPEG примерно с тем же Q-Factor, что и дает ClearScan (а это Q=10-25 , судя по 2-3% уровню компрессии JPEG в Quite a Box of Tricks), то при самом печальном раскладе после повторного сжатия получим потерю в качестве (по отношению к Qmax=100) от Q=10/100*10/100*100 = 1 до Q=25/100*25/100*100=12,5, т.е. качество снижается в диапазон от minimum до low. Похоже, что алгоритма jpegtrain Distiller при обрезке не использует.

Как-нибудь можно обойтись без JPEG-сжатия?
 

Jeine

Да здравствует разум! Да сгинет маразм!
15 лет на форуме
Сообщения
7 310
Реакции
6 315
Но проблема в том, что в настройках профиля joboptions Distiller необходимо указать качество изображений, подлежащих обрезке:
Щито?
Этим пунктом настроек говорится, как жать картинки. Не более. Не "какие", а "как". Улавливаете разницу?
Как-нибудь можно обойтись без JPEG-сжатия?
Так вы уж определитесь, что нужно: сжимать или не сжимать.
Когда определитесь, что сжимать всё-таки нужно, то выбирайте тот формат, который дает наименьшее количество потерь. А это формат zip.
 

xseed

Участник
Топикстартер
Сообщения
118
Реакции
1
Щито?
Этим пунктом настроек говорится, как жать картинки. Не более. Не "какие", а "как". Улавливаете разницу?
Да, но есть еще один пункт в меню Advanced :)
joboptions-advanced.jpg
Например, я выставляю следующий профиль:
joboptions-jpeg2000_high.jpg
Вот двухстраничный PDF-файл.
http://yadi.sk/d/oVKUNWGTNKC65
Первая страница - в формате ZIP (импортированный TIF-файл), вторая - такая же, но распознанная ClearScan - изображение конвертируется им в формат JPEG, - можете проверить Quite a Box of Tricks. После прогона PScript через Distiller с указанным профилем изображение в формате ZIP переводится в JPEG2000 - это да, действительно,в любом случае, как вы и говорите. Но изображение JPEG со второй страницы остается в прежнем формате JPEG, так как оно не выходит за границы CropBox. Если же я удаляю эти белые скосы по краям с помощью инструмента обрезки Adobe Acrobat - Pages - Crop, то после прогона через Distiller изображение JPEG не обрезается без потерь, как в JPEGtrain, а конвертируется также в JPEG2000, как 1-я ZIP-страница. Но я заметил что это происходит не во всех случаях обрезки, то ли когда в область CropBox попадает изображение, то ли - когда попадают векторные объекты.
Вот результат:
http://yadi.sk/d/HZJ4WqQgNKHXV
binder1_crop_and_distiller_shot.jpg
Так вы уж определитесь, что нужно: сжимать или не сжимать.
Я имел ввиду повторное пересжатие с потерями Distiller'ом изображений в формате jpeg в формат jpeg2000. Алгоритма JPEGtrain Adobe тут не предусмотрела.
 
Последнее редактирование:

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
Извиняюсь что встреваю, тем более, не совсем пойму, что мыслится в оригинале - чтобы изображение не портилось при пережимании в процессе обработки, а в итоге было сжато алгоритмом JPEGtrain?
Так может, сперва конвертировать все в ZIP, обрабатывать в нем, а на самом последнем этапе все скопом в этот самый JPEGtrain перевести?
 

xseed

Участник
Топикстартер
Сообщения
118
Реакции
1
Извиняюсь что встреваю, тем более, не совсем пойму, что мыслится в оригинале - чтобы изображение не портилось при пережимании в процессе обработки, а в итоге было сжато алгоритмом JPEGtran?
Так может, сперва конвертировать все в ZIP, обрабатывать в нем, а на самом последнем этапе все скопом в этот самый JPEGtran перевести?

Дело в том, что Adobe такой опции не предусмотрела. Нет такой опции - конвертация JPEG без потерь, ни в Acrobat, ни в Distiller. Алгоритм JPEGtran реализован в программе JPEGcrops.
Насчет конвертации в ZIP - аналогично, Adobe такой опции в ClearScan не предусмотрела. ClearScan конвертит практически все (за исключением однотонных изображений) импортированные ZIP TIFF в JPEG low-medium, не предоставляя пользователю дальнейшей возможности редактирования материала без потерь, в том числе в сторонних приложениях.

Процедура ClearScan состоит из последовательности шагов:
Код:
Opening Images File as Adobe PDF
Optimizing
Preprocessing Image
Loading image
Deskewing Image
Rotating image
Decompositing Image
Recognizing
Postprocessing
Generating Output
Фактически, весь проход ClearScan действует автономно и в автоматическом режиме, без контроля участия пользователя. Т.е. пользователь не может влиять на шаги процедуры выполнения ClearScan.

Вот если бы было так, я думаю, не было проблем:
ClearScan_new.jpg ClearScan_new_2.jpg
 
Последнее редактирование:

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
То есть, я правильно понимаю, что если принудительно перевести в акробате все встроенные изображения в ZIP компрессию, то Clearscan все равно при обработке перекорежит их в JPEG low-medium и помешать этому невозможно, поскольку опция отсутствует?
 

George

I wish I was a monster you think I am
15 лет на форуме
Сообщения
17 323
Реакции
7 870
Конченные адобовцы, да и весь остальной мир не предусмотрели jpeg без потерь.
 
  • Спасибо
Реакции: xseed

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
Ну я так понимаю, сам по себе этот ClearScan задуман, как средство для еще большего сжатия изображений, соответственно, они сами выбирают по ходу как в определенном случае будет оптимальнее.
 
Статус
Закрыто для дальнейших ответов.