Распухание размера .pdf после OCR (особенно Google Books, 15 -> 391 Mb)

gasyoun · 08.07.2013

У меня книг .pdf целая коллекция. Книги по индийским языкам и лингвистике в целом.
Книги не только собираю, но и сканирую сам. Отсканировал тысячи страниц, разные редкости, словари - то есть знаю, что это такое и имею свои представление о том, почему .pdf, а не какой-нить очень компактный .djvu. Когда читаю книги, делаю OCR, чтобы интересные места иметь возможность выделать, подчеркывать.
Книга, отсканированная лично мною в ЧБ режиме проходит OCR за несколько минут - файл открывается быстро, книга помогает. Не больше 50-100 Мб, и то если это фолиант увеличенного размера больше 1000 страниц.
Но недавно заментил такую штуку. Файл 15 Мб после распознвания стал 391 Мб, а другие 2 и вовсе 1 гига дошли. WTF? Мало того, что JPEG2000 открывается каждая страница книги по полчаса, так еще такой размер? Чаще всего проблемы с книгами из Google Books. Что-то они там напортачили.
Если экспортировать файл через Adobe Professional как PDF уменьшенного размера можно снова вернуться к небольшым файлам, но уже размыто все, не красиво, не хорошо. Если экспортировать jpg файл по отдельности и заново собрать - тот же размер. Где выход? Что делать?
Пример испоганенной идеально четкой до этого книгой собственного скана.

DmitS · 08.07.2013

Для начала проведите аудит, а потом уже можно решать, что стоит оптимизировать.

PS. И, помнится, при OCR Acrobat плодит кучу шрифтов на каждую букву "Зю" свой,
после распознавания посмотрите свойства файла (Ctrl + D) > вкладка Fonts.

gasyoun · 08.07.2013

DmitS сказал(а):
проведите аудит

Чем? https://code.google.com/p/pdfsizeopt/ ?

Dmitrij M · 08.07.2013

В Acrobat (не ридер) есть встроенный аудит и оптимизация.

suntory · 08.07.2013

http://help.adobe.com/en_US/acrobat/X/pro/using/WS58a04a822e3e50102bd615109794195ff-7c86.w.html
http://help.adobe.com/ru_RU/acrobat/X/pro/using/WS58a04a822e3e50102bd615109794195ff-7c86.w.html
http://blogs.adobe.com/acrobatineducation/2010/02/get_rid_of_that_bloat_in_your.html
http://forum.rudtp.ru/threads/obem-fajla-interaktivnogo-pdf.46466/

gasyoun · 08.07.2013

dimon222 сказал(а):
встроенный аудит

Да, оказывается и в правду есть, спасибо, теперь понял.

DmitS сказал(а):
плодит кучу шрифтов на каждую букву "Зю" свой

Судя по скриншоту адоб раздул картинки, шрифты же занимают весьма скромное место.

suntory сказал(а):
http://help.adobe.com/en_US/acrobat/X/pro/using/WS58a04a822e3e50102bd615109794195ff-7c86.w.html

http://help.adobe.com/en_US/acrobat/X/pro/using/WS58a04a822e3e50102bd615109794195ff-7c86.w.html
Choose File > Save As > Optimized PDF - ни разу не видел даже сносного результата, в топку. Хотя видимо надо чудо-настройки подобрать

suntory сказал(а):
http://blogs.adobe.com/acrobatineducation/2010/02/get_rid_of_that_bloat_in_your.html

Нет ни слова про то, какие галочки подергать, чтобы без больших потерь сэкономить именно за счет размера картинок.

suntory сказал(а):
http://forum.rudtp.ru/threads/obem-fajla-interaktivnogo-pdf.46466/

Проблемы интерактивного .pdf нам не ведомы. Им же не ведомы наши проблемы.

Вопрос - кто что путем экспериментов знает про настройки картинок, с какого окошечка начать?

suntory · 08.07.2013

Вы искали Audit space usage, в хелпе написано где он. Успех от действий Optimizer я вам не обещал.

gasyoun сказал(а):
Проблемы интерактивного .pdf нам не ведомы.

То для печати интерактивный пишете, то не прочитав отвергаете увидев слово "интерактивный".

gasyoun сказал(а):
Choose File > Save As > Optimized PDF - ни разу не видел даже сносного результата, в топку.

Опять не разобравшись в топку.

gasyoun · 13.07.2013

Перевел в Greyscale 1.8, не помогло, JPEG 2000 как 2 секунды грузилась страница, так и грузится.
Нашел как избавиться от JPEG 2000 - видно на скриншоте. И сразу все грузится моментально.
Вместо 5.5 Мб книга весит 3.9, и даже без потери OCR слоя.

gasyoun · 04.08.2013

Вот другой пример, снова ничего не получается.
djvu-vs-pdf-size.jpg изначальный .pdf сконвертированный из .djvu в разы меньше его. Но после OCR дошел до 300 Мб. Если сохранить как .pdf уменьшенного качества, то получим размазанную картинку с опцией OCR слоя почти того же размера, что и исходный файл. То есть 30 против 300. И тут не было никаких Jpeg2000, а все равно распух и я даже не знаю, как исправить положение.

splxgf · 04.08.2013

Смотрим 283 и 131 метров... ну разница в пару раз, правда причину нужно смотреть.
А вот что такое 30 я не понял.

gasyoun · 04.08.2013

splxgf сказал(а):
283 и 131 метров.

Это разница между .pdf и .djvu в пользцу .pdf . Обычно происходит наоборот.

splxgf сказал(а):
что такое 30

Если этот же .pdf сохранить в уменьшенном качестве - получим 30 Мб.

xseed · 08.05.2014

А альтернативный режим ClearScan почему не используете? Зачем нужны растровые шрифты?
Еще есть plugin Quite ox of Tricks - он показывает размер, формат и уровень компрессии конкретного изображения на странице (OCR их делает несколько штук для каждой страницы, в зависимости от сложности верстки).
PS: А фильтры (выравнивание, удаление фона, растра, четкость) советую делать до распознавания в других приложениях - acrobat'овские весьма убоги и портят текст (тут индивидуальный подход к каждому изображению нужен).

Поиск

Распухание размера .pdf после OCR (особенно Google Books, 15 -> 391 Mb)

gasyoun

Санскритятина

Вложения

DmitS

В бане

Вложения

gasyoun

Санскритятина

Dmitrij M

suntory

Administrator

gasyoun

Санскритятина

Вложения

suntory

Administrator

gasyoun

Санскритятина

Вложения

gasyoun

Санскритятина

Вложения

splxgf

gasyoun

Санскритятина

xseed

Участник