Распухание размера .pdf после OCR (особенно Google Books, 15 -> 391 Mb)

  • Автор темы Автор темы gasyoun
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.

gasyoun

Санскритятина
Топикстартер
15 лет на форуме
Сообщения
926
Реакции
30
У меня книг .pdf целая коллекция. Книги по индийским языкам и лингвистике в целом.
Книги не только собираю, но и сканирую сам. Отсканировал тысячи страниц, разные редкости, словари - то есть знаю, что это такое и имею свои представление о том, почему .pdf, а не какой-нить очень компактный .djvu. Когда читаю книги, делаю OCR, чтобы интересные места иметь возможность выделать, подчеркывать.
Книга, отсканированная лично мною в ЧБ режиме проходит OCR за несколько минут - файл открывается быстро, книга помогает. Не больше 50-100 Мб, и то если это фолиант увеличенного размера больше 1000 страниц.
Но недавно заментил такую штуку. Файл 15 Мб после распознвания стал 391 Мб, а другие 2 и вовсе 1 гига дошли. WTF? Мало того, что JPEG2000 открывается каждая страница книги по полчаса, так еще такой размер? Чаще всего проблемы с книгами из Google Books. Что-то они там напортачили.
Если экспортировать файл через Adobe Professional как PDF уменьшенного размера можно снова вернуться к небольшым файлам, но уже размыто все, не красиво, не хорошо. Если экспортировать jpg файл по отдельности и заново собрать - тот же размер. Где выход? Что делать?
Пример испоганенной идеально четкой до этого книгой собственного скана.
 

Вложения

  • raspuhanie.jpg
    raspuhanie.jpg
    275 КБ · Просм.: 909
Для начала проведите аудит, а потом уже можно решать, что стоит оптимизировать.

PS. И, помнится, при OCR Acrobat плодит кучу шрифтов на каждую букву "Зю" свой,
после распознавания посмотрите свойства файла (Ctrl + D) > вкладка Fonts.
 

Вложения

  • Audit.jpg
    Audit.jpg
    83.8 КБ · Просм.: 1 122
В Acrobat (не ридер) есть встроенный аудит и оптимизация.
 
  • Спасибо
Реакции: zwer
встроенный аудит
Да, оказывается и в правду есть, спасибо, теперь понял.

плодит кучу шрифтов на каждую букву "Зю" свой
Судя по скриншоту адоб раздул картинки, шрифты же занимают весьма скромное место.

http://help.adobe.com/en_US/acrobat/X/pro/using/WS58a04a822e3e50102bd615109794195ff-7c86.w.html
Choose File > Save As > Optimized PDF - ни разу не видел даже сносного результата, в топку. Хотя видимо надо чудо-настройки подобрать :)

Нет ни слова про то, какие галочки подергать, чтобы без больших потерь сэкономить именно за счет размера картинок.

Проблемы интерактивного .pdf нам не ведомы. Им же не ведомы наши проблемы.

Вопрос - кто что путем экспериментов знает про настройки картинок, с какого окошечка начать?
 

Вложения

  • audit.jpg
    audit.jpg
    237.3 КБ · Просм.: 954
  • fonts.jpg
    fonts.jpg
    71 КБ · Просм.: 969
Вы искали Audit space usage, в хелпе написано где он. Успех от действий Optimizer я вам не обещал.

Проблемы интерактивного .pdf нам не ведомы.
То для печати интерактивный пишете, то не прочитав отвергаете увидев слово "интерактивный". :)

Choose File > Save As > Optimized PDF - ни разу не видел даже сносного результата, в топку.
Опять не разобравшись в топку.
 
Последнее редактирование:
Перевел в Greyscale 1.8, не помогло, JPEG 2000 как 2 секунды грузилась страница, так и грузится.
Нашел как избавиться от JPEG 2000 - видно на скриншоте. И сразу все грузится моментально.
Вместо 5.5 Мб книга весит 3.9, и даже без потери OCR слоя.
 

Вложения

  • pdf.jpg
    pdf.jpg
    100 КБ · Просм.: 989
Вот другой пример, снова ничего не получается.
djvu-vs-pdf-size.jpg изначальный .pdf сконвертированный из .djvu в разы меньше его. Но после OCR дошел до 300 Мб. Если сохранить как .pdf уменьшенного качества, то получим размазанную картинку с опцией OCR слоя почти того же размера, что и исходный файл. То есть 30 против 300. И тут не было никаких Jpeg2000, а все равно распух и я даже не знаю, как исправить положение.
 

Вложения

  • djvu-vs-pdf-size.jpg
    djvu-vs-pdf-size.jpg
    20.3 КБ · Просм.: 1 197
Смотрим 283 и 131 метров... ну разница в пару раз, правда причину нужно смотреть.
А вот что такое 30 я не понял.
 
А альтернативный режим ClearScan почему не используете? Зачем нужны растровые шрифты?
Еще есть plugin Quite ox of Tricks - он показывает размер, формат и уровень компрессии конкретного изображения на странице (OCR их делает несколько штук для каждой страницы, в зависимости от сложности верстки).
PS: А фильтры (выравнивание, удаление фона, растра, четкость) советую делать до распознавания в других приложениях - acrobat'овские весьма убоги и портят текст (тут индивидуальный подход к каждому изображению нужен).
 
Статус
Закрыто для дальнейших ответов.