[Acr 9 и ранее] Как убрать большой bitmap с каждой страницы PDF файла автоматически?

YoungDesigner

Участник
Топикстартер
Сообщения
95
Реакции
1
Добрый день.
Столкнулся с такой проблемой.
Есть интересная книжка, купленная на свои кровные на озоне. в ПДФ формате.
В книге 500 страниц, и по непонятной мне причине, каждая страница содержит свою же копию, но в bitmap хорошего разрешения (что-то около 4500х3500 пикселей). Что делает файл практически нечитаемым - пролистывание страниц сильно тормозит даже на мощном компьютере.
Идея с удалением всех картинок (через копирование и сохранение текста) не работает, так как в книге также есть картинки-иллюстрации.
Возможно, в природе есть утилита или метод, который позволяет запустить алгоритм типа "найти и удалить все картинки с разрешением выше ххх на ууу пикселей в файле zzz.pdf" ?

Заранее благодарю.
 

Gad

Сообщения
2 971
Реакции
1 405
выложите пару страниц книги для примера
 

YoungDesigner

Участник
Топикстартер
Сообщения
95
Реакции
1
Прикрепляю, отрезал через майкрософтовский пдф принтер, он поделил ту картинку-копию на несколько частей. Чем отрезать так, чтоб не испортить исходное форматирование?
 

Вложения

  • sample.pdf
    1.7 МБ · Просм.: 172

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 138
Реакции
10 835
А зачем майкрософтовский принтер? У вас же, как вы сказали, книга в PDF, акробатом страницу и вырежте. А вообще говоря, питстоп, по-моему, умеет то что вам надо.
 

YoungDesigner

Участник
Топикстартер
Сообщения
95
Реакции
1
Вот, отрезал через другой сплиттер, тут вроде оригинальное форматирование сохранено.
 

Вложения

  • 46_PDFsam_23641_f5e1817e2c9adad614ab6fe4f5e8766e.pdf
    68.4 КБ · Просм.: 169

Gad

Сообщения
2 971
Реакции
1 405
Не выйдет, контент разный
2021-01-16_11-44-38.png
 

suntory

Administrator
15 лет на форуме
Сообщения
23 349
Реакции
12 401
Это скан после OCR с текстовым слоем под картинками, без них будет немного не то, нельзя их просто удалить без потери читаемости.
1610786801813.png
 
  • Спасибо
Реакции: Gad

YoungDesigner

Участник
Топикстартер
Сообщения
95
Реакции
1
А без установки акробата - никак? что-то простое подошло бы :)
 

YoungDesigner

Участник
Топикстартер
Сообщения
95
Реакции
1
Я открыл в кореле, там два больших битмапа, один - полная копия, его удаляю, второй с картинками, его переношу за текст. Вроде всё нормально, но это всё в ручную, а там 500 страниц. И ещё одна непонятка, импортирую в корел "текст как кривые", а он всё равно какие-то шрифты просит, и некоторые тексты таки крякозябрами.
 

Вложения

  • corel-pdf.pdf
    799.9 КБ · Просм.: 192

Gad

Сообщения
2 971
Реакции
1 405
Можно сделать наоборот, убрать результат работы OCR и слить картинки, по идее файл полегчает.
 

Gad

Сообщения
2 971
Реакции
1 405
Вы просто не все скачали :)
2021-01-16_12-51-40.png


Догадаться же не сложно... :) chapter-1 заменить на chapter-2 и т.д. :) Всего 9 глав...
Ну и на закуску '))'
 
Последнее редактирование:

YoungDesigner

Участник
Топикстартер
Сообщения
95
Реакции
1
Нда, всё-таки возраст - коварная штука. Допустим, с этой книжкой разобрались, а вообще как быть? нет такой оболочки, в которой элементы пдф файла были бы как отдельные объекты, и к ним можно было бы применять всякие правила?
 

DrEgor

Участник
Сообщения
747
Реакции
68
Нда, всё-таки возраст - коварная штука. Допустим, с этой книжкой разобрались, а вообще как быть? нет такой оболочки, в которой элементы пдф файла были бы как отдельные объекты, и к ним можно было бы применять всякие правила?
Pitstop умеет делить на картинки. текст, вектор и т.д. Он много чего умеет. :)
 

suntory

Administrator
15 лет на форуме
Сообщения
23 349
Реакции
12 401
Acrobat и сам по себе умеет. Только все равно непонятно какое правило применять к ненужному тексту под картинками и как оставить нужные куски сканов с рисунками.