Как «разобрать» PDF на исходные файлы?

  • Автор темы Автор темы SaveFileAs
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.

SaveFileAs

Топикстартер
15 лет на форуме
Сообщения
183
Реакции
6
Если PDF был создан командой Combine Files into PDF из сканированных джипегов, то cуществует ли какой-нибудь способ разобрать обратно такой PDF на исходные файлы без потери качества, с возвращением им исходных имен и остальных аттрибутов?
 
Ответ: Как «разобрать» PDF на исходные файлы?

Advanced->Document Processing->Export all images
 
Ответ: Как «разобрать» PDF на исходные файлы?

Advanced->Document Processing->Export all images
Я протестировал эту функцию — исходные JPG-файлы отличаются по размеру от экспортированных. Кроме того несколько раз случались сбои. То экспортировались не все страницы, то некоторые картинки оказывались поврежденными.

У имиджей в PDF больше нет имен.
В том-то и дело, что на вкладке Bookmarks такого PDF'a я вижу исходные имена файлов.
 
Ответ: Как «разобрать» PDF на исходные файлы?

У имиджей в PDF больше нет имен.
Ну мало ли, может при комбинировании имена файлов в закладках дублируются?
Вообще говоря, подобная тема, кажется уже была, снова чувство дежавю.

Я протестировал эту функцию — исходные JPG-файлы отличаются по размеру от экспортированных. Кроме того несколько раз случались сбои. То экспортировались не все страницы, то некоторые картинки оказывались поврежденными.
Тогда, разве что, самому писать скрипт, который будет разгребать PDF по жпеговским маркерам, тоже здесь говорили об этом.
 
Ответ: Как «разобрать» PDF на исходные файлы?

С ходу не найду. Общий смысл в двух словах: изображения JPEG начинаются и завершаются специальными маркерами FF D8 (FF E0) и FF D9. Соответственно то, что между этими маркерами - сам JPEG, можно смело вырезать и записывать в файл. Естественно, способ тоже не 100% надежный, зато, PDF можно даже не открывать
 
Ответ: Как «разобрать» PDF на исходные файлы?

У jpeg'ов бывают встроенные в файл превьюшки, иногда несколько, и тоже в формате jpeg (с тем же началом и концом), с такими jpeg'ами можно выловить превьюшку вместо файла в котором она содержится.
Существуют программки выкусывающие ресурсы из файлов по сигнатурам, например древний BitmapRip, лень искать современные.
 
Ответ: Как «разобрать» PDF на исходные файлы?

Дык, и я о том же. К примеру, фотошоповские жпеги аж на три секции бьются таким образом. Но я только общую идею кинул, в случае комбинированного файла можно и критерий получше придумать. Скажем, маркер начала - "stream" 0D 0A FF D8, конца FF D9 0D 0A "endstream" То же самое и с именами исходных файлов - они помечены маркером /Title. Правда, там еще с порядком следования разобраться надо, но все равно, простая регэксповская задачка.
А вообще, все таки, так и не пойму, чем родной Export all images не устраивает. Попробовал его на комбинированных PDF - разгребает на ура превосходно, причем один к одному. Возможно, при комбинировании в PDF, качество потерялось? Там ведь можно степень указывать. Так тогда, и вправду ничего сделать нельзя - фарш невозможно провернуть назад. Или примерчик в студию киньте что ли?
 
Ответ: Как «разобрать» PDF на исходные файлы?

чем родной Export all images не устраивает.
Возможно тем, что при экспорте выпрыгивает окошко с установкой необходимых параметров экспорта в джипег - и качество и разрешение... А вот если выбрать экспорт в тифф - то все нормуль. Но топикстартеру, как впрочем и мне тоже))))), надо исходный джипег.
 
Ответ: Как «разобрать» PDF на исходные файлы?

Возможно тем, что при экспорте выпрыгивает окошко с установкой необходимых параметров экспорта в джипег
Где выпрыгивает? У меня не выпрыгивает ничего! Более того, там есть хитрая кнопочка Settings, так когда ее жмешь специально сверху написано: Images that already have JPEG compression will be left unchanged, специально для сомневающихся.
 
Ответ: Как «разобрать» PDF на исходные файлы?

Ну да, сорри, сама не выпрыгивает, это у меня рука по привычке жмет на автомате всякие сеттинги:)
Кстати, заработало как надо, спасибо, взял на вооружение.
 
Ответ: Как «разобрать» PDF на исходные файлы?

The Unarchiver Версия 3.6.1 распаковывает PDFы, считая их архивами. Результат весьма интересен.
 
Ответ: Как «разобрать» PDF на исходные файлы?

Для винды он существует?

Update
Похоже, что нет.
Маковод зацикленный.


~RA~
Чего там хоть интересного?
 
Ответ: Как «разобрать» PDF на исходные файлы?

Да-да, спасибо, Станислав, я тоже нашел.
 
Ответ: Как «разобрать» PDF на исходные файлы?

Evgen
В результате "распаковки" появляется папка со всеми растровыми изображениями, что были в PDF.
Могу распаковать что-нибудь для теста.
 
Ответ: Как «разобрать» PDF на исходные файлы?

В каком формате получаются имиджи и что с компрессией?
Всё оригинальное, т.е. программа отсебятины не добавляет?
 
Ответ: Как «разобрать» PDF на исходные файлы?

Странно было бы ожидать от разархиватора перекомпрессии.
Создайте ПДФ с растрами в разных компрессиях — проверю. ;)

Пример:
Код:
-rw-r--r--@  1 RA  staff  27390787  5 апр 14:04 Object 23 (X).tiff
-rw-r--r--@  1 RA  staff   9130139  5 апр 14:04 Object 27 (X).tiff
-rw-r--r--@  1 RA  staff   5012768  5 апр 14:04 Page 1, object 16 (~ps400A.jpg).jpg
-rw-r--r--@  1 RA  staff   1531973  5 апр 14:04 Page 1, object 17 (X).jpg
-rw-r--r--@  1 RA  staff   1028211  5 апр 14:04 Page 1, object 18 (X).jpg
-rw-r--r--@  1 RA  staff    660802  5 апр 14:04 Page 1, object 19 (X).jpg
-rw-r--r--@  1 RA  staff    728406  5 апр 14:04 Page 1, object 20 (X).jpg
-rw-r--r--@  1 RA  staff    622729  5 апр 14:04 Page 1, object 21 (X).jpg
 
Ответ: Как «разобрать» PDF на исходные файлы?

> ожидать от разархиватора
"Разархиватор" -- самоназвание, что ль? :)
Выкусывает код, значит -- "выкусыватель" или "вытаскиватель"!

Мне на винде с этой программы толку -- ноль с тремя нулями. ))
Посему создавать ничего не буду, и так верю. ))
Спасибо за информацию.
 
Статус
Закрыто для дальнейших ответов.