[Acr DC] Извлечение из PDF страниц содержащих фразы из списка, заданного в текстовом файле и сохранение их в новый файл

duh

Топикстартер
20 лет на форуме
Сообщения
1 442
Реакции
701
Т.к. в Action для Acrobat не шарю от слова "совсем" то прошу уважаемое сообщество решить задачку такого рода:
В *.pdf файлах периодически нужно найти страницы с неким текстом (список в *.txt и *.pdf прилагаются как пример) и сохранить их в отдельный файл (ну или удалить из файла стр не имеющие нужного текста или каждую стр отдельно сохранить это как возможно будет будет).
Заметной прибавкой к функционалу (включаемому или отдельным Action) было бы сохранение со стр с нужным текстом и следующую за ней стр. Т.е. на страницах 3 и 21 найдены нужные текста и в конечный файл попали стр 3-4 и 21-22.
PS: Win10/Adobe Acrobat DC
 

Вложения

Т.к. в Action для Acrobat не шарю от слова "совсем" то прошу уважаемое сообщество решить задачку такого рода:
В *.pdf файлах периодически нужно найти страницы с неким текстом (список в *.txt и *.pdf прилагаются как пример) и сохранить их в отдельный файл (ну или удалить из файла стр не имеющие нужного текста или каждую стр отдельно сохранить это как возможно будет будет).
Заметной прибавкой к функционалу (включаемому или отдельным Action) было бы сохранение со стр с нужным текстом и следующую за ней стр. Т.е. на страницах 3 и 21 найдены нужные текста и в конечный файл попали стр 3-4 и 21-22.
PS: Win10/Adobe Acrobat DC
Это разве акробатовским экшном реализуемо? Может, скриптом, да и то, если текст не скурвленный и в нормальной кодировке. :(
 
КМК проще без акробата из командной строки. ОС Windows?
 
Это разве акробатовским экшном реализуемо?
Т.к. в Action для Acrobat не шарю от слова "совсем"
... потому и спрашиваю
если текст не скурвленный и в нормальной кодировке
В архиве пример и текста для поиска и *.pdf. Про скурвленное и спрашивать бы не стал.
 
Так и распознавание не долго прикрутить.
 
Кстати, искать полное совпадение или например в pdf может быть 2 строки, искомая и еще какой текст и все равно должно найти?
 
Посмотрел итог работы extract_pages.sh
Прикольно, замечательно, великолепно, грандиозно... а для меня "очень интересно, но ни черта не понятно" ибо как то не срослось у меня с командными строками.
Можно инструкцию по боевой работе или кнопку какую что бы указать какой файл обрабатывать и в каком файле список для поиска? А то открыл я его в Notepad++, посмотрел, вздохнул и закрыл. и кстати вариант со стр следующей за стр с найденым текстом было бы таки очень полезно.
 
Короче :) ТС на вопросы не отвечает, выложу как есть...
 

Вложения

какой файл обрабатывать и в каком файле список для поиска? А то открыл я его в Notepad++, посмотрел, вздохнул и закрыл
Согласен, оно самым безобразным образом захардкожено. Но я же чисто для примера набросал, а не продакшен код писал.
1723093869744.png

вариант со стр следующей за стр с найденым текстом было бы таки очень полезно.
Можно и так, но что-то мне подсказывает, что вариант @Drawer тебе понравится больше и именно его стоит дорабатывать.
 
По-мне, быстрые бесплатные решения лучше медленных, дорогих и ресурсоёмких. Но каждый сам для себя решает, чем пользоваться. Я не навязываю и даже не рекомендую.
Удобен и не накладен пользователю
— хорошо, пусть им пользуется.
 
Последнее редактирование:
Мне это всё напоминает 1986 год когда к нам приехали друзья матери из германии. Они общались на немецком и я, как балбес не учивший языков ваще, иногда ржал что нихрена не понимаю. Вот и сейчас читаю, ржу над собой... И как запустить скрипт в акробате?
 
Тут поиск по целому слову из всего текста.
И как запустить скрипт в акробате?
Проcто найди где в папке акробата лежат файлики с расширением .js и положи его рядом с ними. После перезапуска ищи новые пункты в меню Tools. Имя pdf и txt со списком должны совпадать. Кодировка txt должна быть ANSI. Новый созданный файл сохраняется но остается открытым. Вроде все.
 

Вложения

Последнее редактирование: