[Acr DC] Извлечение из PDF страниц содержащих фразы из списка, заданного в текстовом файле и сохранение их в новый файл

duh · 07.08.2024

Т.к. в Action для Acrobat не шарю от слова "совсем" то прошу уважаемое сообщество решить задачку такого рода:
В *.pdf файлах периодически нужно найти страницы с неким текстом (список в *.txt и *.pdf прилагаются как пример) и сохранить их в отдельный файл (ну или удалить из файла стр не имеющие нужного текста или каждую стр отдельно сохранить это как возможно будет будет).
Заметной прибавкой к функционалу (включаемому или отдельным Action) было бы сохранение со стр с нужным текстом и следующую за ней стр. Т.е. на страницах 3 и 21 найдены нужные текста и в конечный файл попали стр 3-4 и 21-22.
PS: Win10/Adobe Acrobat DC

_MBK_ · 07.08.2024

duh сказал(а):
Т.к. в Action для Acrobat не шарю от слова "совсем" то прошу уважаемое сообщество решить задачку такого рода:
В *.pdf файлах периодически нужно найти страницы с неким текстом (список в *.txt и *.pdf прилагаются как пример) и сохранить их в отдельный файл (ну или удалить из файла стр не имеющие нужного текста или каждую стр отдельно сохранить это как возможно будет будет).
Заметной прибавкой к функционалу (включаемому или отдельным Action) было бы сохранение со стр с нужным текстом и следующую за ней стр. Т.е. на страницах 3 и 21 найдены нужные текста и в конечный файл попали стр 3-4 и 21-22.
PS: Win10/Adobe Acrobat DC

Это разве акробатовским экшном реализуемо? Может, скриптом, да и то, если текст не скурвленный и в нормальной кодировке.

Drawer · 07.08.2024

КМК проще без акробата из командной строки. ОС Windows?

_MBK_ · 07.08.2024

Drawer сказал(а):
КМК проще без акробата из командной строки. ОС Windows?

Можно и так, причем, даже, необязательно из под винды

duh · 07.08.2024

_MBK_ сказал(а):
Это разве акробатовским экшном реализуемо?

duh сказал(а):
Т.к. в Action для Acrobat не шарю от слова "совсем"

... потому и спрашиваю

_MBK_ сказал(а):
если текст не скурвленный и в нормальной кодировке

В архиве пример и текста для поиска и *.pdf. Про скурвленное и спрашивать бы не стал.

~RA~ · 07.08.2024

Так и распознавание не долго прикрутить.

~RA~ · 07.08.2024

duh сказал(а):
и сохранить их в отдельный файл

Drawer · 07.08.2024

Кстати, искать полное совпадение или например в pdf может быть 2 строки, искомая и еще какой текст и все равно должно найти?

duh · 07.08.2024

Посмотрел итог работы extract_pages.sh
Прикольно, замечательно, великолепно, грандиозно... а для меня "очень интересно, но ни черта не понятно" ибо как то не срослось у меня с командными строками.
Можно инструкцию по боевой работе или кнопку какую что бы указать какой файл обрабатывать и в каком файле список для поиска? А то открыл я его в Notepad++, посмотрел, вздохнул и закрыл. и кстати вариант со стр следующей за стр с найденым текстом было бы таки очень полезно.

Drawer · 07.08.2024

Короче

ТС на вопросы не отвечает, выложу как есть...

~RA~ · 08.08.2024

duh сказал(а):
какой файл обрабатывать и в каком файле список для поиска? А то открыл я его в Notepad++, посмотрел, вздохнул и закрыл

Согласен, оно самым безобразным образом захардкожено. Но я же чисто для примера набросал, а не продакшен код писал.

duh сказал(а):
вариант со стр следующей за стр с найденым текстом было бы таки очень полезно.

Можно и так, но что-то мне подсказывает, что вариант @Drawer тебе понравится больше и именно его стоит дорабатывать.

_MBK_ · 08.08.2024

Ты забыл сказать, что это шеллскрипт для линукса, а по условию было

duh сказал(а):
Win10

Ну и, опять же, необходимо наличие pfdtk и pdfgrep

~RA~ · 08.08.2024

_MBK_ сказал(а):
что это шеллскрипт для линукса, а по условию было

_MBK_ · 08.08.2024

~RA~ сказал(а):
Посмотреть вложение 167411

Я понимаю, но в коробке этого нет

~RA~ · 08.08.2024

_MBK_ сказал(а):
но в коробке

По-мне, быстрые бесплатные решения лучше медленных, дорогих и ресурсоёмких. Но каждый сам для себя решает, чем пользоваться. Я не навязываю и даже не рекомендую.
Удобен и не накладен пользователю

duh сказал(а):
Acrobat

— хорошо, пусть им пользуется.

duh · 08.08.2024

Мне это всё напоминает 1986 год когда к нам приехали друзья матери из германии. Они общались на немецком и я, как балбес не учивший языков ваще, иногда ржал что нихрена не понимаю. Вот и сейчас читаю, ржу над собой... И как запустить скрипт в акробате?

Drawer · 08.08.2024

Тут поиск по целому слову из всего текста.

duh сказал(а):
И как запустить скрипт в акробате?

Проcто найди где в папке акробата лежат файлики с расширением .js и положи его рядом с ними. После перезапуска ищи новые пункты в меню Tools. Имя pdf и txt со списком должны совпадать. Кодировка txt должна быть ANSI. Новый созданный файл сохраняется но остается открытым. Вроде все.

duh · 08.08.2024

Drawer сказал(а):
После перезапуска ищи новые пункты в меню Tools.

А что конкретно должно появиться? нового нет ничего...

_MBK_ · 08.08.2024

duh сказал(а):
А что конкретно должно появиться? нового нет ничего...

По идее Extract matching the list
Я ж надеюсь у тебя не Reader?

duh · 08.08.2024

_MBK_ сказал(а):
По идее Extract matching the list
Я ж надеюсь у тебя не Reader?

"C:\Program Files (x86)\Adobe\Acrobat DC\Acrobat\Javascripts\ExtractMatchingTheList.js"

Поиск

[Acr DC] Извлечение из PDF страниц содержащих фразы из списка, заданного в текстовом файле и сохранение их в новый файл

duh

Вложения

_MBK_

Пикирующий бомбардировщик

Drawer

Участник

_MBK_

Пикирующий бомбардировщик

duh

~RA~

Одарённая.

~RA~

Одарённая.

Вложения

Drawer

Участник

duh

Drawer

Участник

Вложения

~RA~

Одарённая.

_MBK_

Пикирующий бомбардировщик

~RA~

Одарённая.

_MBK_

Пикирующий бомбардировщик

~RA~

Одарённая.

duh

Drawer

Участник

Вложения

duh

_MBK_

Пикирующий бомбардировщик

duh