[Acr DC] Разобрать страницу на части по полям

uspb

Участник
Топикстартер
Сообщения
13
Реакции
0
Друзья!
Есть страница в PDF, из которой надо взять текстовую информацию и перенести Word. Но не всю информацию подряд, а отдельные фрагменты. Проблема в том, что таких страниц порядка 200-500. Сейчас приходится делать это копи-пастом.
Вопрос: можно ли как-то разбить страницу PDF на части по полям с целью дальней автоматизации процесса(каким образом можно автоматизировать пока тоже не понятно). Образец документа ниже. Маркером отмечены нужные поля.
1592481193126.png
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
По какому признаку поля брать?
По идее можно
 

Gadalka

R.I.P.
Сообщения
2 530
Реакции
868

Не по теме:
(Кто первым предложит заглянуть на сайт)
 
Последнее редактирование:

~RA~

Одарённая.
12 лет на форуме
Сообщения
11 886
Реакции
3 457
Если страницы идентичны по строению, то можно попробовать спарсить.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
Если текст копируемый-читаемый и упорядочен по примерному местонахождению, то это даже скриптуется
 

George

I wish I was a monster you think I am
15 лет на форуме
Сообщения
17 323
Реакции
7 870

Не по теме:
(Кто первым предложит заглянуть на сайт)
Или вообще вот так - Возможности системы электронного документооборота СЭД


Проблема этих решений - относительная дороговизна (наши не любят считать сколько человекочасов данные решения экономят). Тут же, по любому, сейчас начнутся рассказы что денег нет.

Поэтому, имхо, надо дать на лапу тов. МБК за скриптинг :)
 
Последнее редактирование:
  • Спасибо
Реакции: Валера1966 и _MBK_

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
Спасибо, конечно, Жора, но ятут совсем не монополист, на форуме полно спецов, кроме того, топиксартер вполне в состоянии и сам освоить, ничего сверхъестественного в данном действии нет ;)
 
  • Спасибо
Реакции: Валера1966

uspb

Участник
Топикстартер
Сообщения
13
Реакции
0
По какому признаку поля брать?
По идее можно
Я, признаться, затрудняюсь с определением признака. Возможно у этих полей есть какой-то "адрес". Тот же документ можно открыть в интернет отдельной страницей html, у этих полей также есть гиперссылки, которые (если копировать текст не из PDF-документа, а со страницы html), копируются-вставляются вместе с текстом (но ссылаются, к сожалению на документ целиком, а не на поле). Мб можно эту задачу решить без сохранения PDF-документа. Использовать какой-нибудь код на странице?
 

uspb

Участник
Топикстартер
Сообщения
13
Реакции
0

Или вообще вот так - Возможности системы электронного документооборота СЭД


Проблема этих решений - относительная дороговизна (наши не любят считать сколько человекочасов данные решения экономят). Тут же, по любому, сейчас начнутся рассказы что денег нет.

Поэтому, имхо, надо дать на лапу тов. МБК за скриптинг :)
А сколько надо "давать на лапу"?)
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
Брр давайте сперва вопрос проясним, а то понимание стремительно теряется
В исходном виде эти документы в HTML или PDF?
Если HTML то разумеется, в PDF их сохранять, дабы потом частично в ворд скопировать, нет никакой надобности и это совершенно другая задача
По поводу признака - вы с самого начала сказали, что вам не вся информация нужна, а
а отдельные фрагменты
Какие именно фрагменты, как их отделить от остальной информации?
 

uspb

Участник
Топикстартер
Сообщения
13
Реакции
0
Брр давайте сперва вопрос проясним, а то понимание стремительно теряется
В исходном виде эти документы в HTML или PDF?
Если HTML то разумеется, в PDF их сохранять, дабы потом частично в ворд скопировать, нет никакой надобности и это совершенно другая задача
По поводу признака - вы с самого начала сказали, что вам не вся информация нужна, а

Какие именно фрагменты, как их отделить от остальной информации?
Я нахожу эти документы в поисковой системе Роспатента (документ - это патент на какой-то объект интеллектуальной собственности). В поисковой системе документ открывается отдельной страницей, откуда я могу взять нужную информацию (номер документа, даты регистрации - публикации, фамилии авторов, правообладателя, фрагмент текста и картинку, если есть). Все документы имеют стандартную унифицированную форму и строго структурированы. Некоторые поля имеют гиперссылки, по которым тот же документ я могу открыть в формате PDF, сохранить на диске и работать с ним офф-лайн. Основные поля, которые мне необходимо скопировать, я пометила на картинке маркером.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
Основные поля, которые мне необходимо скопировать, я пометила на картинке маркером.
Есть еще какой то критерий помимо помеченности маркером на скриншоте? Они по каким то определенным координатам на листе стоят, какой то порядок определенный имеют, какой то специфический текст содержат или как?
 

George

I wish I was a monster you think I am
15 лет на форуме
Сообщения
17 323
Реакции
7 870

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
1592489844855.png

'hmmm' 'hz'
 

uspb

Участник
Топикстартер
Сообщения
13
Реакции
0
Есть еще какой то критерий помимо помеченности маркером на скриншоте? Они по каким то определенным координатам на листе стоят, какой то порядок определенный имеют, какой то специфический текст содержат или как?
Да, поля в документах имеют один и тот же порядок (возможно, стоят по координатам или имеют адрес), содержат специфический текст (дата, класс - цифры через слэш, номер, т.е. набор цифр, ФИО).
 

uspb

Участник
Топикстартер
Сообщения
13
Реакции
0
Последнее редактирование: