[Acr DC] Разобрать страницу на части по полям

uspb · 18.06.2020

Друзья!
Есть страница в PDF, из которой надо взять текстовую информацию и перенести Word. Но не всю информацию подряд, а отдельные фрагменты. Проблема в том, что таких страниц порядка 200-500. Сейчас приходится делать это копи-пастом.
Вопрос: можно ли как-то разбить страницу PDF на части по полям с целью дальней автоматизации процесса(каким образом можно автоматизировать пока тоже не понятно). Образец документа ниже. Маркером отмечены нужные поля.

_MBK_ · 18.06.2020

По какому признаку поля брать?
По идее можно

Gadalka · 18.06.2020

Не по теме:
(Кто первым предложит заглянуть на сайт)

~RA~ · 18.06.2020

Если страницы идентичны по строению, то можно попробовать спарсить.

_MBK_ · 18.06.2020

Если текст копируемый-читаемый и упорядочен по примерному местонахождению, то это даже скриптуется

George · 18.06.2020

Gadalka сказал(а):
Не по теме:
(Кто первым предложит заглянуть на сайт)

Или вообще вот так - Возможности системы электронного документооборота СЭД

Проблема этих решений - относительная дороговизна (наши не любят считать сколько человекочасов данные решения экономят). Тут же, по любому, сейчас начнутся рассказы что денег нет.

Поэтому, имхо, надо дать на лапу тов. МБК за скриптинг

_MBK_ · 18.06.2020

George сказал(а):
тов. МБК

Спасибо, конечно, Жора, но ятут совсем не монополист, на форуме полно спецов, кроме того, топиксартер вполне в состоянии и сам освоить, ничего сверхъестественного в данном действии нет

uspb · 18.06.2020

_MBK_ сказал(а):
По какому признаку поля брать?
По идее можно

Я, признаться, затрудняюсь с определением признака. Возможно у этих полей есть какой-то "адрес". Тот же документ можно открыть в интернет отдельной страницей html, у этих полей также есть гиперссылки, которые (если копировать текст не из PDF-документа, а со страницы html), копируются-вставляются вместе с текстом (но ссылаются, к сожалению на документ целиком, а не на поле). Мб можно эту задачу решить без сохранения PDF-документа. Использовать какой-нибудь код на странице?

uspb · 18.06.2020

George сказал(а):
Или вообще вот так - Возможности системы электронного документооборота СЭД

Проблема этих решений - относительная дороговизна (наши не любят считать сколько человекочасов данные решения экономят). Тут же, по любому, сейчас начнутся рассказы что денег нет.

Поэтому, имхо, надо дать на лапу тов. МБК за скриптинг

А сколько надо "давать на лапу"?)

_MBK_ · 18.06.2020

Брр давайте сперва вопрос проясним, а то понимание стремительно теряется
В исходном виде эти документы в HTML или PDF?
Если HTML то разумеется, в PDF их сохранять, дабы потом частично в ворд скопировать, нет никакой надобности и это совершенно другая задача
По поводу признака - вы с самого начала сказали, что вам не вся информация нужна, а

uspb сказал(а):
а отдельные фрагменты

Какие именно фрагменты, как их отделить от остальной информации?

~RA~ · 18.06.2020

uspb сказал(а):
Я, признаться, затрудняюсь с определением признака.

Мы тем более. У нас даже файла нет.

uspb · 18.06.2020

_MBK_ сказал(а):
Брр давайте сперва вопрос проясним, а то понимание стремительно теряется
В исходном виде эти документы в HTML или PDF?
Если HTML то разумеется, в PDF их сохранять, дабы потом частично в ворд скопировать, нет никакой надобности и это совершенно другая задача
По поводу признака - вы с самого начала сказали, что вам не вся информация нужна, а

Какие именно фрагменты, как их отделить от остальной информации?

Я нахожу эти документы в поисковой системе Роспатента (документ - это патент на какой-то объект интеллектуальной собственности). В поисковой системе документ открывается отдельной страницей, откуда я могу взять нужную информацию (номер документа, даты регистрации - публикации, фамилии авторов, правообладателя, фрагмент текста и картинку, если есть). Все документы имеют стандартную унифицированную форму и строго структурированы. Некоторые поля имеют гиперссылки, по которым тот же документ я могу открыть в формате PDF, сохранить на диске и работать с ним офф-лайн. Основные поля, которые мне необходимо скопировать, я пометила на картинке маркером.

~RA~ · 18.06.2020

uspb сказал(а):
эти документы

Дайте ссылки на 3 из них.

_MBK_ · 18.06.2020

uspb сказал(а):
Основные поля, которые мне необходимо скопировать, я пометила на картинке маркером.

Есть еще какой то критерий помимо помеченности маркером на скриншоте? Они по каким то определенным координатам на листе стоят, какой то порядок определенный имеют, какой то специфический текст содержат или как?

George · 18.06.2020

uspb сказал(а):
А сколько надо "давать на лапу"?)

Михаилу в личку писать вестимо.

uspb · 18.06.2020

~RA~ сказал(а):
Дайте ссылки на 3 из них.

https://www1.fips.ru/iiss/document.xhtml?faces-redirect=true&id=d5fa9e20d60105eb622542f9bde6df75

https://www1.fips.ru/iiss/document.xhtml?faces-redirect=true&id=2ed4a177a85c83812b145220dca0de62

https://www1.fips.ru/iiss/document.xhtml?faces-redirect=true&id=83a3be142c9d9ef46b7916b13527c7e1

_MBK_ · 18.06.2020

uspb · 18.06.2020

_MBK_ сказал(а):
Есть еще какой то критерий помимо помеченности маркером на скриншоте? Они по каким то определенным координатам на листе стоят, какой то порядок определенный имеют, какой то специфический текст содержат или как?

Да, поля в документах имеют один и тот же порядок (возможно, стоят по координатам или имеют адрес), содержат специфический текст (дата, класс - цифры через слэш, номер, т.е. набор цифр, ФИО).

Gadalka · 18.06.2020

_MBK_ сказал(а):

uspb · 18.06.2020

_MBK_ сказал(а):
Посмотреть вложение 132894

Думаю, просто по ссылке они не откроются, надо открыть их через поисковую систему, т.е. проделать определённую последовательность действий с вашего компьютера. Регистрация не нужна.

Поиск

[Acr DC] Разобрать страницу на части по полям

uspb

Участник

_MBK_

Пикирующий бомбардировщик

Gadalka

~RA~

Одарённая.

_MBK_

Пикирующий бомбардировщик

George

I wish I was a monster you think I am

_MBK_

Пикирующий бомбардировщик

uspb

Участник

uspb

Участник

_MBK_

Пикирующий бомбардировщик

~RA~

Одарённая.

uspb

Участник

~RA~

Одарённая.

_MBK_

Пикирующий бомбардировщик

George

I wish I was a monster you think I am

uspb

Участник

_MBK_

Пикирующий бомбардировщик

uspb

Участник

Gadalka

uspb

Участник