[Acr DC] Разобрать страницу на части по полям

  • Автор темы Автор темы uspb
  • Дата начала Дата начала

uspb

Участник
Топикстартер
Сообщения
13
Реакции
0
Друзья!
Есть страница в PDF, из которой надо взять текстовую информацию и перенести Word. Но не всю информацию подряд, а отдельные фрагменты. Проблема в том, что таких страниц порядка 200-500. Сейчас приходится делать это копи-пастом.
Вопрос: можно ли как-то разбить страницу PDF на части по полям с целью дальней автоматизации процесса(каким образом можно автоматизировать пока тоже не понятно). Образец документа ниже. Маркером отмечены нужные поля.
1592481193126.png
 
По какому признаку поля брать?
По идее можно
 

Не по теме:
(Кто первым предложит заглянуть на сайт)
 
Последнее редактирование:
Если страницы идентичны по строению, то можно попробовать спарсить.
 
Если текст копируемый-читаемый и упорядочен по примерному местонахождению, то это даже скриптуется
 

Не по теме:
(Кто первым предложит заглянуть на сайт)
Или вообще вот так - Возможности системы электронного документооборота СЭД


Проблема этих решений - относительная дороговизна (наши не любят считать сколько человекочасов данные решения экономят). Тут же, по любому, сейчас начнутся рассказы что денег нет.

Поэтому, имхо, надо дать на лапу тов. МБК за скриптинг :)
 
Последнее редактирование:
  • Спасибо
Реакции: Валера1966 и _MBK_
Спасибо, конечно, Жора, но ятут совсем не монополист, на форуме полно спецов, кроме того, топиксартер вполне в состоянии и сам освоить, ничего сверхъестественного в данном действии нет ;)
 
  • Спасибо
Реакции: Валера1966
По какому признаку поля брать?
По идее можно
Я, признаться, затрудняюсь с определением признака. Возможно у этих полей есть какой-то "адрес". Тот же документ можно открыть в интернет отдельной страницей html, у этих полей также есть гиперссылки, которые (если копировать текст не из PDF-документа, а со страницы html), копируются-вставляются вместе с текстом (но ссылаются, к сожалению на документ целиком, а не на поле). Мб можно эту задачу решить без сохранения PDF-документа. Использовать какой-нибудь код на странице?
 

Или вообще вот так - Возможности системы электронного документооборота СЭД


Проблема этих решений - относительная дороговизна (наши не любят считать сколько человекочасов данные решения экономят). Тут же, по любому, сейчас начнутся рассказы что денег нет.

Поэтому, имхо, надо дать на лапу тов. МБК за скриптинг :)
А сколько надо "давать на лапу"?)
 
Брр давайте сперва вопрос проясним, а то понимание стремительно теряется
В исходном виде эти документы в HTML или PDF?
Если HTML то разумеется, в PDF их сохранять, дабы потом частично в ворд скопировать, нет никакой надобности и это совершенно другая задача
По поводу признака - вы с самого начала сказали, что вам не вся информация нужна, а
а отдельные фрагменты
Какие именно фрагменты, как их отделить от остальной информации?
 
Брр давайте сперва вопрос проясним, а то понимание стремительно теряется
В исходном виде эти документы в HTML или PDF?
Если HTML то разумеется, в PDF их сохранять, дабы потом частично в ворд скопировать, нет никакой надобности и это совершенно другая задача
По поводу признака - вы с самого начала сказали, что вам не вся информация нужна, а

Какие именно фрагменты, как их отделить от остальной информации?
Я нахожу эти документы в поисковой системе Роспатента (документ - это патент на какой-то объект интеллектуальной собственности). В поисковой системе документ открывается отдельной страницей, откуда я могу взять нужную информацию (номер документа, даты регистрации - публикации, фамилии авторов, правообладателя, фрагмент текста и картинку, если есть). Все документы имеют стандартную унифицированную форму и строго структурированы. Некоторые поля имеют гиперссылки, по которым тот же документ я могу открыть в формате PDF, сохранить на диске и работать с ним офф-лайн. Основные поля, которые мне необходимо скопировать, я пометила на картинке маркером.
 
Основные поля, которые мне необходимо скопировать, я пометила на картинке маркером.
Есть еще какой то критерий помимо помеченности маркером на скриншоте? Они по каким то определенным координатам на листе стоят, какой то порядок определенный имеют, какой то специфический текст содержат или как?
 
1592489844855.png

'hmmm' 'hz'
 
Есть еще какой то критерий помимо помеченности маркером на скриншоте? Они по каким то определенным координатам на листе стоят, какой то порядок определенный имеют, какой то специфический текст содержат или как?
Да, поля в документах имеют один и тот же порядок (возможно, стоят по координатам или имеют адрес), содержат специфический текст (дата, класс - цифры через слэш, номер, т.е. набор цифр, ФИО).
 
Последнее редактирование: