Ищу программу для XML-разметки научных статей, SarcticleXML или Articulus или похожее

myscience

Участник
Топикстартер
Сообщения
57
Реакции
0
Нужно поизвлекать из кучи текстов статей авторов, аннотации, библиографию и т.д.
Кто сталкивался с проблемой, посоветуйте чем сделать и где взять. Слышал, что РИНЦ таким занимался, но самих программ не нашел.
Жду советов, работы море.
 

Oleg Butrin

20 лет на форуме
Сообщения
1 990
Реакции
1 213
Исходники в docx? Разметка более-менее вменяемая?
В принципе можно сделать автоматический разбор и уже для валидного xml сделать редактор на основе, скажем, Oxygen в режиме Author.
 

myscience

Участник
Топикстартер
Сообщения
57
Реакции
0
Исходники в ID, а старые вообще в PDF. Думаю перегнать в HTML который скушает разметчик. Правда придется вручную долбиться еще с принудительными переносами в словах.
 

myscience

Участник
Топикстартер
Сообщения
57
Реакции
0
Слышал, что РИНЦ (eLibrary) разработали готовое решение, но не могу его попробовать.
 

Oleg Butrin

20 лет на форуме
Сообщения
1 990
Реакции
1 213
Из ID в принципе несложно сделать скриптами, если разметка нормальная.
Для XML есть схема или DTD?
 

myscience

Участник
Топикстартер
Сообщения
57
Реакции
0
Пока есть только исходники... И очень большое желание автоматизировать извлечение данных из текста статей. Опыта работы с XML нет. Но этот путь пока видится оптимальным для создания базы.
 

myscience

Участник
Топикстартер
Сообщения
57
Реакции
0
Как делаются скрипты? Где почитать? Это типа макросов в MS и экшнов в PS?
 

myscience

Участник
Топикстартер
Сообщения
57
Реакции
0
А поглубже о скриптах? Там нашел только 3 урока.
 

myscience

Участник
Топикстартер
Сообщения
57
Реакции
0
Oxygen в режиме Author. Он понимает HTML? Есть ли нечто бесплатное и русскоязычное?

Суть задачи - выделить текст, напр название статьи, нажать кнопочку "Название" записать в тег. Выделить строку с авторами, нажать "Авторы" - получить фамилию, имя и отчество заключенными в отдельные теги. И так со всеми метаданными статьи. А потом это все экспортировать в базу.
 

Oleg Butrin

20 лет на форуме
Сообщения
1 990
Реакции
1 213
Oxygen понимает всякое.
Достойных русскоязычных редакторов, пожалуй, нет. И бесплатных тоже нет. Возможно, подойдет визуальный html-редактор. Получить нормальный html из xml и обратно довольно просто.
 

myscience

Участник
Топикстартер
Сообщения
57
Реакции
0
Спасибо.
Но я очень надеюсь, что отзовется кто-нибудь, у кого есть инсталлятор SarcticleXML, чтоб не изобретать велосипед.
Будьте так добры, друзья!
 

myscience

Участник
Топикстартер
Сообщения
57
Реакции
0
Oxygen понимает всякое.
Достойных русскоязычных редакторов, пожалуй, нет. И бесплатных тоже нет. Возможно, подойдет визуальный html-редактор. Получить нормальный html из xml и обратно довольно просто.

А каким путем оптимальнее извлечь данные из XML в таблицу, например CSV или XLS, или еще лучше, в базу MS ACCESS? Ручками писать VBA?
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 187
Реакции
10 844
А каким путем оптимальнее извлечь данные из XML в таблицу, например CSV или XLS, или еще лучше, в базу MS ACCESS? Ручками писать VBA?
Задача не всегда тривиальна. В таблице организация данных линейная, а в XML многоуровневая древовидная.
 

stonedhamlet

Участник
Сообщения
1
Реакции
0
Нужно поизвлекать из кучи текстов статей авторов, аннотации, библиографию и т.д.
Кто сталкивался с проблемой, посоветуйте чем сделать и где взять. Слышал, что РИНЦ таким занимался, но самих программ не нашел.
Жду советов, работы море.
Случайно наткнулся на этот пост. Может, уже и не актуально, но программу Sarticle можно скачать здесь Программа XML для авторов и редакторов. Sarticle больше не поддерживается, как понимаю. Теперь вместо нее Articulus, но разметка теперь ведется онлайн.