Выкрыжить статьи из PDF архива газеты

Статус
Закрыто для дальнейших ответов.

ruwiss

Участник
Топикстартер
Сообщения
20
Реакции
0
Есть архив газеты в PDF формате за много лет. Шеф поставил задачу выложить все статьи на сайт. Желательно с фотографиями и прочей инфографикой. Как посоветуете проще всего поступить? Руками перелопачивать жуть как не хочется.
В идеале найти бы софт который бы крыжил PDF-ки и складывал бы тексты и графику в соответствующие папочки по статьям.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 235
Реакции
10 852
Ответ: Выкрыжить статьи из PDF архива газеты

Как вы себе это мыслите? PDF - это не RTF, текст там, мало того, что к графике не привязан, может вообще быть в кривых или раздерган совершенно непредсказуемым образом. Конвертеры из PDF в ворд работают как OCR - то есть это все равно, что имея каталог отсканированных листов книги "вытащить оттуда все статьи по нужной тематике с иллюстрациями". Задача для искусственного интеллекта.
 

Dim Schief

10 лет на форуме
Сообщения
2 202
Реакции
2 538
Ответ: Выкрыжить статьи из PDF архива газеты

А перегнать все эти статьи в small size, и дать на них ссылки на сайте? Я бы так и сделал. И вобще, убедить шефа в том, чтоб самому меньше париться, - это ж святое дело! :)
 

ruwiss

Участник
Топикстартер
Сообщения
20
Реакции
0
Ответ: Выкрыжить статьи из PDF архива газеты

Текст там в виде текста. Он копируется и в Акробате редактируется.
На счет как представляю... Я описал идеал. Он, как всем известно, не достижим. Просто хотел узнать что к нему наиболее близко.
Ведь есть много конвертеров PDF2HTML или PDF2DOC и подобных. Большенство нормальных — платные. Возможно, кто-то уже решал схожую задачу и сможет посоветовать опробованную технологию. Если нужно для этого будет купить какую-нибудь программу я незаморачиваясь это сделаю ибо объём ручной работы меня ужасает.

А перегнать все эти статьи в small size, и дать на них ссылки на сайте? Я бы так и сделал. И вобще, убедить шефа в том, чтоб самому меньше париться, - это ж святое дело! :)
Это понятно. Но задача стоит такая какая стоит...
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 235
Реакции
10 852
Ответ: Выкрыжить статьи из PDF архива газеты

Ведь есть много конвертеров PDF2HTML или PDF2DOC и подобных.
Еще раз повторяю - нормальные работают именно как OCR, поскольку универсальная задача перевода из PDF в плоский текст - искусственный интеллект. Попробуйте каким-нибудь файнридером подобное сделать - сразу увидите сколько подводных камней выползет. А вам придется это сделать перво-наперво по любому, ибо автоматом нормально не получится.
В общем, для начала, переводите в какой-нибудь нормальный плоский формат типа DOC,RTF или HTML, а там уже можно скриптами делать.
Однако, боюсь, уже на этом самом первом этапе столкнетесь с такими сложностями, что удобнее, может, будет руками покопипастить. :(
 

George

I wish I was a monster you think I am
15 лет на форуме
Сообщения
17 334
Реакции
7 873
Ответ: Выкрыжить статьи из PDF архива газеты

PDF - международный стандарт электронных документов. По данному формату гугл делает поиск, он открывается почти во всех браузерах. В него можно накидать тех же гиперссылок, кнопок, аудио, видео. Переверстка под html журнала и газеты — занятие странное.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 235
Реакции
10 852
Ответ: Выкрыжить статьи из PDF архива газеты

Переверстка под html журнала и газеты — занятие странное.
Если там многолетняя подшивка газеты, то может запросто оказаться, что некоторые номера просто сосканированы и в PDF переведены. Или в тех же кривых.
 

George

I wish I was a monster you think I am
15 лет на форуме
Сообщения
17 334
Реакции
7 873
Ответ: Выкрыжить статьи из PDF архива газеты

то может запросто оказаться, что некоторые номера просто сосканированы и в PDF переведены. Или в тех же кривых.
Открывается в чём версталось и гонится экспортом в PDF или печатью на принтер Adobe PDF(или др. принтер "гонящий" пдф). Пять минут делов для одного номера... Все равно быстрее чем выкусывать куски пдф и верстать html.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 235
Реакции
10 852
Ответ: Выкрыжить статьи из PDF архива газеты

Ну так мы ж не знаем, в чем газета версталась десять лет назад и кто и как занимался подготовкой электронной версии, наверняка там несколько поколений верстальщиков сменилось.
 

George

I wish I was a monster you think I am
15 лет на форуме
Сообщения
17 334
Реакции
7 873
Ответ: Выкрыжить статьи из PDF архива газеты

Ну так мы ж не знаем, в чем газета версталась десять лет назад и кто и как занимался подготовкой электронной версии,
В акробате есть встроенная фишка OCR для поиска по сканированным документам(прекрасно работает с русским в 9 и Х версии). Так что и эта твоя проблема - надуманная.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 235
Реакции
10 852
Ответ: Выкрыжить статьи из PDF архива газеты


Не по теме:
У меня просто максимум 8 английская ;)
 

George

I wish I was a monster you think I am
15 лет на форуме
Сообщения
17 334
Реакции
7 873

Jeine

Да здравствует разум! Да сгинет маразм!
15 лет на форуме
Сообщения
7 343
Реакции
6 328
Ответ: Выкрыжить статьи из PDF архива газеты

Вставлю свои пять копеек. Нет информации, как много этих самых гахет в этом самом архиве: одно дело, если газета выходит раз в месяц в формате А4 и на 8 полос, а другое дело – раз в день А3 на 24 полосы. Отсюда предположение: если это объемы по первому варианту, то и джипегов автоматом можно налепить — и статьи читаться будут, и картинки останутся на месте.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 235
Реакции
10 852
Ответ: Выкрыжить статьи из PDF архива газеты

А поиск как по жпегам вести?
 

Jeine

Да здравствует разум! Да сгинет маразм!
15 лет на форуме
Сообщения
7 343
Реакции
6 328
Ответ: Выкрыжить статьи из PDF архива газеты

Ну, это да, но условия такого не было.
 

ruwiss

Участник
Топикстартер
Сообщения
20
Реакции
0
Ответ: Выкрыжить статьи из PDF архива газеты

Спасибище большущее всем отписавшимся за желание помочь!

Архив газеты за семь лет. По 16 полос А3 в неделю. Версталась в ID, но файлы верстки за первые пять лет утрачены. Нет и линков (фото, инфографика).

Неужели формат PDF настолько куцый, что в нём не сохраняется информация о story? Если сохраняется, то выкусить из файла статью, даже разбитую на колонки и расположенную на более чем одной странице, не должно быть сложной задачей.

На счёт конвертеров и OCR... Есть мнение, что большенство конвертеров как раз выгрызают текст из файла, а не распознают его. Наверняка можно и картинки оттуда вытащить. Помню, когда-то давно, делал подобные операции с Flash. Тоже был конвертер, который декомпилировал ролик и складывал все его ресурсы (картинки, видео, аудио, тексты) по отдельным файликам в папочки. Вот такую же фиговину и хотелось бы найти для PDF... Неужто нет такой?
 

Любимцев

15 лет на форуме
Сообщения
4 225
Реакции
2 059
Ответ: Выкрыжить статьи из PDF архива газеты

Меня вот, что бесит: "Шеф поставил задачу выложить все статьи на сайт"
Кому, нам, "поставил" или Вам?

Вынуть картинки, и текст, из PDF? Уже ответили: File > Export > тип файла. Но это бред, можно просто выложить PDF-ки, в низком разрешении, и все. Все остальное — за пределами этой темы. Чего тут мусолить?
Еще по-обсуждаем, как выделять объекты, в Иллюстраторе, на пару (форумных) страниц?
 

ruwiss

Участник
Топикстартер
Сообщения
20
Реакции
0
Ответ: Выкрыжить статьи из PDF архива газеты

Меня вот, что бесит: "Шеф поставил задачу выложить все статьи на сайт"
Кому, нам, "поставил" или Вам?

Вынуть картинки, и текст, из PDF? Уже ответили: File > Export > тип файла. Но это бред, можно просто выложить PDF-ки, в низком разрешении, и все. Все остальное — за пределами этой темы. Чего тут мусолить?
Еще по-обсуждаем, как выделять объекты, в Иллюстраторе, на пару (форумных) страниц?

Вы ведь можете не читать данную тему, если считаете её исчерпанной? Ведь так? Вас вот лично, я не просил написать что-то в ней. Но тем не менее благодарен за потраченные Вами на неё минуты. Но зачем Вы других одёргиваете? А если есть всё же человек, который решал подобную задачу и он готов поделиться своим опытом? Он ведь за десять минут может сэкономить мне месяцы рабочего времени. И Вам может сэкономить, если у Вас когда-нибудь возникнет подобная задача.
 

Любимцев

15 лет на форуме
Сообщения
4 225
Реакции
2 059
Ответ: Выкрыжить статьи из PDF архива газеты

Зачем меня цитировать? Я не успел забыть, что писал минуту назад
Все ответы, на заданные вопросы, Вам дали
Волшебной кнопки "в соответствующие папочки по статьям" — нету.
 
Статус
Закрыто для дальнейших ответов.