Как вытащить текст из PDF?

Статус
Закрыто для дальнейших ответов.

talanta

Участник
Топикстартер
Сообщения
4
Реакции
0
Сложилась печальная ситуация - все файлы верстки многостарничного полноцетного издания погибли, остались только PS. Как можно оттуда без потерь повытаскивать текст?
 

Edviga

Участник
Сообщения
4
Реакции
0
Ответ: Как вытащить текст из PDF?

Когда необходимо вытащить текст из пдф для корректировки - я открываю пдф-файл с помощью корела. Только корел должен быть 12 версии. На 11 версии и ниже ничего не получается.
 

sstepan

Участник
Сообщения
297
Реакции
0
Ответ: Как вытащить текст из PDF?

>Сложилась печальная ситуация - все файлы верстки многостарничного полноцетного издания погибли, остались только PS. Как >можно оттуда без потерь повытаскивать текст?

Накрылся хард и остались только файлы в PDF 4 книг, куда уже внесена корректорская правка. И самый лучший способ (ИМХО), загнать в файнридер и распознать! То-есть PS>PDF>FineReader>Word.
 

@diz@

отечеств. про
15 лет на форуме
Сообщения
4 220
Реакции
1 914
Ответ: Как вытащить текст из PDF?

sstepan сказал(а):
И самый лучший способ (ИМХО), загнать в файнридер и распознать! То-есть PS>PDF>FineReader>Word.
Это неплохой способ. Правда у меня были когда-то проблемы с "ненормальными" начертаниями. То есть италики этот ридер путал. Правда это был FineReader 6. Может с 7 и проще.
 

kaatm

15 лет на форуме
Сообщения
1 101
Реакции
19
Ответ: Как вытащить текст из PDF?

Это плохой способ. FR растрирует PDF и потом распознает битмап. Вытаскивать надо вручную, или скриптом. Штатными средствами можно экспортнуть в RTF и потом причесывать.
 

cache

Участник
Сообщения
420
Реакции
0
Ответ: Как вытащить текст из PDF?

kaatm сказал(а):
Штатными средствами можно экспортнуть в RTF и потом причесывать.
Экспорт в PTF СЛОЖНОЙ журнальной графики, в которой использовались шрифты, иногда плохо проходит. Зачастую она преобразуется в картинки.
Есть плагин к Acrobat'у – BLC Magellan. Извлекает весь текст с/без разбиения на строки. Правда поначалу надо будет пройтись по документу и отметить зоны. (Почти как в FineReader). С анг. текстами проблем не было. С русскими – не пробовал.
_____________________________
Пусть трактор работает – он железный.
 

talanta

Участник
Топикстартер
Сообщения
4
Реакции
0
Ответ: Как вытащить текст из PDF?

я нашла! оказывается новый акробат риадер дает такую возможность!! оттуда можно выделять и копировать текст в ворд. Долго, конечно, но деваться-то некуда.
 

suntory

Administrator
15 лет на форуме
Сообщения
23 473
Реакции
12 483
Ответ: Как вытащить текст из PDF?

Yuta сказал(а):
Там какие-то страшные цифры. 99$ кажется!!! И язык, язык какой-то не русский.
Берите pdftotext.exe из набора Xpdf 3.0 - бесплатно и языка никакого нет - только командная строка :)
 

Shlyapa

Участник
Сообщения
4 838
Реакции
1
Ответ: Как вытащить текст из PDF?

Тот же FineReader, только вид сбоку.

Экспортом в RTF или TXT из Acrobat-а внятный русский текст получается далеко не всегда. Это завист и от того, и каким софтом PDF делался, и какими шрифтами.

FineReader в случаях, когда экспортом текст вытащить не удаётся, очень даже неплохо справляется. Наверное и PDF Transformer тоже (движок-то тот же, что у FineReader-а), но сам я его не пробовал.
 

Shlyapa

Участник
Сообщения
4 838
Реакции
1

Evgen

Registered User
15 лет на форуме
Сообщения
2 054
Реакции
984
Ответ: Как вытащить текст из PDF?

Shlyapa сказал(а):
Тот же FineReader, только вид сбоку.

Экспортом в RTF или TXT из Acrobat-а внятный русский текст получается далеко не всегда. Это завист и от того, и каким софтом PDF делался, и какими шрифтами.
Ага.
Shlyapa сказал(а):
FineReader в случаях, когда экспортом текст вытащить не удаётся, очень даже неплохо справляется. Наверное и PDF Transformer тоже (движок-то тот же, что у FineReader-а), но сам я его не пробовал.
Скажем так: у меня из десятка раз попыток PDF Transformer выдавал наилучший результат (по сравнению с PDF2TXT etc.).
Таки да, судя по постам на форумах, FineReader —тоже выход их ситуации.
Правда, сам я его в этой ипостаси пока еще тоже не пользовал.
 
Статус
Закрыто для дальнейших ответов.