вытащить текст из pdf

makcum · 14.09.2004

проблема такая: есть pdf, в нем несколько страниц текста, текст этот надо как-то оттуда извлечь, отредактировать и положить в другую верстку. Поискал по форуму, нашел отсылки на pitstop, но во-первых не уверен, что поможет, а во-вторых нет сейчас возможности его раздобыть, а надо срочно.
Подскажите, что делать?
Или может я туплю просто? :confused:

makcum · 14.09.2004

Ответ: вытащить текст из pdf

да, я тупил...

извиняйте, ежели что

Neech · 14.09.2004

Ответ: вытащить текст из pdf

Седьмой FineReader или шестой Acrobat. Можно и пятым, но для него нужен плагин.

Cheburator · 02.11.2004

Ответ: вытащить текст из pdf

На самом деле можно обойтись и без 7-го FineReader'а, можно меньший или любую другую систему распознавания (если найдёте что-то лучше

). Дело в том, что в FineReader для распознования PDF фактически встроен Ghostscript, и метод у него самый тупой — PDF растрируется, а затем распознаётся штатными файнридеровскими методами. У «семёрки» одно преимущество — она всё-таки сперва пытается извлечь текст из самого файла, если это возможно, она использует его. Но. Дело в том, что наличие корректного текста сильно зависит от того, каким софтом делался PDF и на какой платформе (я имею ввиду русские тексты, с английским обычно всё много проще). Во-первых, текст в файле может хранится в разных кодировках. Скажем, у меня были случаи, когда из PDF, сделанного под Linux текст извлекался, но он был в KOI, к тому же с обрезанным восьмым битом, то есть вместо русской буквы была соответствующая ей в таблице KOI-8 латинская. Естественно, он был совершенно непригоден. Во-вторых, корректно русский текст (Windows, на Маках, увы, не знаю) внедряет только Acrobat, PDF сделанный другим софтом может дать мусор. Cобственно, это может зависить от драйвера принтера, то есть на стадии подготовки PDF. Для интересу проэксперементировал: распечатал текст на виртуальный принтер, в одном случае это был Distiller, в другом — AGFA-Avantra 25 v2013.108, затем отдистиллил. В первом случае получился PDF с текстом, нормально извлекаемым как средствами Acrobat'а, так и просто копированием в буфер обмена, во втором — мусор (визуально, естественно, они были идентичны). Так что во многих случаях проще сделать так: в Acrobat'е сохранить страницы в tif, а их скормить FineReader'у.

Black_Joker · 03.11.2004

Ответ: вытащить текст из pdf

http://www223.fixdown.com:2004/keydown2003/tbep2a20-2004-09-06.rar

Софт для извлечения виз ПДФ.
Сам не пробовал.

Поиск

вытащить текст из pdf

makcum

Участник

makcum

Участник

Neech

Cheburator

Участник

Black_Joker

Участник