вытащить текст из pdf

  • Автор темы Автор темы makcum
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.

makcum

Участник
Топикстартер
Сообщения
7
Реакции
0
проблема такая: есть pdf, в нем несколько страниц текста, текст этот надо как-то оттуда извлечь, отредактировать и положить в другую верстку. Поискал по форуму, нашел отсылки на pitstop, но во-первых не уверен, что поможет, а во-вторых нет сейчас возможности его раздобыть, а надо срочно.
Подскажите, что делать?
Или может я туплю просто? :confused:
 
Ответ: вытащить текст из pdf

да, я тупил... :) извиняйте, ежели что
 
Ответ: вытащить текст из pdf

Седьмой FineReader или шестой Acrobat. Можно и пятым, но для него нужен плагин.
 
Ответ: вытащить текст из pdf

На самом деле можно обойтись и без 7-го FineReader'а, можно меньший или любую другую систему распознавания (если найдёте что-то лучше :) ). Дело в том, что в FineReader для распознования PDF фактически встроен Ghostscript, и метод у него самый тупой — PDF растрируется, а затем распознаётся штатными файнридеровскими методами. У «семёрки» одно преимущество — она всё-таки сперва пытается извлечь текст из самого файла, если это возможно, она использует его. Но. Дело в том, что наличие корректного текста сильно зависит от того, каким софтом делался PDF и на какой платформе (я имею ввиду русские тексты, с английским обычно всё много проще). Во-первых, текст в файле может хранится в разных кодировках. Скажем, у меня были случаи, когда из PDF, сделанного под Linux текст извлекался, но он был в KOI, к тому же с обрезанным восьмым битом, то есть вместо русской буквы была соответствующая ей в таблице KOI-8 латинская. Естественно, он был совершенно непригоден. Во-вторых, корректно русский текст (Windows, на Маках, увы, не знаю) внедряет только Acrobat, PDF сделанный другим софтом может дать мусор. Cобственно, это может зависить от драйвера принтера, то есть на стадии подготовки PDF. Для интересу проэксперементировал: распечатал текст на виртуальный принтер, в одном случае это был Distiller, в другом — AGFA-Avantra 25 v2013.108, затем отдистиллил. В первом случае получился PDF с текстом, нормально извлекаемым как средствами Acrobat'а, так и просто копированием в буфер обмена, во втором — мусор (визуально, естественно, они были идентичны). Так что во многих случаях проще сделать так: в Acrobat'е сохранить страницы в tif, а их скормить FineReader'у.
 
Статус
Закрыто для дальнейших ответов.