Поиск/извлечение текста

  • Автор темы Автор темы antabu
  • Дата начала Дата начала
Я все-таки склоняюсь к тому, что проблема в кодировке ((
Если бы проблема была только в кодировке, то не копировалась бы последовательность одинаковых символов
þþþþþþþþþþþþþþþÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ
то есть, проблема и кодировке тоже, но основная - там напихано дофига лишней информации, видимо, в параноидальных целях
 
А впрочем нет, все таки в кодировке, но разбираться как правильно перекодировать - безумно муторно :(
 
Во всяком случае, удочка для ловли рыбы существует и принцип действия ее описан в теме ;)
 
@Валера1966,
Все, понял, чем файл рекодерам не нравится

Посмотреть вложение 89542

Т.е. мне нужно разобрать нужный мне ехе файл, который уже хоть-как-то смог перекодировать в этот ряд одинаковых букв, разобраться там с символы, подправить их там так, как мне нужно, и обрать собрать все это в ехе файл? Сам этот процесс тут не описан, а я не силен в этом. Как его запустить, я бы колупался себе тихонько.
 
по большому счету три страницы можно распознать и переверстать )
 
@Валера1966,


Т.е. мне нужно разобрать нужный мне ехе файл, который уже хоть-как-то смог перекодировать в этот ряд одинаковых букв, разобраться там с символы, подправить их там так, как мне нужно, и обрать собрать все это в ехе файл? Сам этот процесс тут не описан, а я не силен в этом. Как его запустить, я бы колупался себе тихонько.
Процесс подробно описан, просто вы читаете невнимательно. Еще раз: для начала, вам надо перекодировать шрифты, встроенные в pdf из TrueType в Typpe1
 
От нечего делать слегка повозился с зловредным файлом
Сходу конвертировать шрифты, так, чтобы Вадимова перловка их начала понимать у меня не получилось, а переписать программу под поддержку TTF - дело безблагодатное, да и я не настолько незанят ;)
В общем, самый приемлемый путь для топикстартера (хоть и муторный, как я уже говорил выше) - брать InFix и ремапить в нем символы по одному:
upload_2017-2-22_11-13-53.png

Вообще говоря, странно, что такой нужный инструмент до сих пор в самом акробате отсутствует - или я просто не в теме? 'hmmm'
 
  • Спасибо
Реакции: mr.edu
Пожалуйста, подскажите, в каком направлении двигаться

Acrobat 11
> ps > Acrobat 11 > ps в pdf/a > PDFtk Free: Create PDF > pdf-recode 2011.01

потом, если нужно, для сохранения оригинальных картинок (т.к. ps пересжимает растр):
PitStop: извлечение txt > PitStop: извлечение pic&vector из Оригинал.pdf > PDF-Tools 4.0: Overley PDF_txt + PDF_pic&vector.

Unzap_2012_1_67_redact.pdf
 
Последнее редактирование:
  • Спасибо
Реакции: _MBK_ и mr.edu
Ну это не сходу.
Но я спрашивал зачем именно PDFtk, если есть Акробат, умеющий и в PS и обратно из PS в PDF.
 
  • Спасибо
Реакции: George
Ну это не сходу.
Но я спрашивал зачем именно PDFtk, если есть Акробат, умеющий и в PS и обратно из PS в PDF.
Видимо, какие то тонкости есть, почему сходу не хляет
Я например, сходу не вкурил, почему один самый первый pdf-recoder видит таблицу в TTF а остальные нет - они ж вроде аналогичные?
И почему питстопом не получилось - или не пробовал никто?
И, наконец, самый главный вопрос - зачем вообще все эти танцы с бубном
Вообще говоря, странно, что такой нужный инструмент до сих пор в самом акробате отсутствует - или я просто не в теме? 'hmmm'
 
Во-первых, большое спасибо всем участникам за подробный и обстоятельный "разбор полетов". Прочитал тему и теперь есть хоть какое-то представление о том, откуда вообще берется обсуждаемая здесь проблема "при просмотре PDF все нормально, при копировании текста оттуда - сплошное нэ то".

А во-вторых, хотел бы поднять ее немного под другим углом.
Здесь много информации о том, как ее исправлять, когда она уже образовалась. Хочется же разобраться как сделать (что надо сделать), чтобы она вообще не возникала. Чтобы был какой-то список типичных "граблей", из-за которых подобное возникает, и понимание, как такие "грабли" надо обходить. И у нас в организации это пригодилось бы, и многим знакомым тоже.

Сколько я понял из темы, достаточно частые "грабли" - использование шрифтов с какими-то нестандартностями. Например, там, где в шрифте положено лежать символам одной кодировки, лежат символы другой кодировки. Значит для начала надо убрать из установленных в системе шрифтов такие вот "ненормальные" и заменить их на "нормальные", сделанные без нарушений. Но для этого нужен способ отличить одни шрифты от других, "правильные" от "неправильных". И когда чистишь систему, и когда подбираешь что-то взамен.
Может для этого есть какая-то тестовая утилита или другой способ проверки?
 
Хочется же разобраться как сделать (что надо сделать), чтобы она вообще не возникала.
Одну из причин вы правильно назвали
Сколько я понял из темы, достаточно частые "грабли" - использование шрифтов с какими-то нестандартностями. Например, там, где в шрифте положено лежать символам одной кодировки, лежат символы другой кодировки.
Вторую причину озвучил Рома тут
 
Вторую причину озвучил Рома тут
В смысле, вот это:
"Например, для некоторых производителей PDF будет достаточным указать "не сокращать знаковый состав встраиваемых шрифтов" и проблемы возникать не будет".
Спасибо, это тоже надо будет учесть в будущем списке "граблей".
Сколько я понимаю, выставить"не сокращать знаковый состав встраиваемых шрифтов" надо в настройках Distiller'а, когда он делает PDF из PS-файла с версткой. Я вроде видел там такой пункт.

А что по поводу отсортировки из запасника шрифтов всего нестандартного, того, что в норме использовать нежелательно? Есть для этого какой-то способ - пусть даже вручную?

И еще такой вопрос - заранее извиняюсь, если какую-то глупость скажу. :-)
1998 сделал очень даже полезную утилиту для "лечения" обсуждаемой здесь проблемы, но он ею похоже больше не занимается. Я Перл совсем не знаю, но некоторый опыт в программировании есть - правда больше уровня Бейсика и Паскаля. Насколько для меня будет реально разобраться в его pdf-recoder и при необходимости добавлять в него что-то новое?
А то жалко ведь, что такая хорошая софтина дальше не будет дополняться.
 
Насколько для меня будет реально разобраться в его pdf-recoder и при необходимости добавлять в него что-то новое?
Ну я ж там, вроде, расписал подробно, как и что делать? Я сам в перле не разбираюсь, поэтому,мне кажется, написал достаточно понятно именно для таких неПерловцев,как и я сам 'hmmm'
 
Если ОС современная, то достаточно не использовать шрифтов неизвестного происхождения, а также шрифтов устаревших форматов. То есть использовать легальные юникодовские шрифты в фоматах *.otf/*.ttf.