Поиск/извлечение текста

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 138
Реакции
10 835
Я все-таки склоняюсь к тому, что проблема в кодировке ((
Если бы проблема была только в кодировке, то не копировалась бы последовательность одинаковых символов
þþþþþþþþþþþþþþþÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ
то есть, проблема и кодировке тоже, но основная - там напихано дофига лишней информации, видимо, в параноидальных целях
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 138
Реакции
10 835
А впрочем нет, все таки в кодировке, но разбираться как правильно перекодировать - безумно муторно :(
 

George

I wish I was a monster you think I am
15 лет на форуме
Сообщения
17 300
Реакции
7 863

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 138
Реакции
10 835
Во всяком случае, удочка для ловли рыбы существует и принцип действия ее описан в теме ;)
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 138
Реакции
10 835

mr.edu

Участник
Сообщения
4
Реакции
0
@Валера1966,
Все, понял, чем файл рекодерам не нравится

Посмотреть вложение 89542

Т.е. мне нужно разобрать нужный мне ехе файл, который уже хоть-как-то смог перекодировать в этот ряд одинаковых букв, разобраться там с символы, подправить их там так, как мне нужно, и обрать собрать все это в ехе файл? Сам этот процесс тут не описан, а я не силен в этом. Как его запустить, я бы колупался себе тихонько.
 

Skvoznyak

15 лет на форуме
Сообщения
5 500
Реакции
2 168
по большому счету три страницы можно распознать и переверстать )
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 138
Реакции
10 835
@Валера1966,


Т.е. мне нужно разобрать нужный мне ехе файл, который уже хоть-как-то смог перекодировать в этот ряд одинаковых букв, разобраться там с символы, подправить их там так, как мне нужно, и обрать собрать все это в ехе файл? Сам этот процесс тут не описан, а я не силен в этом. Как его запустить, я бы колупался себе тихонько.
Процесс подробно описан, просто вы читаете невнимательно. Еще раз: для начала, вам надо перекодировать шрифты, встроенные в pdf из TrueType в Typpe1
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 138
Реакции
10 835
От нечего делать слегка повозился с зловредным файлом
Сходу конвертировать шрифты, так, чтобы Вадимова перловка их начала понимать у меня не получилось, а переписать программу под поддержку TTF - дело безблагодатное, да и я не настолько незанят ;)
В общем, самый приемлемый путь для топикстартера (хоть и муторный, как я уже говорил выше) - брать InFix и ремапить в нем символы по одному:
upload_2017-2-22_11-13-53.png

Вообще говоря, странно, что такой нужный инструмент до сих пор в самом акробате отсутствует - или я просто не в теме? 'hmmm'
 
  • Спасибо
Реакции: mr.edu

ComboGP

Участник
Сообщения
14
Реакции
11
Пожалуйста, подскажите, в каком направлении двигаться

Acrobat 11
> ps > Acrobat 11 > ps в pdf/a > PDFtk Free: Create PDF > pdf-recode 2011.01

потом, если нужно, для сохранения оригинальных картинок (т.к. ps пересжимает растр):
PitStop: извлечение txt > PitStop: извлечение pic&vector из Оригинал.pdf > PDF-Tools 4.0: Overley PDF_txt + PDF_pic&vector.

Unzap_2012_1_67_redact.pdf
 
Последнее редактирование:
  • Спасибо
Реакции: _MBK_ и mr.edu

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 138
Реакции
10 835

suntory

Administrator
15 лет на форуме
Сообщения
23 349
Реакции
12 401
Ну это не сходу.
Но я спрашивал зачем именно PDFtk, если есть Акробат, умеющий и в PS и обратно из PS в PDF.
 
  • Спасибо
Реакции: George

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 138
Реакции
10 835
Ну это не сходу.
Но я спрашивал зачем именно PDFtk, если есть Акробат, умеющий и в PS и обратно из PS в PDF.
Видимо, какие то тонкости есть, почему сходу не хляет
Я например, сходу не вкурил, почему один самый первый pdf-recoder видит таблицу в TTF а остальные нет - они ж вроде аналогичные?
И почему питстопом не получилось - или не пробовал никто?
И, наконец, самый главный вопрос - зачем вообще все эти танцы с бубном
Вообще говоря, странно, что такой нужный инструмент до сих пор в самом акробате отсутствует - или я просто не в теме? 'hmmm'
 

Mikky

Участник
Сообщения
161
Реакции
13
Во-первых, большое спасибо всем участникам за подробный и обстоятельный "разбор полетов". Прочитал тему и теперь есть хоть какое-то представление о том, откуда вообще берется обсуждаемая здесь проблема "при просмотре PDF все нормально, при копировании текста оттуда - сплошное нэ то".

А во-вторых, хотел бы поднять ее немного под другим углом.
Здесь много информации о том, как ее исправлять, когда она уже образовалась. Хочется же разобраться как сделать (что надо сделать), чтобы она вообще не возникала. Чтобы был какой-то список типичных "граблей", из-за которых подобное возникает, и понимание, как такие "грабли" надо обходить. И у нас в организации это пригодилось бы, и многим знакомым тоже.

Сколько я понял из темы, достаточно частые "грабли" - использование шрифтов с какими-то нестандартностями. Например, там, где в шрифте положено лежать символам одной кодировки, лежат символы другой кодировки. Значит для начала надо убрать из установленных в системе шрифтов такие вот "ненормальные" и заменить их на "нормальные", сделанные без нарушений. Но для этого нужен способ отличить одни шрифты от других, "правильные" от "неправильных". И когда чистишь систему, и когда подбираешь что-то взамен.
Может для этого есть какая-то тестовая утилита или другой способ проверки?
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 138
Реакции
10 835
Хочется же разобраться как сделать (что надо сделать), чтобы она вообще не возникала.
Одну из причин вы правильно назвали
Сколько я понял из темы, достаточно частые "грабли" - использование шрифтов с какими-то нестандартностями. Например, там, где в шрифте положено лежать символам одной кодировки, лежат символы другой кодировки.
Вторую причину озвучил Рома тут
 

Mikky

Участник
Сообщения
161
Реакции
13
Вторую причину озвучил Рома тут
В смысле, вот это:
"Например, для некоторых производителей PDF будет достаточным указать "не сокращать знаковый состав встраиваемых шрифтов" и проблемы возникать не будет".
Спасибо, это тоже надо будет учесть в будущем списке "граблей".
Сколько я понимаю, выставить"не сокращать знаковый состав встраиваемых шрифтов" надо в настройках Distiller'а, когда он делает PDF из PS-файла с версткой. Я вроде видел там такой пункт.

А что по поводу отсортировки из запасника шрифтов всего нестандартного, того, что в норме использовать нежелательно? Есть для этого какой-то способ - пусть даже вручную?

И еще такой вопрос - заранее извиняюсь, если какую-то глупость скажу. :)
1998 сделал очень даже полезную утилиту для "лечения" обсуждаемой здесь проблемы, но он ею похоже больше не занимается. Я Перл совсем не знаю, но некоторый опыт в программировании есть - правда больше уровня Бейсика и Паскаля. Насколько для меня будет реально разобраться в его pdf-recoder и при необходимости добавлять в него что-то новое?
А то жалко ведь, что такая хорошая софтина дальше не будет дополняться.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 138
Реакции
10 835
Насколько для меня будет реально разобраться в его pdf-recoder и при необходимости добавлять в него что-то новое?
Ну я ж там, вроде, расписал подробно, как и что делать? Я сам в перле не разбираюсь, поэтому,мне кажется, написал достаточно понятно именно для таких неПерловцев,как и я сам 'hmmm'
 

Dmitrij M

15 лет на форуме
Сообщения
11 046
Реакции
5 944
Если ОС современная, то достаточно не использовать шрифтов неизвестного происхождения, а также шрифтов устаревших форматов. То есть использовать легальные юникодовские шрифты в фоматах *.otf/*.ttf.