Поиск/извлечение текста

_MBK_ · 21.02.2017

mr.edu сказал(а):
Я все-таки склоняюсь к тому, что проблема в кодировке ((

Если бы проблема была только в кодировке, то не копировалась бы последовательность одинаковых символов

þþþþþþþþþþþþþþþÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ

то есть, проблема и кодировке тоже, но основная - там напихано дофига лишней информации, видимо, в параноидальных целях

Валера1966 · 21.02.2017

RWEditor поможет?

_MBK_ · 21.02.2017

А впрочем нет, все таки в кодировке, но разбираться как правильно перекодировать - безумно муторно

George · 21.02.2017

_MBK_ сказал(а):
А впрочем нет, все таки в кодировке, но разбираться как правильно перекодировать - безумно муторно

Михаил намекает на оплату 'vine'

_MBK_ · 21.02.2017

Во всяком случае, удочка для ловли рыбы существует и принцип действия ее описан в теме

_MBK_ · 21.02.2017

Все, понял, чем файл рекодерам не нравится

_MBK_ сказал(а):
шрифт в формате TrueType (этот случай, хотя бы, оставляет возможность конвертирования питстопом)

mr.edu · 21.02.2017

@Валера1966,

_MBK_ сказал(а):
Все, понял, чем файл рекодерам не нравится

Посмотреть вложение 89542

Т.е. мне нужно разобрать нужный мне ехе файл, который уже хоть-как-то смог перекодировать в этот ряд одинаковых букв, разобраться там с символы, подправить их там так, как мне нужно, и обрать собрать все это в ехе файл? Сам этот процесс тут не описан, а я не силен в этом. Как его запустить, я бы колупался себе тихонько.

Skvoznyak · 21.02.2017

по большому счету три страницы можно распознать и переверстать )

_MBK_ · 21.02.2017

mr.edu сказал(а):
@Валера1966,

Т.е. мне нужно разобрать нужный мне ехе файл, который уже хоть-как-то смог перекодировать в этот ряд одинаковых букв, разобраться там с символы, подправить их там так, как мне нужно, и обрать собрать все это в ехе файл? Сам этот процесс тут не описан, а я не силен в этом. Как его запустить, я бы колупался себе тихонько.

Процесс подробно описан, просто вы читаете невнимательно. Еще раз: для начала, вам надо перекодировать шрифты, встроенные в pdf из TrueType в Typpe1

_MBK_ · 22.02.2017

От нечего делать слегка повозился с зловредным файлом
Сходу конвертировать шрифты, так, чтобы Вадимова перловка их начала понимать у меня не получилось, а переписать программу под поддержку TTF - дело безблагодатное, да и я не настолько незанят

В общем, самый приемлемый путь для топикстартера (хоть и муторный, как я уже говорил выше) - брать InFix и ремапить в нем символы по одному:

Вообще говоря, странно, что такой нужный инструмент до сих пор в самом акробате отсутствует - или я просто не в теме? 'hmmm'

ComboGP · 23.02.2017

mr.edu сказал(а):
Пожалуйста, подскажите, в каком направлении двигаться

Acrobat 11 > ps > Acrobat 11 > ps в pdf/a > PDFtk Free: Create PDF > pdf-recode 2011.01

потом, если нужно, для сохранения оригинальных картинок (т.к. ps пересжимает растр):
PitStop: извлечение txt > PitStop: извлечение pic&vector из Оригинал.pdf > PDF-Tools 4.0: Overley PDF_txt + PDF_pic&vector.

Unzap_2012_1_67_redact.pdf

suntory · 23.02.2017

ComboGP сказал(а):
ps в pdf/a > PDFtk Free: Create PDF

Почему не Акробатом, зачем архивный PDF?
В Type1 превратить есть галка при сохранении в PS.

_MBK_ · 23.02.2017

suntory сказал(а):
В Type1 превратить есть галка при сохранении в PS.

_MBK_ сказал(а):
Сходу конвертировать шрифты, так, чтобы Вадимова перловка их начала понимать у меня не получилось,

suntory · 23.02.2017

Ну это не сходу.
Но я спрашивал зачем именно PDFtk, если есть Акробат, умеющий и в PS и обратно из PS в PDF.

_MBK_ · 23.02.2017

suntory сказал(а):
Ну это не сходу.
Но я спрашивал зачем именно PDFtk, если есть Акробат, умеющий и в PS и обратно из PS в PDF.

Видимо, какие то тонкости есть, почему сходу не хляет
Я например, сходу не вкурил, почему один самый первый pdf-recoder видит таблицу в TTF а остальные нет - они ж вроде аналогичные?
И почему питстопом не получилось - или не пробовал никто?
И, наконец, самый главный вопрос - зачем вообще все эти танцы с бубном

_MBK_ сказал(а):
Вообще говоря, странно, что такой нужный инструмент до сих пор в самом акробате отсутствует - или я просто не в теме?

Mikky · 12.07.2017

Во-первых, большое спасибо всем участникам за подробный и обстоятельный "разбор полетов". Прочитал тему и теперь есть хоть какое-то представление о том, откуда вообще берется обсуждаемая здесь проблема "при просмотре PDF все нормально, при копировании текста оттуда - сплошное нэ то".

А во-вторых, хотел бы поднять ее немного под другим углом.
Здесь много информации о том, как ее исправлять, когда она уже образовалась. Хочется же разобраться как сделать (что надо сделать), чтобы она вообще не возникала. Чтобы был какой-то список типичных "граблей", из-за которых подобное возникает, и понимание, как такие "грабли" надо обходить. И у нас в организации это пригодилось бы, и многим знакомым тоже.

Сколько я понял из темы, достаточно частые "грабли" - использование шрифтов с какими-то нестандартностями. Например, там, где в шрифте положено лежать символам одной кодировки, лежат символы другой кодировки. Значит для начала надо убрать из установленных в системе шрифтов такие вот "ненормальные" и заменить их на "нормальные", сделанные без нарушений. Но для этого нужен способ отличить одни шрифты от других, "правильные" от "неправильных". И когда чистишь систему, и когда подбираешь что-то взамен.
Может для этого есть какая-то тестовая утилита или другой способ проверки?

_MBK_ · 12.07.2017

Mikky сказал(а):
Хочется же разобраться как сделать (что надо сделать), чтобы она вообще не возникала.

Одну из причин вы правильно назвали

Mikky сказал(а):
Сколько я понял из темы, достаточно частые "грабли" - использование шрифтов с какими-то нестандартностями. Например, там, где в шрифте положено лежать символам одной кодировки, лежат символы другой кодировки.

Вторую причину озвучил Рома тут

Mikky · 12.07.2017

_MBK_ сказал(а):
Вторую причину озвучил Рома тут

В смысле, вот это:
"Например, для некоторых производителей PDF будет достаточным указать "не сокращать знаковый состав встраиваемых шрифтов" и проблемы возникать не будет".
Спасибо, это тоже надо будет учесть в будущем списке "граблей".
Сколько я понимаю, выставить"не сокращать знаковый состав встраиваемых шрифтов" надо в настройках Distiller'а, когда он делает PDF из PS-файла с версткой. Я вроде видел там такой пункт.

А что по поводу отсортировки из запасника шрифтов всего нестандартного, того, что в норме использовать нежелательно? Есть для этого какой-то способ - пусть даже вручную?

И еще такой вопрос - заранее извиняюсь, если какую-то глупость скажу. :-)

1998 сделал очень даже полезную утилиту для "лечения" обсуждаемой здесь проблемы, но он ею похоже больше не занимается. Я Перл совсем не знаю, но некоторый опыт в программировании есть - правда больше уровня Бейсика и Паскаля. Насколько для меня будет реально разобраться в его pdf-recoder и при необходимости добавлять в него что-то новое?
А то жалко ведь, что такая хорошая софтина дальше не будет дополняться.

_MBK_ · 12.07.2017

Mikky сказал(а):
Насколько для меня будет реально разобраться в его pdf-recoder и при необходимости добавлять в него что-то новое?

Ну я ж там, вроде, расписал подробно, как и что делать? Я сам в перле не разбираюсь, поэтому,мне кажется, написал достаточно понятно именно для таких неПерловцев,как и я сам 'hmmm'

Dmitrij M · 12.07.2017

Если ОС современная, то достаточно не использовать шрифтов неизвестного происхождения, а также шрифтов устаревших форматов. То есть использовать легальные юникодовские шрифты в фоматах *.otf/*.ttf.

Поиск

Поиск/извлечение текста

_MBK_

Пикирующий бомбардировщик

Валера1966

_MBK_

Пикирующий бомбардировщик

George

I wish I was the monster you think I am

_MBK_

Пикирующий бомбардировщик

_MBK_

Пикирующий бомбардировщик

mr.edu

Участник

Skvoznyak

_MBK_

Пикирующий бомбардировщик

_MBK_

Пикирующий бомбардировщик

ComboGP

suntory

Administrator

_MBK_

Пикирующий бомбардировщик

suntory

Administrator

_MBK_

Пикирующий бомбардировщик

Mikky

Участник

_MBK_

Пикирующий бомбардировщик

Mikky

Участник

_MBK_

Пикирующий бомбардировщик

Dmitrij M