Поиск/извлечение текста

suntory

Administrator
15 лет на форуме
Сообщения
23 425
Реакции
12 469
Вот если бы можно было как-то сказать Дистиллеру "вместо отсутствующих шрифтов подбери аналогичные" или "вместо шрифта **** подставь шрифт ****", то это бы заметно упростило людям жизнь
У Postscript принтеров есть Таблица подстановки шрифтов. Но я бы так сделать не стал.
как проверить шрифты, как отсортировать сделанные с нарушениями
Какими именно?
вангую, что первое, что они вам ответят
Не факт, что поможет.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 189
Реакции
10 844
у которых было обнаружено, что они с заказной кодировкой
Чуть не забыл сказать, кстати, что "заказная кодировка" появляется уже на этапе выборки использующихся символов в PDF, в исходном шрифте, конечно, никакой заказной кодировки при этом нет.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 189
Реакции
10 844

~RA~

Одарённая.
12 лет на форуме
Сообщения
11 860
Реакции
3 450
Давайте файл, на его основе покажу.
 

Mikky

Участник
Сообщения
161
Реакции
13
Боюсь, ваш (на мой взгляд) чрезмерный оптимизм связан с недостаточным знакомством с проблемой
А значит придется знакомиться с ней более глубоко. Чтобы оптимистом быть в меру и по делу. :)

Не по теме:
Я в общем-то работаю в достаточно другой области, но как ехидно (и вполне справедливо) сказало мне мое начальство: "Инициатива наказуема ее исполнением". В смысле если уж ввязался во всю эту головомороку, то будь добр и дальше тяни.
А как было не ввязаться? Сил уже нет смотреть на этот гармыдр с обязательным экземпляром, сколько людей с него на пустом месте мучаются. :(



Шрифты в макете никак не связаны со шрифтами в системной папке дистиллера. Подбор аналогичных шрифтов на автомате невозможен по определению, макет гарантированно рассыпется.
Значит людям надо будет переделывать макеты. Жалко конечно, но что поделаешь. :(
Впрочем еще остается палочка-выручалочка по имени PDF-Recoder. Может быть с его помощью этот геморрой хотя бы частью удастся снимать.

В любом случае, это совершенно другой вопрос и даже другой раздел форума.
Значит и туда надо будет потом сходить. В эту тему я больше случайно попал, знакомые ссылку дали.

Вы, вероятно, неправильно меня поняли.
Скорее всего так. Разговор шел о шрифтах, вот я и решил, что она тоже для шрифтов.

Из более дешевых аналогов аналогичного действия - Foxit, из дорогих, но продвинутых - питстоп.
Сколько я вас понял, и то, и другое тоже для правки проблем с кодировкой символов в PDF (т.е. в каком-то смысле они аналоги PDF-Recoder'а)?

боюсь, данный топик и есть самый толковый рускоязычный ресурс по особенностям внутреннего строения PDF,
Значит повезло, что именно сюда попал (хотя вроде бы совершенно случайно). :)

Если вы действительно хотите в данном вопросе разобраться и вас не пугает необходимость становиться программистом
Разобраться похоже таки необходимо - раз уж имел неосторожность ввязаться во все это. :) А насчет "становиться программистом" буду оптимистически надеяться, что пронесет (в последний раз я программировал еще во времена Паскаля :) ).
Но если таки и до этого дойдет - значит иншалла. :)

покурите, например, вот это.
1300 страниц, да еще на английском - утону и даже не булькну. И сколько я понимаю, PDF Reference на русский не переводилась?
Если это действительно так (есть только на английском), то может посоветуете с каких мест там надо начать - чтобы получить хотя бы эскизное представление об обсуждаемых здесь проблемах, но при этом не тонуть в куче не очень нужных в данный момент деталей и подробностей?

Чуть не забыл сказать, кстати, что "заказная кодировка" появляется уже на этапе выборки использующихся символов в PDF, в исходном шрифте, конечно, никакой заказной кодировки при этом нет.
Спасибо, до этого я уже допер. :)
Дистиллер сокращает внедряемый в PDF набор символов какого-то шрифта. А у этого шрифта расположение символов внутри него нестандартное, в смысле обсуждаемых здесь проблем. Дистиллер видит, что ни во что известное полученное не вписываться, пожимает плечами и пишет "Заказная кодировка".

Сейчас, сколько я вижу, основная головная боль со шрифтами - перепутаница с расположением символов в них. Там, где в шрифте в норме должны лежать символы определенной кодовой таблицы, лежат символы совсем другой кодовой таблицы.
И хорошо бы уметь как-то отличить вот такие "перепутанные" шрифты от нормальных (где все символы лежат там, где им и полагается по стандарту).

Давайте файл, на его основе покажу.
А как здесь полагается выкладывать файлы? Внешние ссылки вроде бы не приветствуются, а как еще можно - уже подзабыл.
 
Последнее редактирование:

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 189
Реакции
10 844
Сколько я вас понял, и то, и другое тоже для правки проблем с кодировкой символов в PDF (т.е. в каком-то смысле они аналоги PDF-Recoder'а)?
В какой то степени да - просто там по одному символу править надо, а тут вроде пакетно перекодируется.
И сколько я понимаю, PDF Reference на русский не переводилась?
Правильно понимаете.
Если действительно так, то может посоветуете с каких мест там надо начать - чтобы получить хотя бы эскизное представление об обсуждаемых здесь проблемах, но при этом не тонуть в не очень нужных в данный момент деталях и подробностях?
Задавайте конкретные вопросы - будем пытаться отвечать по мере сил
Дистиллер видит, что ни во что известное полученное не вписываться, пожимает плечами и пишет "Заказная кодировка".
Не совсем так. Дистиллер, собственно, и создает эту "заказную кодировку" из усеченного набора символов.
А как здесь полагается выкладывать файлы?
Ресурсы
 

Mikky

Участник
Сообщения
161
Реакции
13
Задавайте конкретные вопросы - будем пытаться отвечать по мере сил
Не знаю можно ли это назвать конкретным вопросом, но первое, что будет необходимо - из всего объема PDF Reference отобрать те материалы (главы, параграфы и т.д.), которые нужны, чтобы понимать обсуждаемое здесь - шрифты, кодировки, внутреннее представление всего этого в структуре PDF и т.д., и т.п. Плюс надо разобраться, что из PDF Reference требуется прочитать в смысле вводного минимума, чтобы представлять себе общее устройство PDF, его внутреннюю структуру, организацию и т.д.

И здесь без вашей помощи не обойтись. Иначе придется читать все подряд, а это бочка бездонная. :)

Иду по этой ссылке, в первом окошке выбираю "Форум" (все остальные варианты вроде бы не подходят), затем выбираю у себя файлы для загрузить (пара мелких PDF), нажимаю на "Открыть" и получаю сообщение "Файл с этим расширением загружать нельзя". Хотя на страничке вроде бы прописано, что PDF грузить можно. Делаю из них ZIP-архив и пытаюсь загрузить его - то же самое. На всякий случай пытаюсь с 7Z-архивом - то же самое.
Решил, что неправильно выбрал ветку ресурсов, вместо "Форум" попытался загрузить на "Файлообменник". Без изменений.

Что не так пошло?

Много шрифтов. Много проблем
Спасибо большое, похоже как раз по моей проблеме. Надо будет всем моим знакомым "пострадальцам" дать ссылку на нее. :)
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 189
Реакции
10 844

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 189
Реакции
10 844

Mikky

Участник
Сообщения
161
Реакции
13
ZIP должен грузиться, внимательно проверьте, чтото делаете не так значит
Вот как раз и пытаюсь понять, что у меня не так сделалось. :(

Сейчас попробовал загрузить через другой браузер - все прошло ОК, вот ссылка на мои PDF - https://forum.rudtp.ru/resources/obrazcy-pdf.1732//
Но получилось только через Оперу, через Firefox - ни в какую. При этом по манипуляциям - что тут, что там, один к одному. )):]

Ну вот, например, первое что нагуглилось
Или вот попдробнее
Спасибо, похоже что-то интересное. А на какое словосочетание вы искали, если такое в улове образовалось?
 
Последнее редактирование:

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 189
Реакции
10 844
Напомните пжл., зачем вы их демонстрируете.
Ты, вроде, обещал мастер-класс по определению исходного названия обезличенных шрифтов.
Хотя сейчас глянул - в приложенных файлах все шрифты называются своими именами.
 

~RA~

Одарённая.
12 лет на форуме
Сообщения
11 860
Реакции
3 450
обещал мастер-класс по определению исходного названия обезличенных шрифтов.
Хотя сейчас глянул - в приложенных файлах все шрифты называются своими именами.
Поэтому вопрос и возник.
 

suntory

Administrator
15 лет на форуме
Сообщения
23 425
Реакции
12 469
Хотя на страничке вроде бы прописано, что PDF грузить можно.
Можно, по одному, если несколько, то в архиве или каждый отдельным ресурсом загружать. В Firefox все работает.

вместо "Форум" попытался загрузить на "Файлообменник"
Все равно куда.
 

~RA~

Одарённая.
12 лет на форуме
Сообщения
11 860
Реакции
3 450

Mikky

Участник
Сообщения
161
Реакции
13
@~RA~
Очень извиняюсь, но с прошлой недели запамятовал, что нужны образцы не просто PDF с кракозябрами, а такие, где у шрифтов нестандартные имена. :(
Вот именно такая парочка - https://forum.rudtp.ru/resources/obrazcy-pdf-2.1735/.

В одном PDF кракозябры, в другом нормальная кодировка (текст копируется без видимых проблем). Но и там, и там в названиях встроенных шрифтов вместо чего-то привычного сплошная цифробуквенность.
 

Mikky

Участник
Сообщения
161
Реакции
13
Образовался PDF, у которого странности с текстовым слоем какого-то непонятного вида.
Открываю его, выделяю кусок текста (из разных мест), копирую в Word - все в порядке, никаких видимых проблем. Сохраняю этот же PDF в Word - часть текста идет нормально, у части какая-то каша с отображением символов. Но не привычные уже "кракозябры", а что-то другое, раньше такого не встречал - часть слова читается нормально, часть идет сплошной кашей. Сохраняю PDF в ТХТ - часть текста сохранилась нормально (те места, которые выглядят нормально в DOC-файле), а часть просто пропала - как раз те места, у которых в DOC поехала кодировка.
Никому такое раньше не попадалось?

Вот ссылка на архив с самим PDF и сделанными из него DOC и ТХТ - Проблемы с кодировкой и экспортом в DOC и TXT.
 
Последнее редактирование: