Поиск/извлечение текста

suntory · 23.08.2017

Mikky сказал(а):
Вот если бы можно было как-то сказать Дистиллеру "вместо отсутствующих шрифтов подбери аналогичные" или "вместо шрифта **** подставь шрифт ****", то это бы заметно упростило людям жизнь

У Postscript принтеров есть Таблица подстановки шрифтов. Но я бы так сделать не стал.

Mikky сказал(а):
как проверить шрифты, как отсортировать сделанные с нарушениями

Какими именно?

_MBK_ сказал(а):
вангую, что первое, что они вам ответят

Не факт, что поможет.

_MBK_ · 23.08.2017

suntory сказал(а):
Какими именно?

Mikky сказал(а):
у которых было обнаружено, что они с заказной кодировкой

Чуть не забыл сказать, кстати, что "заказная кодировка" появляется уже на этапе выборки использующихся символов в PDF, в исходном шрифте, конечно, никакой заказной кодировки при этом нет.

~RA~ · 23.08.2017

_MBK_ сказал(а):
найти его довольно непросто

Довольно просто.

_MBK_ · 23.08.2017

~RA~ сказал(а):
Довольно просто.

Универсальный рецепт в студию!

~RA~ · 23.08.2017

Давайте файл, на его основе покажу.

Mikky · 23.08.2017

_MBK_ сказал(а):
Боюсь, ваш (на мой взгляд) чрезмерный оптимизм связан с недостаточным знакомством с проблемой

А значит придется знакомиться с ней более глубоко. Чтобы оптимистом быть в меру и по делу.

Не по теме:
Я в общем-то работаю в достаточно другой области, но как ехидно (и вполне справедливо) сказало мне мое начальство: "Инициатива наказуема ее исполнением". В смысле если уж ввязался во всю эту головомороку, то будь добр и дальше тяни.
А как было не ввязаться? Сил уже нет смотреть на этот гармыдр с обязательным экземпляром, сколько людей с него на пустом месте мучаются.

_MBK_ сказал(а):
Шрифты в макете никак не связаны со шрифтами в системной папке дистиллера. Подбор аналогичных шрифтов на автомате невозможен по определению, макет гарантированно рассыпется.

Значит людям надо будет переделывать макеты. Жалко конечно, но что поделаешь.

Впрочем еще остается палочка-выручалочка по имени PDF-Recoder. Может быть с его помощью этот геморрой хотя бы частью удастся снимать.

_MBK_ сказал(а):
В любом случае, это совершенно другой вопрос и даже другой раздел форума.

Значит и туда надо будет потом сходить. В эту тему я больше случайно попал, знакомые ссылку дали.

_MBK_ сказал(а):
Вы, вероятно, неправильно меня поняли.

Скорее всего так. Разговор шел о шрифтах, вот я и решил, что она тоже для шрифтов.

_MBK_ сказал(а):
Из более дешевых аналогов аналогичного действия - Foxit, из дорогих, но продвинутых - питстоп.

Сколько я вас понял, и то, и другое тоже для правки проблем с кодировкой символов в PDF (т.е. в каком-то смысле они аналоги PDF-Recoder'а)?

_MBK_ сказал(а):
боюсь, данный топик и есть самый толковый рускоязычный ресурс по особенностям внутреннего строения PDF,

Значит повезло, что именно сюда попал (хотя вроде бы совершенно случайно).

_MBK_ сказал(а):
Если вы действительно хотите в данном вопросе разобраться и вас не пугает необходимость становиться программистом

Разобраться похоже таки необходимо - раз уж имел неосторожность ввязаться во все это.

А насчет "становиться программистом" буду оптимистически надеяться, что пронесет (в последний раз я программировал еще во времена Паскаля

).
Но если таки и до этого дойдет - значит иншалла.

_MBK_ сказал(а):
покурите, например, вот это.

1300 страниц, да еще на английском - утону и даже не булькну. И сколько я понимаю, PDF Reference на русский не переводилась?
Если это действительно так (есть только на английском), то может посоветуете с каких мест там надо начать - чтобы получить хотя бы эскизное представление об обсуждаемых здесь проблемах, но при этом не тонуть в куче не очень нужных в данный момент деталей и подробностей?

_MBK_ сказал(а):
Чуть не забыл сказать, кстати, что "заказная кодировка" появляется уже на этапе выборки использующихся символов в PDF, в исходном шрифте, конечно, никакой заказной кодировки при этом нет.

Спасибо, до этого я уже допер.

Дистиллер сокращает внедряемый в PDF набор символов какого-то шрифта. А у этого шрифта расположение символов внутри него нестандартное, в смысле обсуждаемых здесь проблем. Дистиллер видит, что ни во что известное полученное не вписываться, пожимает плечами и пишет "Заказная кодировка".

suntory сказал(а):
Какими именно?

Сейчас, сколько я вижу, основная головная боль со шрифтами - перепутаница с расположением символов в них. Там, где в шрифте в норме должны лежать символы определенной кодовой таблицы, лежат символы совсем другой кодовой таблицы.
И хорошо бы уметь как-то отличить вот такие "перепутанные" шрифты от нормальных (где все символы лежат там, где им и полагается по стандарту).

~RA~ сказал(а):
Давайте файл, на его основе покажу.

А как здесь полагается выкладывать файлы? Внешние ссылки вроде бы не приветствуются, а как еще можно - уже подзабыл.

_MBK_ · 23.08.2017

Mikky сказал(а):
Сколько я вас понял, и то, и другое тоже для правки проблем с кодировкой символов в PDF (т.е. в каком-то смысле они аналоги PDF-Recoder'а)?

В какой то степени да - просто там по одному символу править надо, а тут вроде пакетно перекодируется.

Mikky сказал(а):
И сколько я понимаю, PDF Reference на русский не переводилась?

Правильно понимаете.

Mikky сказал(а):
Если действительно так, то может посоветуете с каких мест там надо начать - чтобы получить хотя бы эскизное представление об обсуждаемых здесь проблемах, но при этом не тонуть в не очень нужных в данный момент деталях и подробностях?

Задавайте конкретные вопросы - будем пытаться отвечать по мере сил

Mikky сказал(а):
Дистиллер видит, что ни во что известное полученное не вписываться, пожимает плечами и пишет "Заказная кодировка".

Не совсем так. Дистиллер, собственно, и создает эту "заказную кодировку" из усеченного набора символов.

Mikky сказал(а):
А как здесь полагается выкладывать файлы?

Ресурсы

suntory · 23.08.2017

Mikky сказал(а):
Там, где в шрифте в норме должны лежать символы определенной кодовой таблицы, лежат символы совсем другой кодовой таблицы.

Много шрифтов. Много проблем

Mikky · 24.08.2017

_MBK_ сказал(а):
Задавайте конкретные вопросы - будем пытаться отвечать по мере сил

Не знаю можно ли это назвать конкретным вопросом, но первое, что будет необходимо - из всего объема PDF Reference отобрать те материалы (главы, параграфы и т.д.), которые нужны, чтобы понимать обсуждаемое здесь - шрифты, кодировки, внутреннее представление всего этого в структуре PDF и т.д., и т.п. Плюс надо разобраться, что из PDF Reference требуется прочитать в смысле вводного минимума, чтобы представлять себе общее устройство PDF, его внутреннюю структуру, организацию и т.д.

И здесь без вашей помощи не обойтись. Иначе придется читать все подряд, а это бочка бездонная.

_MBK_ сказал(а):
Ресурсы

Иду по этой ссылке, в первом окошке выбираю "Форум" (все остальные варианты вроде бы не подходят), затем выбираю у себя файлы для загрузить (пара мелких PDF), нажимаю на "Открыть" и получаю сообщение "Файл с этим расширением загружать нельзя". Хотя на страничке вроде бы прописано, что PDF грузить можно. Делаю из них ZIP-архив и пытаюсь загрузить его - то же самое. На всякий случай пытаюсь с 7Z-архивом - то же самое.
Решил, что неправильно выбрал ветку ресурсов, вместо "Форум" попытался загрузить на "Файлообменник". Без изменений.

Что не так пошло?

suntory сказал(а):
Много шрифтов. Много проблем

Спасибо большое, похоже как раз по моей проблеме. Надо будет всем моим знакомым "пострадальцам" дать ссылку на нее.

_MBK_ · 24.08.2017

Mikky сказал(а):
вводного минимума

Ну вот, например, первое что нагуглилось
Или вот попдробнее

_MBK_ · 24.08.2017

Mikky сказал(а):
Делаю из них ZIP-архив и пытаюсь загрузить его - то же самое.

ZIP должен грузиться, внимательно проверьте, чтото делаете не так значит

Mikky · 28.08.2017

_MBK_ сказал(а):
ZIP должен грузиться, внимательно проверьте, чтото делаете не так значит

Вот как раз и пытаюсь понять, что у меня не так сделалось.

Сейчас попробовал загрузить через другой браузер - все прошло ОК, вот ссылка на мои PDF - https://forum.rudtp.ru/resources/obrazcy-pdf.1732//
Но получилось только через Оперу, через Firefox - ни в какую. При этом по манипуляциям - что тут, что там, один к одному. )):]

_MBK_ сказал(а):
Ну вот, например, первое что нагуглилось
Или вот попдробнее

Спасибо, похоже что-то интересное. А на какое словосочетание вы искали, если такое в улове образовалось?

~RA~ · 28.08.2017

Mikky сказал(а):
мои PDF

Напомните пжл., зачем вы их демонстрируете.

_MBK_ · 28.08.2017

~RA~ сказал(а):
Напомните пжл., зачем вы их демонстрируете.

Ты, вроде, обещал мастер-класс по определению исходного названия обезличенных шрифтов.
Хотя сейчас глянул - в приложенных файлах все шрифты называются своими именами.

~RA~ · 28.08.2017

_MBK_ сказал(а):
обещал мастер-класс по определению исходного названия обезличенных шрифтов.
Хотя сейчас глянул - в приложенных файлах все шрифты называются своими именами.

Поэтому вопрос и возник.

suntory · 28.08.2017

Mikky сказал(а):
Хотя на страничке вроде бы прописано, что PDF грузить можно.

Можно, по одному, если несколько, то в архиве или каждый отдельным ресурсом загружать. В Firefox все работает.

Mikky сказал(а):
вместо "Форум" попытался загрузить на "Файлообменник"

Все равно куда.

~RA~ · 28.08.2017

Mikky сказал(а):
А вы в начале страницы писали:

~RA~ сказал(а):
Давайте файл, на его основе покажу.

Так

_MBK_ сказал(а):
в приложенных файлах все шрифты называются своими именами.

Что показывать-то? 'hz'

Mikky · 28.08.2017

@~RA~
Очень извиняюсь, но с прошлой недели запамятовал, что нужны образцы не просто PDF с кракозябрами, а такие, где у шрифтов нестандартные имена.

Вот именно такая парочка - https://forum.rudtp.ru/resources/obrazcy-pdf-2.1735/.

В одном PDF кракозябры, в другом нормальная кодировка (текст копируется без видимых проблем). Но и там, и там в названиях встроенных шрифтов вместо чего-то привычного сплошная цифробуквенность.

~RA~ · 28.08.2017

_MBK_ сказал(а):
в своем коде должен хранить оригинальное имя

Не хранит он его.

Mikky · 19.09.2017

Образовался PDF, у которого странности с текстовым слоем какого-то непонятного вида.
Открываю его, выделяю кусок текста (из разных мест), копирую в Word - все в порядке, никаких видимых проблем. Сохраняю этот же PDF в Word - часть текста идет нормально, у части какая-то каша с отображением символов. Но не привычные уже "кракозябры", а что-то другое, раньше такого не встречал - часть слова читается нормально, часть идет сплошной кашей. Сохраняю PDF в ТХТ - часть текста сохранилась нормально (те места, которые выглядят нормально в DOC-файле), а часть просто пропала - как раз те места, у которых в DOC поехала кодировка.
Никому такое раньше не попадалось?

Вот ссылка на архив с самим PDF и сделанными из него DOC и ТХТ - Проблемы с кодировкой и экспортом в DOC и TXT.

Поиск/извлечение текста

Administrator

Пикирующий бомбардировщик

🄯

Пикирующий бомбардировщик

🄯

Участник

Пикирующий бомбардировщик

Administrator

Участник

Пикирующий бомбардировщик

Пикирующий бомбардировщик

Участник

🄯

Пикирующий бомбардировщик

🄯

Administrator

🄯

Участник

🄯

Участник