Поиск/извлечение текста

  • Автор темы Автор темы antabu
  • Дата начала Дата начала
Ну я ж там, вроде, расписал подробно, как и что делать?
Спасибо. Надо будет внимательно пройтись по вашему описанию и попробовать, как это будет получаться.

Если ОС современная, то достаточно не использовать шрифтов неизвестного происхождения, а также шрифтов устаревших форматов.
К сожалению, ситуация в общем виде может быть гораздо сложнее :( - вы наверняка не раз вокруг такое встречали.

ОС на машине у верстальщика может быть практически какая угодно. Приходилось слышать про редакции, которые до сих пор работают на технике конца 90-х, начала 2000-х, с соответствующим софтом - например, PageMaker 6.5. Они бы и рады перейти на что-нибудь посовременнее, но на это просто нету средств, не выделяют - в бюджетных учреждениях небольших городов с этим обычно проблемы. Такой вот "антиквариат" конечно скорее экзотика, но все равно старой техники и старого софта в редакциях, увы, хватает.
Со используемыми шрифтами достаточно типичная ситуация - сборная солянка из всего со всем. Что-то пришло с ОС, что-то скопировал у знакомых, что-то в Интернет нашел. В больших и серьезных организациях с этим, думаю, более или менее порядок, но в небольших редакциях на несколько человек - IMHO достаточно обыденная история.

Если у людей нет возможности поменять компы и софт, то остаются шрифты - прошерстить имеющиеся запасники, выкинуть оттуда все, что сделано с нарушениями стандартов, оставить только "правильные", сделанные без нарушений. А для этого надо иметь какой-то инструмент для сортировки - "мусор" налево, нормальные шрифты направо. Или хотя бы какой-то алгоритм действий, позволяющий сделать такое вручную.

Задача IMHO достаточно насущная, потому что встречается такое у многих - наглядный пример, упоминавшаяся здесь редация "Химии и жизни". Думаю, что люди часто и рады бы навести у себя порядок со шрифтами, но плохо представляют, как это сделать.
Я уже некоторое время пытаюсь найти подходящий инструмент (алгоритм), но пока ничего не накопалось.
 
Последнее редактирование:
Спасибо. Надо будет внимательно пройтись по вашему описанию и попробовать, как это будет получаться.
В принципе, существуют же редакторы, позволяющие редактировать таблицу соответствия символов юникодам. Infix, например
 
@Mikky, ситуацию со шрифтами решить можно очень просто: купить две-три гарнитуры из проверенного источника, у Паратайпа, у Леттерхеда или других производителей или дистрибуторов шрифтов с кириллицей. У них нередко по акции можно купить гарнитуры очень дешево, даже за 10% иногда. У заграничных продавцов акции чаще, но бюджнтникам там купить очень сложно, насколько я знаю. И выкинуть все остальные, кроме системных.
Для выпуска журнала/газеты 2 гарнитур (по 4-8 начертаний) вполне достаточно.
 
  • Спасибо
Реакции: George
@Mikky, ситуацию со шрифтами решить можно очень просто: купить две-три гарнитуры из проверенного источника, у Паратайпа, у Леттерхеда или других производителей или дистрибуторов шрифтов с кириллицей. У них нередко по акции можно купить гарнитуры очень дешево, даже за 10% иногда. У заграничных продавцов акции чаще, но бюджнтникам там купить очень сложно, насколько я знаю. И выкинуть все остальные, кроме системных.
Для выпуска журнала/газеты 2 гарнитур (по 4-8 начертаний) вполне достаточно.
Кэп obvious сегодня в ударе! Только ты забыл про "нюансы" беспощадного "русскоговорящего" менталитета.
 
  • Спасибо
Реакции: _MBK_ и Dmitrij M
"нюансы" беспощадного "русскоговорящего" менталитета.

Не по теме:
Что делать, если к вам пришли гости, а в доме нет продуктов?
Пошлите кухарку в погреб, пускай она нарежет холодной буженины, лососины, добавит мочёную клюкву, посыплет свежей зеленью и подаст на стол. Разлив домашней наливочки, извинитесь перед гостями.'))'

 
Ну, если звезды зажигают…
Паратайп и прочие уже много лет на рынке.
 
В принципе, существуют же редакторы, позволяющие редактировать таблицу соответствия символов юникодам. Infix, например
Что в Infix можно редактировать текстовую часть PDF я уже давно знаю. Но вот, чтобы таблицу соответствия символов - раньше слышать не приходилось. Где бы об этом поподробнее почитать?
И которая таблица соответствия имеется в виду - та, что в шрифте или та, которая уже в PDF (если ничего не путаю, вторая называется CMap).

ситуацию со шрифтами решить можно очень просто: купить две-три гарнитуры из проверенного источника, у Паратайпа, у Леттерхеда или других производителей или дистрибуторов шрифтов с кириллицей.
Если есть такая возможность - хотя бы иногда купить шрифты с приличной скидкой, то надо будет сказать об этом знакомым. Думаю для кого-то это будет приятная новость. :)
Но это скорее на будущее, что называется, пункт второй списка.

А пунктом первым для большинства все-таки будет приведение в порядок уже имеющихся запасов шрифтов. Вполне возможно, что после этого и покупать ничего не потребуется. :) Да и хлопот будет поменьше - все-таки работать с тем, что уже давно стоит и используется, проще и привычнее.
Поэтому опять тот же самый вопрос - есть ли какой-то способ рассортировать произвольную кучку шрифтов на сделанные в соответствии со стандартом и сделанные с разного рода нарушениями этих стандартов? Может утилита какая, может просто определенный алгоритм действий - главное, чтобы позволял сделать такую сортировку.

Извиняюсь за некоторое занудство - уже столько раз повторяю один и тот же вопрос. Но возможность отличить "правильные" шрифты от "неправильных" и избавиться от накопившегося "мусора" - для многих достаточно насущная проблема.


Не по теме:
Что делать, если к вам пришли гости ...
Елена Молоховец, если не ошибаюсь. :)

 
Где бы об этом поподробнее почитать?
На предыдущей странице треда '))'
которая уже в PDF (если ничего не путаю, вторая называется CMap).
Не путаете
Но возможность отличить "правильные" шрифты от "неправильных" и избавиться от накопившегося "мусора" - для многих достаточно насущная проблема.
IMHO - нетривиальная задача
Ибо там, по идее, масса подводных камней может быть. Разве что чисто по кодировке? 'hmmm'
 
На работе был приличный аврал, так что на некоторое время выпал из реальности. :)

Есть еще такая тулза
Вроде как и питстоп уметь должен
Спасибо большое, покопаю.
Только вот с Питстопом одна проблема - где бы к нему мануал на русском раздобыть. Все, что пока попадалось, достаточно "древнего" происхождения - например, где-то здесь в "Ресурсах" лежит мануал к пятому Питстопу (2001-й год). А сейчас в ходу уже десятая версия и старше.

Попробовал подойти к моей задаче с другой стороны - взять несколько проблемных PDF и посмотреть, что у них в "Свойствах", в закладке "Шрифты". Если в шрифте есть какая-то ненормальность с кодировкой, то в его свойствах может тоже проявиться что-то не совсем привычного вида. Накопалось несколько странностей, но пока не очень представляю, что они могут значить.
1. В свойствах шрифтов проблемных PDF, в строке "Кодировка" часто бывает прописано "Заказные". Заказная кодировка шрифта - это как понимать?
2. Когда смотришь в таких PDF названия шрифтов, то по большей части обычно-привычные имена. Но периодически встречается что-то совершенно экзотическое, вроде MSTT31c28f или TTE222B3A0T00+1. Это признак какой явной ненормальности или же именно "экзотика" (что-то вполне нормальное, но малоизвестное)?
3. Если в шрифте вполне нормальная кодировка (например, Ansi), но стоит "Встроенное подмножество", то часто с него сыплются "кракозябры". Здесь было сжатие шрифта (настройка "сокращать знаковый состав встраиваемых шрифтов")?
 
Вы на правильном пути. "Заказная кодировка" и "встроенное подмножество" - это первые признаки того, что, возможно, текст читаться не будет. В теме про обязательный экземпляр об этом неоднократно писали.
 
Страшные названия шрифтов связаны с тем, чтобы при обьединении PDF со встроенными шрифтами, одинаково называющимися, не происходило путаницы. Акробату весьма нетривиально установить идентичность таких шрифтов, и он, не мудрствуя лукаво, просто оставляет оба, переименовывая их по собственному разумению. К кодировке это никакого отношения не имеет.
 
такие имена обычно принтеры пишут в PostScript
Примерно с той же целью.
К примеру, в принтер вшит шрифт "Times New Roman", для того, чтобы не было конфликта с одноименным из макета, драйвер принтера при создании PS переименовывает встраиваемые шрифты в непроизносимую последовательность букв и цифр - вполне логично.
 
@_MBK_,
Тогда вроде бы получается достаточно несложная схема для приведения запасов шрифтов хотя бы в относительный порядок - пока буду разбираться с вашими ссылками.
1. В Дистиллере убираем настройку "Сокращать знаковый состав встраиваемых шрифтов". Таким образом чистим от беспорядка из п.3 моего списка.
2. Удаляем все шрифты с признаками из п.1.
3. Делаем PDF заново, смотрим исчезли ли "кракозябры".

Но тогда остаются два вопросительных знака.
Во-первых, часть шрифтов мы удалили, но из макета они при этом никуда не делись, ссылки на них там по прежнему стоят. Можно ли как-то объяснить Дистиллеру, чтобы он подставил вместо них что-то другое (чтобы не переверстывать все заново)? Или такое нереально? Извиняюсь, если вопрос с точки зрения верстальщика будет выглядеть бестолково, я в преобразовании PS-->PDF слабо разбираюсь. :)
Во-вторых, шрифты с невнятными названиями. Судя по тому, что в их свойствах часто прописано "Заказная кодировка" это тоже потенциальные кандидаты на удаление. Но как в этом случае разобраться, какие там были реальные шрифты (до переименования)?
 
Посмотрел по ссылке, там на страничке предлагается скачать axesPDF.QuickFix. А про нее сказано что "инструмент для проверки и исправления PDF документов".
Или я что-то перепутал и она все-таки для шрифтов?
 
@_MBK_,
Тогда вроде бы получается достаточно несложная схема для приведения запасов шрифтов хотя бы в относительный порядок - пока буду разбираться с вашими ссылками.
1. В Дистиллере убираем настройку "Сокращать знаковый состав встраиваемых шрифтов". Таким образом чистим от беспорядка из п.3 моего списка.
2. Удаляем все шрифты с признаками из п.1.
3. Делаем PDF заново, смотрим исчезли ли "кракозябры".

Но тогда остаются два вопросительных знака.
Во-первых, часть шрифтов мы удалили, но из макета они при этом никуда не делись, ссылки на них там по прежнему стоят. Можно ли как-то объяснить Дистиллеру, чтобы он подставил вместо них что-то другое (чтобы не переверстывать все заново)? Или такое нереально? Извиняюсь, если вопрос с точки зрения верстальщика будет выглядеть бестолково, я в преобразовании PS-->PDF слабо разбираюсь. :)
Во-вторых, шрифты с невнятными названиями. Судя по тому, что в их свойствах часто прописано "Заказная кодировка" это тоже потенциальные кандидаты на удаление. Но как в этом случае разобраться, какие там были реальные шрифты (до переименования)?
Вот и я тоже как то не понял, что именно вы удалили и откуда? Если шрифт уже внедрен в pdf и используется, то сделать с ним чтонибудь довольно сложно. Самое простое - скурвить, но существуют и более продвинутые варианты, внимательно читайте топик. Или вы о шрифтах в исходном макете?
Посмотрел по ссылке, там на страничке предлагается скачать axesPDF.QuickFix. А про нее сказано что "инструмент для проверки и исправления PDF документов".
Или я что-то перепутал и она все-таки для шрифтов?
Для pdf конечно. Для шрифтов есть более продвинутые инструменты.
 
Вот и я тоже как то не понял, что именно вы удалили и откуда?
Извиняюсь за невнятную формулировку - имелось в виду "из системной папки со шрифтами удалили те, у которых было обнаружено, что они с заказной кодировкой".

Если шрифт уже внедрен в pdf и используется, то сделать с ним что-нибудь довольно сложно
Лечить здесь IMHO все-таки предпочтительнее на уровне макета. Возни конечно будет побольше, но и результат получится более надежный (особенно если проблемные шрифты живут в шаблонах).

Или вы о шрифтах в исходном макете?
Именно о них - еще раз извиняюсь за не очень внятные формулировки сказанного.
Шрифты в макете присутствуют, но в системной папке со шрифтами их уже нет, удалены. Значит, сколько я понимаю, при преобразовании в PDF Дистиллер будет сообщать "такие-то шрифты не найдены". И потребуется переверстывать макет.
Вот если бы можно было как-то сказать Дистиллеру "вместо отсутствующих шрифтов подбери аналогичные" или "вместо шрифта **** подставь шрифт ****", то это бы заметно упростило людям жизнь. Если такое вообще возможно. :)

Для pdf конечно. Для шрифтов есть более продвинутые инструменты.
Так вопрос был именно о том, как проверить шрифты, как отсортировать сделанные с нарушениями. И если для это есть какие-то инструменты, да еще и "продвинутые" (а в идеале еще и бесплатные :) ), то это очень даже интересно.

Проверить PDF тоже конечно стоило бы попробовать. Но предложенный вами axesPDF.QuickFix, к сожалению, платный. И судя по этой ссылке - Buy axesPDF QuickFix - axes4, стоит очень даже приличную денежку.
Вот если на ту же работу найдется что-то бесплатное... :)

Судя по тому, что на второй вопрос ответа не было, выяснить какое было первоначальное название у переименованного шрифта нереально? Или все-таки с этим как-то можно разобраться?
 
существуют и более продвинутые варианты, внимательно читайте топик.
Прошелся по теме, начиная с самого начала. Очень и очень интересно (особенно первые страницы, там где писал 1998), однако катастрофически не хватает понимания - о каких деталях внутреннего устройства PDF там идет речь, что предлагается делать для исправления обсуждаемых проблем, как это предлагается делать.

Подскажите, пожалуйста, что и где надо почитать, чтобы иметь хотя бы общее представление об обсуждаемом, чтобы не тонуть в куче малознакомых терминов по внутреннему устройству PDF и по работе с ним.
И желательно на русском. :-)
 
Последнее редактирование:
А кто не обломался, тем еще предстоит ;)
Боюсь, ваш (на мой взгляд) чрезмерный оптимизм связан с недостаточным знакомством с проблемой
Шрифты в макете присутствуют, но в системной папке со шрифтами их уже нет, удалены. Значит, сколько я понимаю, при преобразовании в PDF Дистиллер будет сообщать "такие-то шрифты не найдены". И потребуется переверстывать макет.
Вот если бы можно было как-то сказать Дистиллеру "вместо отсутствующих шрифтов подбери аналогичные" или "вместо шрифта **** подставь шрифт ****", то это бы заметно упростило людям жизнь. Если такое вообще возможно.
Шрифты в макете никак не связаны со шрифтами в системной папке дистиллера. Подбор аналогичных шрифтов на автомате невозможен по определению, макет гарантированно рассыпется.
Так вопрос был именно о том, как проверить шрифты, как отсортировать сделанные с нарушениями.
Лично я не являюсь специалистом по программированию и разработке шрифтов, хотя на этом форуме и те и другие теоретически присутствуют. В любом случае, это совершенно другой вопрос и даже другой раздел форума. Правда, вангую, что первое, что они вам ответят, если вы создадите новую правильную тему в том разделе "пользуйтесь кошерными лицензионными шрифтами, купленными у Паратайпа" Как то так... :(
Проверить PDF тоже конечно стоило бы попробовать. Но предложенный вами axesPDF.QuickFix, к сожалению, платный. И судя по этой ссылке - Buy axesPDF QuickFix - axes4, стоит очень даже приличную денежку.
Вот если на ту же работу найдется что-то бесплатное...
Вы, вероятно, неправильно меня поняли. Я вовсе не рекомендовал эту утилиту для проверки и приведения макета к надлежащему виду, более того, лично я ее даже не запускал ни разу. И, скорее всего, Кэп подсказывает, что она с проблемами кодировки кириллического текста она и не поможет. На самом деле это просто одна из программ (к сожалению, из немногих), которая позволяет руками ремэпить символы кастомной кодировки на правильные юникодные позиции. Sad but true
Из более дешевых аналогов аналогичного действия - Foxit, из дорогих, но продвинутых - питстоп. Но, повторяю, это не волшебные кнопки, все надо делать кропотливо руками.
Судя по тому, что на второй вопрос ответа не было, выяснить какое было первоначальное название у переименованного шрифта нереально? Или все-таки с этим как-то можно разобраться?
В 90% случаев можно, ибо даже истерзанный шрифт в своем коде должен хранить оригинальное имя, другое дело, что найти его довольно непросто.
Подскажите, пожалуйста, что и где надо почитать, чтобы иметь хотя бы общее представление об обсуждаемом, чтобы не тонуть в куче малознакомых терминов по внутреннему устройству PDF и по работе с ним.
И желательно на русском.
Снова вынужден вас огорчить, боюсь, данный топик и есть самый толковый рускоязычный ресурс по особенностям внутреннего строения PDF, а с уходом Вадима тут и специалистов, особо могущих вам что-то подсказать по данному вопросу практически не осталось. :( Если вы действительно хотите в данном вопросе разобраться и вас не пугает необходимость становиться программистом для этого, покурите, например, вот это. Попутно можно установить какой-нибудь PDFTK или PoDoFo и при помощи них поковыряться в кишках PDF на низком уровне.