Проблема: разные кодировки в одном PDF-файле

  • Автор темы Автор темы Legos_SPb
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.

Legos_SPb

Участник
Топикстартер
Сообщения
32
Реакции
0
Привет, народ!
Помогите, пож., решить проблему. Книга сверстана, уже в печати. У типографии претензий не возникло. Но заказчика не устраивает PDF для размещения в интернете.

Из письма:
"В PDF с электронной версией книги, к сожалению, есть проблемы.
Весь текст, который написан не русским и не латинским алфавитом (японская и китайская иероглифика), закодирован с использованием Private Use Characters (U+100000—...).
Видимо это произошло при экспорте в PDF, некоторые программы так делают.
Хотя такой текст и отображается абсолютно корректно при просмотре файла, такая перекодировка приводит к невозможности поиска в нем этих иероглифических отрывков, копированию их из файла и, соответственно, корректной индексации файла PDF поисковыми машинами и включения их в свою выдачу.
Просим Вас переделать электронный файл, чтобы всё было в порядке (в вёрстках таких проблем не было)."

Слова, о которых он пишет (китайский, японский), были набраны в Wordв кодировке Unicode. У меня всё "ищется" и взаимно копируется (Word --> Acrobat--> InDesign в любой последовательности).
Не знал, что в одном PDF-файле могут быть различные кодировки в разных словах абзаца.

Первый вопрос банальный: как я могу определить кодировку фрагмента текста в Acrobat? Допустим, выделив несколько слов инcтрументом "Selecttext" ("TouchUpTexttool"), могу посмотреть через контекстное меню свойства: Шрифт, кегль. А каким образом можно выяснить кодировку?

Второй вопрос не банальный... Как сделать PDF, чтобы весь текст был в одной кодировке Unicode, какая была изначально в Ворде?

Спасибо за помощь!
 
Да, проблема весьма серьезная. И пути решения (применительно к PDF) весьма нетривиальные, была темка на этот счет, правда, применительно к кириллице.
А каким образом можно выяснить кодировку?
Для начала, выделить текст в акробате и вставить в ворд. При неправильной кодировке вставится лажа.
 
Вставляется и в Ворд, и в Индиз идеально. Как это "при неправильной кодировке"? Я так понимаю, что все кодировки правильные... Мне нужно узнать в числе прочего - какая именно кодировка в Акробате, ее название.
 
В смысле "название кодировки"? Никак. Можете мосмотреть юникодный код вставленного символа и сделать вывод.
 
Ну, как же? Любая кодировка имеет название, например: Юникод, ISCII, ISO, Windows-1251, ANSI...
Наверное, я во что-то не въезжаю.
 
Обратите внимание на эту фразу:
Весь текст, который написан не русским и не латинским алфавитом (японская и китайская иероглифика), закодирован с использованием Private Use Characters (U+100000—...).
То есть, если код символа начинается с U+100000... - это значит кодировка - Private Use Characters
К примеру, кириллическая кодовая страница - U+0400
 
Вот это для меня и загадка: как чел. узнал, что это - кодировка Private Use Characters (U+100000—...), имея просто PDF-файл? Я буду делать PDF всякими другими разными способами - как я могу проконтролировать, что эта кодировка изменилась, перестала быть Private Use Characters?
 
как я могу проконтролировать
Для начала, выделить текст в акробате и вставить в ворд


Не по теме:
Private use area это не кодировка, и там может быть что угодно, в этом его смысл.
Любая кодировка имеет название, например: Юникод, ISCII, ISO, Windows-1251
Тут у вас тоже перемешаны стандарты и кодировка (Windows-1251)

 
Похоже, вы меня совсем не понимаете... 'otbline'
Вы внимательно прочитали то, что написано по приведенным ссылкам?
В PDF файле каждый символ хранится в виде своего юникодного кода (или в виде 8битного кода, которому в соответствие приведен юникодный код, но пока не будем об этом для простоты)
Диапазоны данных кодов называются кодовыми страницами. К примеру, если код символа от 100000 до 10FFFD (в шестнадцатиричном виде), то символы входят в какую-то совершенно безумную кодовую страницу, которую вики именует Private Use Area (Supplemental Private Use Area-B) Уже из названия следует, что это какая-то зарезервированная страница для служебного пользования и к иероглифам имеет совершенно косвенное отношение. Так понятнее?
 
1. Как вы делаете пдф? (я понабрал китайско-японскими иероглифами страницу - всё в норм.юникоде)
2. Дайте его на просмотр.
 
Статус
Закрыто для дальнейших ответов.