Создать PDF со следующими требованиями

  • Автор темы Автор темы alexm
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.

alexm

Участник
Топикстартер
Сообщения
2
Реакции
0
Добрый день!

Я занимаюсь разработкой поисковой системы, позволяющей искать документы, находящиеся в БД Oracle с использованием опции Oracle Text. Я столкнулся с проблемой, при которой рускоязычный PDF-документ неправильно индексируется. После консультации с техподдержкой, выяснилось, что русскоязычный документ PDF может индексироваться только если он соответствует следующим условиям:

Multi-byte PDFs are supported, provided the PDF document is created using
Character ID-keyed (CID) fonts, predefined CJK CMap files, or ToUnicode font encodings, and the document does not contain embedded fonts.
See the Adobe website and the Adobe Acrobat documentation for more information.
To determine the type of font encodings that are used in a PDF, open the PDF
document in Adobe Acrobat, and select File->Document Info->Fonts. If the
Encodings column lists Custom or Embedded encodings, then you may encounter problems filtering the PDF document.

Как я понял, документ не должен содержать встроенные шрифты. И собственно вопросы:
1. я правильно понял?
2. Можно ли сделать такой документ с использованием Adobe?
 
Ответ: Создать PDF со следующими требованиями

Запретил встраивание шрифтов в PDF-документ. Теперь все работает успешно. Хотя конечно вопрос, как теперь будут выглядеть документы на разных платформах остается. Ну да ладно.
 
Ответ: Создать PDF со следующими требованиями

ИМХО: не только на разных платформах, но и на разных компьютерах.
 
Ответ: Создать PDF со следующими требованиями

alexm сказал(а):
Как я понял, документ не должен содержать встроенные шрифты. И собственно вопросы:
1. я правильно понял?
2. Можно ли сделать такой документ с использованием Adobe?
1. Не правильно. Без встроенных шрифтов - это один из вариантов.
2. Там же написано: If the Encodings column lists Custom or Embedded encodings, then you may encounter problems filtering the PDF document. Решение - попытайтесь выключить Subset вообще. PDF, конечно, распухнут, но проблема, вероятно, решится. С другой стороны, не всякий фонт попадёт в PDF в виде CID или Unicode. Индезайн этому требованию вполне соответствует, если применяются TTF/OTF шрифты.

Евгений правильно заметил - на компьютерах, где нет нужных шрифтов, весь текст на экране превратится либо в буллеты, либо вообще исчезнет.
 
Ответ: Создать PDF со следующими требованиями

ABBYY PDF Transformer является удобным инструментом для конвертирования целых PDF-документов и отдельных страниц в электронные документы в форматах Microsoft Word, Microsoft Excel, HTML, RTF, TXT или PDF-документы с возможностью полнотекстового поиска. Это не реклама, PDF Transformer правит Encoding и ToUnicode в subset'ах. Правда Type 1 переводит в TrueType. Видимо для офисного документооборота это предпочтительно.
 
Статус
Закрыто для дальнейших ответов.