Добрый день!
Я занимаюсь разработкой поисковой системы, позволяющей искать документы, находящиеся в БД Oracle с использованием опции Oracle Text. Я столкнулся с проблемой, при которой рускоязычный PDF-документ неправильно индексируется. После консультации с техподдержкой, выяснилось, что русскоязычный документ PDF может индексироваться только если он соответствует следующим условиям:
Multi-byte PDFs are supported, provided the PDF document is created using
Character ID-keyed (CID) fonts, predefined CJK CMap files, or ToUnicode font encodings, and the document does not contain embedded fonts.
See the Adobe website and the Adobe Acrobat documentation for more information.
To determine the type of font encodings that are used in a PDF, open the PDF
document in Adobe Acrobat, and select File->Document Info->Fonts. If the
Encodings column lists Custom or Embedded encodings, then you may encounter problems filtering the PDF document.
Как я понял, документ не должен содержать встроенные шрифты. И собственно вопросы:
1. я правильно понял?
2. Можно ли сделать такой документ с использованием Adobe?
Я занимаюсь разработкой поисковой системы, позволяющей искать документы, находящиеся в БД Oracle с использованием опции Oracle Text. Я столкнулся с проблемой, при которой рускоязычный PDF-документ неправильно индексируется. После консультации с техподдержкой, выяснилось, что русскоязычный документ PDF может индексироваться только если он соответствует следующим условиям:
Multi-byte PDFs are supported, provided the PDF document is created using
Character ID-keyed (CID) fonts, predefined CJK CMap files, or ToUnicode font encodings, and the document does not contain embedded fonts.
See the Adobe website and the Adobe Acrobat documentation for more information.
To determine the type of font encodings that are used in a PDF, open the PDF
document in Adobe Acrobat, and select File->Document Info->Fonts. If the
Encodings column lists Custom or Embedded encodings, then you may encounter problems filtering the PDF document.
Как я понял, документ не должен содержать встроенные шрифты. И собственно вопросы:
1. я правильно понял?
2. Можно ли сделать такой документ с использованием Adobe?