Шрифт HiddenHorzOCR

suntory

Administrator
15 лет на форуме
Сообщения
23 425
Реакции
12 472
В общем если цель максимальное покрытие Unicode в одном шрифте, то надо искать нормальные шрифты с контурами
Unicode font - Wikipedia
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 198
Реакции
10 848
В общем если цель максимальное покрытие Unicode в одном шрифте
В данный момент цель - понимание сути происходящего топикстартером.
Мне кажется, он упорно не желает принимать тот факт, что шрифты бывают "фиктивные"
Как это так - текст выделяется, копируется, а шрифта нет? '%)'
 

J.Kovalev

Участник
Топикстартер
Сообщения
27
Реакции
47
Изначально данная «тема» была создана мною на форуме с просьбой содействия в решении чисто технической задачи. Сама задача возникла после того, как я увидел в тексте, перенесенном прямым копированием содержимого невидимого текстового слоя из файла формата PDF в текстовый редактор MS Word 2007, области текста, в которых, якобы, использован шрифт «HiddenHorzOCR» !?
Я очень удивился увиденному. При этом коды символов соответствовали кодировкам «Ansi» и «Unicod», но текст не редактировался с использованием такого «шрифта»: при редактировании немедленно заменялся на «основной» - в моем случае на «Calibri». Ранее я был уверен в том, что такого шрифта в природе НЕТ, поскольку, на самом деле, «HiddenHorzOCR» - это не шрифт, а набор «инструкций» для системы OCR документа PDF в среде «Adobe Acrobat Pro». Этот набор связывает оцифровываемый символ на исходном изображении с реальным печатным символом, создаваемым на скрытом текстовом слое документа наборами «инструкций» с именем «HiddenHorzOCR» или разнообразными «Fdxxxx», «Arial-xxxx», «Calibri-xxxx» и т.п . Создаваемый таким образом реальный печатный символ не имеет заливки и обводки, но имеет тип "Composite T1", статус "Embedded (T1)", кодировку "Identity-H", свою встроенную таблицу "toUnicode CMap", связывающую печатное отображение распознанного символа с реальным изображением соответствующего символа в системе координат «Unicode». Я также был уверен в том, что такой прием используется только в ПО, работающем с документами формата PDF. Но когда я неожиданно увидел этот «шрифт» в тексте в среде текстового редактора «Microsoft Word 2007», я решил более подробно изучить это явление.
Первопричиной всех моих этих исследований была проблема наличия многочисленных ошибок при выполнении полнотекстового поиска в документах PDF, оцифрованных с помощью системы OCR «Adobe Acrobat Pro». Перечень ошибок огромен! Прежде всего, он зависит от качества оцифровываемого изображения. Но даже при идеальном качестве изображения, результат существенно зависит от глифа (конкретного графического начертания графемы или её части, или сочетания нескольких графем) в различных шрифтах, и способа оцифровки: «Изображение с поиском» , «ClearScan», «Редактируемый текст и изображение с использованием системных шрифтов», «Редактируемый текст и изображение без использования системных шрифтов». Для понимания происхождения этих ошибок мне захотелось увидеть результат этой оцифровки. На этой стадии поиска решения проблемы и была создана эта «тема» на форуме.
После внимательного изучения результата структуры документа с помощью инструмента «Допечатная подготовка» (Preflite) в среде «Adobe Acrobat Pro» я решил-таки задачу «как увидеть результат оцифровки», и был просто шокирован тем, что я увидел. Оказалось, что система OCR «Adobe Acrobat Pro» работает ОЧЕНЬ некорректно: ошибок распознавания ОЧЕНЬ много, - поэтому так много ошибок при выполнении полнотекстового поиска в оцифрованном документе формата PDF.
Исследование проводилось для версий Adobe Acrobat Pro: 9, X, XI, DC2018.009.2044. В итоге я пришел к выводу, о том, что в настоящее время система OCR «Adobe Acrobat Pro» ОГРАНИЧЕННО пригодна для организации полнотекстового поиска в создаваемых с её помощью собственных документах формата PDF. В продолжение своих поисков решения главной задачи, я начал изучать возможности других программ со встроенными системами OCR и увидел, что есть гораздо более корректно работающие «оцифровщики». Но это уже - немного «другая тема».
ИТОГО: Поиск решения главной задачи продолжается. Тема данной "публикации" себя исчерпала, и может быть закрыта!
Всем СПАСИБО от "топикстартера"! 'thank'
 

andrejK

R.I.P.
Сообщения
10 300
Реакции
5 218
вся тема была подводкой к файнридеру? 'hmmm'
 
  • Спасибо
Реакции: VVVSLAVA

J.Kovalev

Участник
Топикстартер
Сообщения
27
Реакции
47
вся тема была подводкой к файнридеру?
upload_2017-12-4_14-25-20.gif

А вот и НЕТ! «ABBYY Finereader» - это специализированный профессиональный высокотехнологичный инструмент, с помощью которого можно сделать высококачественную оцифровку, но это уже только в самом крайнем случае! Это – «последняя инстанция», но с ним очень "хлопотно" работать, и в большинстве случаев вполне можно обойтись и без него! Более того, в некоторых случаях очень важно точно сохранить внешний вид (файл изображения) страницы исходного документа, и «ABBYY Finereader» для этого не годится. Поэтому я изучал возможности основного инструмента создания интерактивных электронных документов – «Adobe Acrobat Pro», и сравнивал их с аналогичными: PDF Master Editor, PDF-XChange Editor, Ashampoo PDF Editor …, в которых процесс оцифровки выполняется по своим индивидуальным технологиям, отличающимся "наборами инструкций" для создания скрытого текстового слоя и качеством оцифровки.

Все эти "инструкции", как правило, находятся в поддиректории "\resource", располагающейся в основной директории ПО. Теоретически можно корректировать эти инструкции, и лучше всего это делать с помощью самих разработчиков ПО, но это не быстрый процесс, и не все разработчики реагируют правильно на подобные просьбы, или реагирую очень медленно. Например, меня очень удивило то, что даже самые последние версии многих ПО некорректно оцифровывают давным-давно известный всем символ валюты «Английский Фунт», не говоря уже об относительно новом символе валюты «Российский Рубль». И таких примеров могу привести несколько десятков!!! Поэтому для меня было важно просто увидеть результат оцифровки и быстро внести в него необходимые коррективы.

То, что я хотел, получилось, на удивление, довольно просто и быстро. Оказалось, что «виртуальный шрифт», который является «системным и недоступным» в одном ПО, становится «не системным и доступным» в другом ПО. В «инструкциях» системы OCR такого ПО часто используется шрифт «Arial» для реального отображения содержимого скрытого текстового слоя. Дальше было всё просто: оцифровал файл формата PDF в одном ПО, затем открыл оцифрованный PDF в другом ПО, и недоступный «системный виртуальный шрифт» одного ПО становится «не системным и доступным» для другого ПО. При этом появляется возможность управлять видимостью и размером «чужого системного виртуального шрифта». А если заменить ещё «чужака» на системный шрифт «Arial Unicode MS обычный», установленный в MS Windows 7, то можно добавить в нужных местах нужные символы из стандарта «Unicode». К тому же можно удалить из документа все внедренные шрифты, поскольку они становятся лишними, и размер файла такого документа существенно уменьшится. После корректировки содержимое скрытого текста вновь делается невидимым и система полнотекстового поиска работает безошибочно! :)
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 198
Реакции
10 848
Я, конечно,снимаю шляпу перед вашей целеустремленностью понять процесс, однако, логика вашего понимания весьма парадоксальна.
То что встроенная в акробат система распознавания символов глючна, убога и криво прикручена к кириллице - понятно любому безо всяких тестов. Вовсе необязательно было тратить столько времени и сил, чтобы на примерах убедиться в этом очевидном факте и начать пользоваться файнридером, как все нормальные люди.
Далее вы пишете таким тоном, как будто сделали некое эпохальное открытие-
Оказалось, что «виртуальный шрифт», который является «системным и недоступным» в одном ПО, становится «не системным и доступным» в другом ПО.
Почему то вы упорно не принимаете тот факт, что шрифты, вообще-то могут подменяться при открытии PDF в разных программах и в данном случае и происходит такая замена залепушного псевдошрифта на умолчательный - Ариал
 

suntory

Administrator
15 лет на форуме
Сообщения
23 425
Реакции
12 472
Оказалось, что «виртуальный шрифт», который является «системным и недоступным» в одном ПО
Вас просто ввели в заблуждение нетрадиционным использованием термина "системный шрифт" или это трудности перевода. Системные шрифты это предустановленные с операционной системой, а этот внутренний акробатовский псевдошрифт, к системным он отношения не имеет.
 

J.Kovalev

Участник
Топикстартер
Сообщения
27
Реакции
47
Вас просто ввели в заблуждение нетрадиционным использованием термина "системный шрифт" или это трудности перевода. Системные шрифты это предустановленные с операционной системой, а этот внутренний акробатовский псевдошрифт, к системным он отношения не имеет.
Так и было. Но с ВАШЕЙ помощью я существенно скорректировал свои знания по этому вопросу. СПАСИБО! :)
 

J.Kovalev

Участник
Топикстартер
Сообщения
27
Реакции
47
Я, конечно,снимаю шляпу перед вашей целеустремленностью понять процесс, однако, логика вашего понимания весьма парадоксальна.
То что встроенная в акробат система распознавания символов глючна, убога и криво прикручена к кириллице - понятно любому безо всяких тестов. Вовсе необязательно было тратить столько времени и сил, чтобы на примерах убедиться в этом очевидном факте и начать пользоваться файнридером, как все нормальные люди.
Понятно любому??? Так НЕ бывает! Во-первых, далеко не все это знают. Во-вторых, мало кто знает степень этой "кривизны" для решения вопроса для СЕБЯ о допустимости мириться с ней! В-третьих, ваш менторский, поучительный тон в ответах на мой вопрос мне представляется совершенно неуместным и унизительным для меня: я просил совета, а меня "тычут носом и поучают"! НЕ надо меня поучать - вполне обойдусь без ваших нравоучений!
 

J.Kovalev

Участник
Топикстартер
Сообщения
27
Реакции
47
Почему то вы упорно не принимаете тот факт, что шрифты, вообще-то могут подменяться при открытии PDF в разных программах и в данном случае и происходит такая замена залепушного псевдошрифта на умолчательный - Ариал
Именно этого я и не знал, поэтому спросил совета на форуме. Но понял это я самостоятельно, а не в результате ваших нравоучений! Я очень разочарован тем, что пришел сюда спросить совета!!! 3-4 дня самостоятельных поисков, - и мне БЕЗ вас стало ясно что делать дальше, и что на этом форуме мало кто может действительно оказать помощь в решении проблемы, зато есть масса любителей заниматься нравоучениями, - это ужасно. Принял к сведению!!!
 

J.Kovalev

Участник
Топикстартер
Сообщения
27
Реакции
47
... Далее вы пишете таким тоном, как будто сделали некое эпохальное открытие- ...

Не услышав ответа на свой вопрос здесь на форуме, я нашел его самостоятельно, и затем просто бескорыстно поделился найденным с теми, кому это тоже может быть полезно! А если кого-то зависть гложет, то это уже его проблемы!
 

J.Kovalev

Участник
Топикстартер
Сообщения
27
Реакции
47
вся тема была подводкой к файнридеру? 'hmmm'

Ранее я уже ответил на вашу реплику про «файнридер», и как мне казалось, - весьма полно! Но почему-то не мог её забыть, и на следующий день я наконец-то понял причину - это упоминание о «ABBY FineReader»!

После этого у меня моментально появилась идея задействовать ещё и «ABBY FineReader» для создания «ИДЕАЛЬНОГО» документа формата PDF. Объединив вместе возможности «Adobe Acrobat Pro» + «JavaScript», «ABBY FineReader Pro», «PDF-XChange Editor Pro» + «JavaScript», я получил искомую технологию создания ИДЕАЛЬНОГО документа формата PDF, в котором присутствуют точное изображение страницы исходного документа и идеальный выверенный текстовый слой, по которому осуществляется абсолютно точный полнотекстовый поиск!

СПАСИБО за намёк! У меня ВСЁ получилось, и я вполне удовлетворен результатом! 'thank'
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 198
Реакции
10 848

J.Kovalev

Участник
Топикстартер
Сообщения
27
Реакции
47
В общем если цель максимальное покрытие Unicode в одном шрифте, то надо искать нормальные шрифты с контурами ...
Дело в том, что максимальное "покрытие Unicode" в одном шрифте "по-умолчанию" доступно при использовании любого шрифта, который соответствует стандарту Unicode. Для этого просто находишь нужный символ в таблице Unicode, смотришь его U+код, переходишь в редактор текста, вставляешь найденный код в текст и переводишь его в формат отображения символа, или просто копируешь символ из таблицы Unicode и вставляешь его в текст. Моя цель была минимизировать количество ошибок полнотекстового поиска разумными средствами, точнее теми средствами, которые оправдывали бы затраты на эту работу.
В самом критичном случае (энциклопедия, справочник, учебник, "руководство" ...), придется использовать "ABBYY Fine Reader". В случаях с художественной литературой часто можно обойтись оцифровщиками попроще (Adobe Acrobat Pro, Master PDF Editor Pro, PDF-XChange Editor Pro ... ), только надо знать те особенности исходного изображения, от которых зависит качество работы OCR подсистемы этого оцифровщика и иметь возможность быстро найти и исправить критические ошибки оцифровки. Разработкой алгоритмов таких действий я и занимался (для себя). В какой-то момент я встретился с затруднениями, и мне показалось, что можно было бы спросить совета на форуме. Но похоже, что надо было просто сделать паузу, отдохнуть слегка, и тогда продолжить свои поиски.
В итоге я самостоятельно со всем разобрался, и в качестве простенького примера выложил в интернете (могу дать ссылку) один из моих тестовых документов формата PDF, с таким качеством текстового слоя, которое вряд ли кто-то ещё видел когда-либо, включая меня! Я умышленно не стал там скрывать слои (особенно слой "Текст") для того, чтобы была возможность увидеть как он выглядит! Это одностраничный документ, а для создания многостраничного документа требуется уже дополнительно использовать JavaScript для автоматизации циклических операций. Я эти скрипты сделал для себя. На завершающей стадии в итоговом документе текстовый слой вновь делается невидимым, значок "слои" убирается из документа и документ передаётся пользователю. На каждом этапе есть несколько вариантов алгоритма действий, но это уже совсем другая история... Моя задача решена! :)
 

J.Kovalev

Участник
Топикстартер
Сообщения
27
Реакции
47
...в качестве простенького примера выложил в интернете (могу дать ссылку) один из моих тестовых документов формата PDF... :)
Ссылка на Yandex Disk, но в сообщение её вставить невозможно - не публикуется с сообщением "запрещенная ссылка"!?
Вставлю картинкой! :)
 

Вложения

  • Link_to_Yandex_Disk.JPG
    Link_to_Yandex_Disk.JPG
    33.5 КБ · Просм.: 801

suntory

Administrator
15 лет на форуме
Сообщения
23 425
Реакции
12 472
Дело в том, что максимальное "покрытие Unicode" в одном шрифте "по-умолчанию" доступно при использовании любого шрифта, который соответствует стандарту Unicode.
Unicode не предусматривает наличия в шрифте всех символов.
Вставлю картинкой!
Лучше сюда
ФАЙЛООБМЕННИК
или с Яндекса ссылку на папку, а не на файл.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 198
Реакции
10 848

J.Kovalev

Участник
Топикстартер
Сообщения
27
Реакции
47
Я уже давно понял, что вы не шрифт искали.
В момент создания "топика" я искал шрифт! Вопрос про шрифт возник после того, как я скопировал текст с невидимого текстового слоя PDF документа им вставил его в текстовый документ в "Microsoft Word 2007". Вот тогда я впервые увидел, что в тексте используется этот злополучный "шрифт". Это ввело меня в заблуждение, т.к. я в тот момент полагал, что "инструкции" от "Adobe Acrobat Pro" распространяются только на продукты "Adobe", а также частично моделируются другими разработчиками ПО для работы с PDF документами. После двух недель поиска я узнал, что некоторые технологии разработчиков ПО компании "Adobe" используются при разработке ПО "Microsoft". В результате вопрос про "аналог шрифта" для меня потерял актуальность! Больше на этом "топике" мне ничего не нужно, а "пикироваться" с "бомбардировщиками" типа "_MBK_" и иже с ними" - только зря время терять. Так что закрывайте тему, или удаляйте совсем.