Поиск/извлечение текста

~RA~ · 19.09.2017

Mikky сказал(а):
странности

Полагаю, при экспорте в doc акробат OCRит по-новой, отсюда и бяки.

_MBK_ · 19.09.2017

Да, вроде, все там нормально, никаких проблем с кодировкой нет.
В ворд так экспортировалось, видимо,от того, что вы OCR включили

~RA~ · 19.09.2017

_MBK_ сказал(а):
OCR включили

~RA~ сказал(а):
OCRит по-новой

Mikky · 20.09.2017

Тьфу, зараза, а я и забыл совсем, что там в настройках экспорта в DOC по умолчанию распознавание стоит.

Убрал его, все нормально вывелось, газета получилась, как есть. Спасибо.

Но вот экспорт в TXT пока нормально наладить не получается. В его настройках OCR вообще нет, видимо берет напрямую из текстового слоя. Однако же в TXT выводит только часть текстового содержимого газеты, причем достаточно небольшую. При том, что нет никаких проблем просто скопировать из PDF места, отсутствующие в TXT-файле (выделил, вставил).

Mikky · 27.09.2017

Давно уже интересно - а откуда вообще возникает эта проблема с разночтением содержимого PDF-страницы и текстового слоя в ней?

Процесс преобразования Postscript --> PDF и вывода PDF на экран, я не очень хорошо представляю. Но символы в обоих случаях вроде бы должны браться из одного и того же набора шрифтов, который внедрен в PDF. И таблицы соответствия "код символа - конкретный глиф" что там, что там тоже вроде бы используются одни и те же. Однако же текстовый слой может совпадать с содержимым PDF-страницы, а может не совпадать.
Может если разобраться откуда эта разница набегает, так может удастся с этим что-то сделать? Чтобы не так портила жизнь.

~RA~ · 28.09.2017

Разобрались.

Mikky · 30.09.2017

~RA~ сказал(а):
Разобрались.

В смысле того, что все это от кривых шрифтов плюс одна из настроек Акробата- да разобрались. И в смысле PDF-recode - очень даже разобрались.

Но вот откуда такой разнобой вообще возникает, что данные для отображения символов вроде бы берутся из одного и того же места, но отрабатываются по разному - посмотрел еще раз тему, но пока нигде не нашел. Разве что несколько сообщений 1998 из 3-й страницы, но там на моем уровне без "перевода" не особо что поймешь.

Интерес к этому у меня не столько из чистого любопытства, сколько практический. Получилось же вот здесь ([XI] - PDF Reference Таблица C.1 ("Architectural limits") - о чем там идет речь?) с помощью @_MBK_, соорудить вполне работающее "лекарство" от многих ошибок создания PDF/A- файлов. Может и здесь что-то повезет придумать.

_MBK_ · 30.09.2017

Основная беда в том что сами шрифты делаются совершенно случайными людьми разной степени профессионализма и общей упоротости. Особенно, бесплатные и левым образом локализованные. Вторая беда - главное, что диета РГБ не становится бедней и, как я уже говорил, многие ее нынешние хотелки уже самопротиворечивы, а что будет через месяц не известно ни мышу ни камышу.

Mikky · 01.10.2017

_MBK_ сказал(а):
Основная беда в том что сами шрифты делаются совершенно случайными людьми разной степени профессионализма и общей упоротости. Особенно, бесплатные и левым образом локализованные.

"Полностью присоединяюсь к предыдущему оратору!".

Однако же даже на изрядно вывихнутых шрифтах видимая часть PDF отображается вполне нормально - сколько раз такое видел. Обычный текст журнала или газеты, никаких кракозябров. Значит даже перекособоченный шрифт не мешает PDF-читалке отобразить все нормальным образом.
Поэтому у меня есть некоторая надежда, что может быть и вывод текстового слоя такого PDF удастся сделать вполне читаемым, без кракозябр. Если в одном случае такое получается - для видимой части, то надо думать, что здесь нет каких-то совсем уж капитальных препятствий - для нормального воспроизведения того, что набрано ненормальным шрифтом.

_MBK_ · 01.10.2017

Mikky сказал(а):
отображается вполне нормально

Для нормального отображения достаточно и скурвленного или растрированного изображения.
РГБ же хочет соответствия между отображаемым и текстовым наполнением - понимаете разницу?

~RA~ · 01.10.2017

Mikky сказал(а):
Поэтому у меня есть некоторая надежда, что может быть и вывод текстового слоя такого PDF удастся сделать вполне читаемым

Нет.

andrejK · 01.10.2017

разогнать бы весь этот отдел РГБ к чертям /мечтает/

_MBK_ · 01.10.2017

andrejK сказал(а):
разогнать бы весь этот отдел РГБ к чертям

Вроде ж решили, что лучше расстрелять - забыл?

andrejK · 01.10.2017

сначала разогнать, а потом к стенке.

всю страну поставили раком и на форумах спрашивают - а что мы сделали? а что надо?

~RA~ · 01.10.2017

~RA~ сказал(а):
Нет.

Проиллюстрирую свой ответ.

andrejK · 01.10.2017

хулиган

_MBK_ · 01.10.2017

Сильнее бы не мог он возразить
Хвалили все ответ замысловатый. ':=)'

Mikky · 03.10.2017

andrejK сказал(а):
разогнать бы весь этот отдел РГБ к чертям /мечтает/

Ну разогнали/расстреляли/повесили/сожгли на костре - а дальше что?

Закон об обязательном экземпляре от этого все равно ж никуда не денется. И все равно будут требовать его сдавать - только не в РГБ, а в какую-то другую контору. Только и всего.
И проверка сдаваемых PDF тоже никуда не денется, и вся эта абракадабра "У вас обнаружена ошибка такая-то" тоже - раз уж это заложено на уровне PDF/A-стандарта. И в этой другой конторе народ, сидящий на приемке PDF, по первости будет точно так же ломать голову: "Что вся эта ахинея значит и что нам отвечать на вопросы?". Потому что внятный ответ здесь может дать только человек с хорошим опытом печатника и с приличным знанием внутренней структуры PDF.
Много ли таких наберется в среднеобычной библиотеке (пусть даже и большой, федерального уровня)?

Это я ни в коей мере не в оправдание той бестолковости, которую проявили РГБ-шные разработчики - можно было всё организовать более продуманно, с куда меньшим количеством головомороки.
Просто корни случившегося не там живут, а в нашей родимой Думе. Которой зачем-то потребовался этот закон, чтобы всю печатность, выходящую в России, куда-то сдавали. Хотя 9/10 этой печатности - совершеннейшая однодневка, уже через месяц после выхода практически никому не интересная.
Ну, а вторая причина - этот невразумительный "технояз", на котором написан PDF/A-стандарт. Было бы там написано на нормальном языке, проблем бы куда меньше было. Для всех.

Mikky · 03.10.2017

_MBK_ сказал(а):
Для нормального отображения достаточно и скурвленного или растрированного изображения.

Так тогда текстового слоя вообще не было бы, все символы были бы в виде рисунков того или иного вида. А раз текстовый слой таки есть, то символы текстовой части PDF-страницы не скурвлены, не растрированы, а берутся обычным образом - набор плюс шрифты.

_MBK_ сказал(а):
РГБ же хочет соответствия между отображаемым и текстовым наполнением - понимаете разницу?

Честно говоря, не очень.
Вот текст страницы, который я вижу в PDF-читалке. А вот текст этой же страницы, который живет в текстовом слое. В норме, если шрифты нормальные, не перекособоченные, то и там, и там обычно одно и тоже. Из чего я делаю предположение, что и то, и другое формируется из одного источника данных, одним и тем же, сходным образом.
Предположение м.б. неправильное, поэтому как раз с этим сейчас и пытаюсь разобраться. Но пока вот такое представление о происходящем. И если исходить из него, то РГБ-шное требование соответствия выглядит вполне логичным.

Mikky · 03.10.2017

~RA~ сказал(а):
Проиллюстрирую свой ответ.

Ехидина.

Но вообще же сложившаяся ситуация куда более точно описывается другим, близкородственным словом. Которое из четырех букв, начинается на "ж" и кончается на "а".

А если букву "а" вписать невидимой, так совсем забавно выйдет - копируешь с вашего PDF одно, а получаешь со-о-овсем другое.

Поиск

Поиск/извлечение текста

~RA~

Одарённая.

_MBK_

Пикирующий бомбардировщик

~RA~

Одарённая.

Mikky

Участник

Mikky

Участник

~RA~

Одарённая.

Mikky

Участник

_MBK_

Пикирующий бомбардировщик

Mikky

Участник

_MBK_

Пикирующий бомбардировщик

~RA~

Одарённая.

andrejK

_MBK_

Пикирующий бомбардировщик

andrejK

~RA~

Одарённая.

andrejK

_MBK_

Пикирующий бомбардировщик

Mikky

Участник

Mikky

Участник

Mikky

Участник