Поиск/извлечение текста

  • Автор темы Автор темы antabu
  • Дата начала Дата начала
Да, вроде, все там нормально, никаких проблем с кодировкой нет.
В ворд так экспортировалось, видимо,от того, что вы OCR включили
 
  • Спасибо
Реакции: Mikky
Тьфу, зараза, а я и забыл совсем, что там в настройках экспорта в DOC по умолчанию распознавание стоит. :) Убрал его, все нормально вывелось, газета получилась, как есть. Спасибо.

Но вот экспорт в TXT пока нормально наладить не получается. В его настройках OCR вообще нет, видимо берет напрямую из текстового слоя. Однако же в TXT выводит только часть текстового содержимого газеты, причем достаточно небольшую. При том, что нет никаких проблем просто скопировать из PDF места, отсутствующие в TXT-файле (выделил, вставил).
 
Давно уже интересно - а откуда вообще возникает эта проблема с разночтением содержимого PDF-страницы и текстового слоя в ней?

Процесс преобразования Postscript --> PDF и вывода PDF на экран, я не очень хорошо представляю. Но символы в обоих случаях вроде бы должны браться из одного и того же набора шрифтов, который внедрен в PDF. И таблицы соответствия "код символа - конкретный глиф" что там, что там тоже вроде бы используются одни и те же. Однако же текстовый слой может совпадать с содержимым PDF-страницы, а может не совпадать.
Может если разобраться откуда эта разница набегает, так может удастся с этим что-то сделать? Чтобы не так портила жизнь.
 
Разобрались.
 
В смысле того, что все это от кривых шрифтов плюс одна из настроек Акробата- да разобрались. И в смысле PDF-recode - очень даже разобрались. :)

Но вот откуда такой разнобой вообще возникает, что данные для отображения символов вроде бы берутся из одного и того же места, но отрабатываются по разному - посмотрел еще раз тему, но пока нигде не нашел. Разве что несколько сообщений 1998 из 3-й страницы, но там на моем уровне без "перевода" не особо что поймешь. :)

Интерес к этому у меня не столько из чистого любопытства, сколько практический. Получилось же вот здесь ([XI] - PDF Reference Таблица C.1 ("Architectural limits") - о чем там идет речь?) с помощью @_MBK_, соорудить вполне работающее "лекарство" от многих ошибок создания PDF/A- файлов. Может и здесь что-то повезет придумать.
 
Основная беда в том что сами шрифты делаются совершенно случайными людьми разной степени профессионализма и общей упоротости. Особенно, бесплатные и левым образом локализованные. Вторая беда - главное, что диета РГБ не становится бедней и, как я уже говорил, многие ее нынешние хотелки уже самопротиворечивы, а что будет через месяц не известно ни мышу ни камышу.
 
Основная беда в том что сами шрифты делаются совершенно случайными людьми разной степени профессионализма и общей упоротости. Особенно, бесплатные и левым образом локализованные.
"Полностью присоединяюсь к предыдущему оратору!". :)

Однако же даже на изрядно вывихнутых шрифтах видимая часть PDF отображается вполне нормально - сколько раз такое видел. Обычный текст журнала или газеты, никаких кракозябров. Значит даже перекособоченный шрифт не мешает PDF-читалке отобразить все нормальным образом.
Поэтому у меня есть некоторая надежда, что может быть и вывод текстового слоя такого PDF удастся сделать вполне читаемым, без кракозябр. Если в одном случае такое получается - для видимой части, то надо думать, что здесь нет каких-то совсем уж капитальных препятствий - для нормального воспроизведения того, что набрано ненормальным шрифтом. :)
 
отображается вполне нормально
Для нормального отображения достаточно и скурвленного или растрированного изображения.
РГБ же хочет соответствия между отображаемым и текстовым наполнением - понимаете разницу?
 
разогнать бы весь этот отдел РГБ к чертям /мечтает/
 
сначала разогнать, а потом к стенке.

всю страну поставили раком и на форумах спрашивают - а что мы сделали? а что надо?
 
хулиган
 
Сильнее бы не мог он возразить
Хвалили все ответ замысловатый. ':=)''cooll)'
 
разогнать бы весь этот отдел РГБ к чертям /мечтает/
Ну разогнали/расстреляли/повесили/сожгли на костре - а дальше что? :)

Закон об обязательном экземпляре от этого все равно ж никуда не денется. И все равно будут требовать его сдавать - только не в РГБ, а в какую-то другую контору. Только и всего.
И проверка сдаваемых PDF тоже никуда не денется, и вся эта абракадабра "У вас обнаружена ошибка такая-то" тоже - раз уж это заложено на уровне PDF/A-стандарта. И в этой другой конторе народ, сидящий на приемке PDF, по первости будет точно так же ломать голову: "Что вся эта ахинея значит и что нам отвечать на вопросы?". Потому что внятный ответ здесь может дать только человек с хорошим опытом печатника и с приличным знанием внутренней структуры PDF.
Много ли таких наберется в среднеобычной библиотеке (пусть даже и большой, федерального уровня)?

Это я ни в коей мере не в оправдание той бестолковости, которую проявили РГБ-шные разработчики - можно было всё организовать более продуманно, с куда меньшим количеством головомороки.
Просто корни случившегося не там живут, а в нашей родимой Думе. Которой зачем-то потребовался этот закон, чтобы всю печатность, выходящую в России, куда-то сдавали. Хотя 9/10 этой печатности - совершеннейшая однодневка, уже через месяц после выхода практически никому не интересная.
Ну, а вторая причина - этот невразумительный "технояз", на котором написан PDF/A-стандарт. Было бы там написано на нормальном языке, проблем бы куда меньше было. Для всех.
 
Последнее редактирование:
Для нормального отображения достаточно и скурвленного или растрированного изображения.
Так тогда текстового слоя вообще не было бы, все символы были бы в виде рисунков того или иного вида. А раз текстовый слой таки есть, то символы текстовой части PDF-страницы не скурвлены, не растрированы, а берутся обычным образом - набор плюс шрифты.

РГБ же хочет соответствия между отображаемым и текстовым наполнением - понимаете разницу?
Честно говоря, не очень.
Вот текст страницы, который я вижу в PDF-читалке. А вот текст этой же страницы, который живет в текстовом слое. В норме, если шрифты нормальные, не перекособоченные, то и там, и там обычно одно и тоже. Из чего я делаю предположение, что и то, и другое формируется из одного источника данных, одним и тем же, сходным образом.
Предположение м.б. неправильное, поэтому как раз с этим сейчас и пытаюсь разобраться. Но пока вот такое представление о происходящем. И если исходить из него, то РГБ-шное требование соответствия выглядит вполне логичным.
 
Последнее редактирование:
Ехидина. :)
Но вообще же сложившаяся ситуация куда более точно описывается другим, близкородственным словом. Которое из четырех букв, начинается на "ж" и кончается на "а". :) А если букву "а" вписать невидимой, так совсем забавно выйдет - копируешь с вашего PDF одно, а получаешь со-о-овсем другое. :)
 
Последнее редактирование: