Нехватка памяти при распознавании PDF

  • Автор темы Автор темы xseed
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.
В метре не 10 сантиметров, а 100.
Скривил, да... Извиняюсь. Таки нормальный 60x90

Не по теме:
Замечательно, а что делать с тем, что C не строго типизирован и допускает хаки типа регистровых сдвигов? А с выделением памяти что? Да и переменные, что переменные? Их вроде 64 битными никто не запрещал делать, не в них суть

 
Что за ламерский подход? Нельзя просто так взять и заменить int на int64!
Не забывай, что там миллион модулей, написанных разными группами индусов, общающиеся между собой через 32битные бутылочные горлышки интерфейсов.
Вдобавок, ты, наверное, будешь смеяться, но сам PDF, внезапно, 32битный формат - почитай спецификацию, все поля внутри бинарных стримов содержат именно 32битные целые. Переход на 64битные целые убьет совместимость сверху вниз наповал.
Для того чтобы прочувствовать, насколько сложна и кровава задача перехода на большую значность, достаточно вспомнить, сколько лет фотошоп переходил с 16 битного на 32 битный формат, а потом на 64 битный. А кореловский формат стал 64 битным буквально только пару лет назад. При том, что CDR никто не позиционирует, как формат всеобщего обмена информацией, это формат, так сказать, для внутреннего пользования.
 
_MBK_, Trantor, жалко адобу поругать нормально нельзя, даже имея лицензию. Кормят народ древним хламом, да еше деньги за это требуют.
 
жалко адобу поругать нормально нельзя
Ругать адобу можно и нужно, есть за что.
Но в данной ситуации, я их вполне понимаю - любая программа не всемогуща и в какой то момент всегда наступает предел ресурсов.
 
Но в данной ситуации, я их вполне понимаю - любая программа не всемогуща и в какой то момент всегда наступает предел ресурсов.
Я тоже не виноват, что их софтина не распознает в 1200 dpi, - приходится увеличивать размеры вдвое, распознавать в 600 и уменьшать вдвое. Да и установку формата распознанных изображений (ZIP, JPEG) тоже необходимо предоставить пользователю.
 
Вы конечно, извините, но это мазохизм. Почему не заюзать файнридер как основное средство OCR? Религия?
 
Вы конечно, извините, но это мазохизм. Почему не заюзать файнридер как основное средство OCR? Религия?
Потому что Finereader не может того, что может OCR в Acrobat, а именно, создавать шрифты из распознанных контуров, похожие на оригинальные, и их качество (степень похожести) тем выше, чем больше dpi при сканировании.
 
создавать шрифты из распознанных контуров, похожие на оригинальные, и их качество (степень похожести) тем выше, чем больше dpi при сканировании.
На самом деле это очень сомнительное достоинство.
Скажем начистоту - это чертовски вредная вещь, попортившая много крови тем, кто потом подобные PDFы пользует. 'P:E'
 
  • Спасибо
Реакции: Evgen
На самом деле это очень сомнительное достоинство.
Скажем начистоту - это чертовски вредная вещь, попортившая много крови тем, кто потом подобные PDFы пользует. 'P:E'
Вещь, может быть и вредная, но выглядит лучше, чем растр. И мне лично неохота связываться с подбором гарнитуры шрифта, как здесь Распознавание гарнитуры шрифта , что только осложняет подготовку оконечного документа, предназначенного для чтения.
 
что только осложняет подготовку оконечного документа, предназначенного для чтения.
Ни что так не осложняет работу с документом, как кривой безумный шрифт состряпанный распознавалкой. Разве вам не режет глаз подобная китайская разносортица букв? Не говоря уже о кодировке. Когда я говорил о вреде подобного распознавания, то я имел в виду, что подобным образом оцифрованные оригиналы даже хуже растровых - те, во всяком случае точно передают структуру и содержание документа, а эти, мало того, что исковерканы и могут содержать потенциальные ошибки распознавания, так еще издалека кажутся нормальными и очень сложно убедить заказчика предоставляющего такой "оригинал" что он никуда не годится и его надо переделывать с нуля.
 
  • Спасибо
Реакции: Evgen
Вещь, может быть и вредная, но выглядит лучше, чем растр.
Думаю просто растр большего разрешения выглядит лучше. OCR скорее всего делает невидимый текстовый слой, никакой векторный шрифт не создается.

Там из TeX PDF с растровым шрифтом, это не OCR
High quality PDF output from LaTeX and TeX
 
Там же написано "Creator dvips 5.58"
 
Ну мало ли что на заборах пишут. Возможно, с распознанным PDFом какие то манипуляции потом проделывали.
Ты можешь себе представить чтобы кто-то в TeX такой драный мозаичный шрифт использовал сознательно?
Да и не растровый там шрифт.
 
Ты можешь себе представить чтобы кто-то в TeX такой драный мозаичный шрифт использовал сознательно?
Выше ссылка, как раз использует или использовал по умолчанию, и на этом форуме тоже можно найти.
Есть же DVIPS, транслятор в PostScript. Правда стандартно гонит шрифты в Type3 растровые, но если поставить разрешение шрифтов хоть на 600 dpi уже будет неплохо.
2. Если нет возможности использовать Type1 шрифты, то правильно настроить драйвер DVIPS. Там нужно указать разрешение устрйства вывода под который он будет растрировать шрифты (по умолчанию стоит, кажется, 300 dpi)
Тут вся тема:
Пожалуйста, прокомментируйте файл
Да и не растровый там шрифт.
А какой?
 
  • Спасибо
Реакции: _MBK_
И вправду растровый!
 
Думаю просто растр большего разрешения выглядит лучше. OCR скорее всего делает невидимый текстовый слой, никакой векторный шрифт не создается.
Выглядит лучше, не спорю, но растр занимает больше места, чем распознанный текстовый слой ClearScan с растровой подложкой, кроме того, в распознанном документе возможен поиск.
 
Думаю ClearScan просто пережимает картинку.
 
Статус
Закрыто для дальнейших ответов.