Нехватка памяти при распознавании PDF

Статус
Закрыто для дальнейших ответов.

JAW

15 лет на форуме
Сообщения
15 797
Реакции
3 454
В метре не 10 сантиметров, а 100.
Скривил, да... Извиняюсь. Таки нормальный 60x90

Не по теме:
Замечательно, а что делать с тем, что C не строго типизирован и допускает хаки типа регистровых сдвигов? А с выделением памяти что? Да и переменные, что переменные? Их вроде 64 битными никто не запрещал делать, не в них суть

 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 235
Реакции
10 852
Что за ламерский подход? Нельзя просто так взять и заменить int на int64!
Не забывай, что там миллион модулей, написанных разными группами индусов, общающиеся между собой через 32битные бутылочные горлышки интерфейсов.
Вдобавок, ты, наверное, будешь смеяться, но сам PDF, внезапно, 32битный формат - почитай спецификацию, все поля внутри бинарных стримов содержат именно 32битные целые. Переход на 64битные целые убьет совместимость сверху вниз наповал.
Для того чтобы прочувствовать, насколько сложна и кровава задача перехода на большую значность, достаточно вспомнить, сколько лет фотошоп переходил с 16 битного на 32 битный формат, а потом на 64 битный. А кореловский формат стал 64 битным буквально только пару лет назад. При том, что CDR никто не позиционирует, как формат всеобщего обмена информацией, это формат, так сказать, для внутреннего пользования.
 

xseed

Участник
Топикстартер
Сообщения
118
Реакции
1
_MBK_, Trantor, жалко адобу поругать нормально нельзя, даже имея лицензию. Кормят народ древним хламом, да еше деньги за это требуют.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 235
Реакции
10 852
жалко адобу поругать нормально нельзя
Ругать адобу можно и нужно, есть за что.
Но в данной ситуации, я их вполне понимаю - любая программа не всемогуща и в какой то момент всегда наступает предел ресурсов.
 

xseed

Участник
Топикстартер
Сообщения
118
Реакции
1
Но в данной ситуации, я их вполне понимаю - любая программа не всемогуща и в какой то момент всегда наступает предел ресурсов.
Я тоже не виноват, что их софтина не распознает в 1200 dpi, - приходится увеличивать размеры вдвое, распознавать в 600 и уменьшать вдвое. Да и установку формата распознанных изображений (ZIP, JPEG) тоже необходимо предоставить пользователю.
 

George

I wish I was a monster you think I am
15 лет на форуме
Сообщения
17 332
Реакции
7 871
Вы конечно, извините, но это мазохизм. Почему не заюзать файнридер как основное средство OCR? Религия?
 

xseed

Участник
Топикстартер
Сообщения
118
Реакции
1
Вы конечно, извините, но это мазохизм. Почему не заюзать файнридер как основное средство OCR? Религия?
Потому что Finereader не может того, что может OCR в Acrobat, а именно, создавать шрифты из распознанных контуров, похожие на оригинальные, и их качество (степень похожести) тем выше, чем больше dpi при сканировании.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 235
Реакции
10 852
создавать шрифты из распознанных контуров, похожие на оригинальные, и их качество (степень похожести) тем выше, чем больше dpi при сканировании.
На самом деле это очень сомнительное достоинство.
Скажем начистоту - это чертовски вредная вещь, попортившая много крови тем, кто потом подобные PDFы пользует. 'P:E'
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 235
Реакции
10 852

George

I wish I was a monster you think I am
15 лет на форуме
Сообщения
17 332
Реакции
7 871
  • Спасибо
Реакции: Evgen

xseed

Участник
Топикстартер
Сообщения
118
Реакции
1
На самом деле это очень сомнительное достоинство.
Скажем начистоту - это чертовски вредная вещь, попортившая много крови тем, кто потом подобные PDFы пользует. 'P:E'
Вещь, может быть и вредная, но выглядит лучше, чем растр. И мне лично неохота связываться с подбором гарнитуры шрифта, как здесь Распознавание гарнитуры шрифта , что только осложняет подготовку оконечного документа, предназначенного для чтения.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 235
Реакции
10 852
что только осложняет подготовку оконечного документа, предназначенного для чтения.
Ни что так не осложняет работу с документом, как кривой безумный шрифт состряпанный распознавалкой. Разве вам не режет глаз подобная китайская разносортица букв? Не говоря уже о кодировке. Когда я говорил о вреде подобного распознавания, то я имел в виду, что подобным образом оцифрованные оригиналы даже хуже растровых - те, во всяком случае точно передают структуру и содержание документа, а эти, мало того, что исковерканы и могут содержать потенциальные ошибки распознавания, так еще издалека кажутся нормальными и очень сложно убедить заказчика предоставляющего такой "оригинал" что он никуда не годится и его надо переделывать с нуля.
 
  • Спасибо
Реакции: Evgen

suntory

Administrator
15 лет на форуме
Сообщения
23 475
Реакции
12 484
Вещь, может быть и вредная, но выглядит лучше, чем растр.
Думаю просто растр большего разрешения выглядит лучше. OCR скорее всего делает невидимый текстовый слой, никакой векторный шрифт не создается.

Там из TeX PDF с растровым шрифтом, это не OCR
High quality PDF output from LaTeX and TeX
 

suntory

Administrator
15 лет на форуме
Сообщения
23 475
Реакции
12 484
Там же написано "Creator dvips 5.58"
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 235
Реакции
10 852
Ну мало ли что на заборах пишут. Возможно, с распознанным PDFом какие то манипуляции потом проделывали.
Ты можешь себе представить чтобы кто-то в TeX такой драный мозаичный шрифт использовал сознательно?
Да и не растровый там шрифт.
 

suntory

Administrator
15 лет на форуме
Сообщения
23 475
Реакции
12 484
Ты можешь себе представить чтобы кто-то в TeX такой драный мозаичный шрифт использовал сознательно?
Выше ссылка, как раз использует или использовал по умолчанию, и на этом форуме тоже можно найти.
Есть же DVIPS, транслятор в PostScript. Правда стандартно гонит шрифты в Type3 растровые, но если поставить разрешение шрифтов хоть на 600 dpi уже будет неплохо.
2. Если нет возможности использовать Type1 шрифты, то правильно настроить драйвер DVIPS. Там нужно указать разрешение устрйства вывода под который он будет растрировать шрифты (по умолчанию стоит, кажется, 300 dpi)
Тут вся тема:
Пожалуйста, прокомментируйте файл
Да и не растровый там шрифт.
А какой?
 
  • Спасибо
Реакции: _MBK_

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 235
Реакции
10 852
И вправду растровый!
 

xseed

Участник
Топикстартер
Сообщения
118
Реакции
1
Думаю просто растр большего разрешения выглядит лучше. OCR скорее всего делает невидимый текстовый слой, никакой векторный шрифт не создается.
Выглядит лучше, не спорю, но растр занимает больше места, чем распознанный текстовый слой ClearScan с растровой подложкой, кроме того, в распознанном документе возможен поиск.
 

suntory

Administrator
15 лет на форуме
Сообщения
23 475
Реакции
12 484
Думаю ClearScan просто пережимает картинку.
 
Статус
Закрыто для дальнейших ответов.