Нехватка памяти при распознавании PDF

JAW · 15.11.2015

TRANTOR сказал(а):
В метре не 10 сантиметров, а 100.

Скривил, да... Извиняюсь. Таки нормальный 60x90

Не по теме:

TRANTOR сказал(а):

Нет.

Нажмите, чтобы раскрыть...

Замечательно, а что делать с тем, что C не строго типизирован и допускает хаки типа регистровых сдвигов? А с выделением памяти что? Да и переменные, что переменные? Их вроде 64 битными никто не запрещал делать, не в них суть

_MBK_ · 16.11.2015

TRANTOR сказал(а):
Find/Replace int -> int64

Что за ламерский подход? Нельзя просто так взять и заменить int на int64!
Не забывай, что там миллион модулей, написанных разными группами индусов, общающиеся между собой через 32битные бутылочные горлышки интерфейсов.
Вдобавок, ты, наверное, будешь смеяться, но сам PDF, внезапно, 32битный формат - почитай спецификацию, все поля внутри бинарных стримов содержат именно 32битные целые. Переход на 64битные целые убьет совместимость сверху вниз наповал.
Для того чтобы прочувствовать, насколько сложна и кровава задача перехода на большую значность, достаточно вспомнить, сколько лет фотошоп переходил с 16 битного на 32 битный формат, а потом на 64 битный. А кореловский формат стал 64 битным буквально только пару лет назад. При том, что CDR никто не позиционирует, как формат всеобщего обмена информацией, это формат, так сказать, для внутреннего пользования.

xseed · 18.11.2015

_MBK_, Trantor, жалко адобу поругать нормально нельзя, даже имея лицензию. Кормят народ древним хламом, да еше деньги за это требуют.

_MBK_ · 18.11.2015

xseed сказал(а):
жалко адобу поругать нормально нельзя

Ругать адобу можно и нужно, есть за что.
Но в данной ситуации, я их вполне понимаю - любая программа не всемогуща и в какой то момент всегда наступает предел ресурсов.

xseed · 18.11.2015

_MBK_ сказал(а):
Но в данной ситуации, я их вполне понимаю - любая программа не всемогуща и в какой то момент всегда наступает предел ресурсов.

Я тоже не виноват, что их софтина не распознает в 1200 dpi, - приходится увеличивать размеры вдвое, распознавать в 600 и уменьшать вдвое. Да и установку формата распознанных изображений (ZIP, JPEG) тоже необходимо предоставить пользователю.

George · 18.11.2015

Вы конечно, извините, но это мазохизм. Почему не заюзать файнридер как основное средство OCR? Религия?

xseed · 22.11.2015

GeorgeS сказал(а):
Вы конечно, извините, но это мазохизм. Почему не заюзать файнридер как основное средство OCR? Религия?

Потому что Finereader не может того, что может OCR в Acrobat, а именно, создавать шрифты из распознанных контуров, похожие на оригинальные, и их качество (степень похожести) тем выше, чем больше dpi при сканировании.

_MBK_ · 22.11.2015

xseed сказал(а):
создавать шрифты из распознанных контуров, похожие на оригинальные, и их качество (степень похожести) тем выше, чем больше dpi при сканировании.

На самом деле это очень сомнительное достоинство.
Скажем начистоту - это чертовски вредная вещь, попортившая много крови тем, кто потом подобные PDFы пользует. 'P:E'

_MBK_ · 22.11.2015

xseed сказал(а):
шрифты из распознанных контуров, похожие на оригинальные

Чтоб не быть голословным, приведу пример из соседнего топика
Картинка из серии "антибактерия и антивонь" '))'

George · 22.11.2015

xseed сказал(а):
а именно, создавать шрифты из распознанных контуров,

Зачем козе баян?

xseed · 24.11.2015

_MBK_ сказал(а):
На самом деле это очень сомнительное достоинство.
Скажем начистоту - это чертовски вредная вещь, попортившая много крови тем, кто потом подобные PDFы пользует.

Вещь, может быть и вредная, но выглядит лучше, чем растр. И мне лично неохота связываться с подбором гарнитуры шрифта, как здесь Распознавание гарнитуры шрифта , что только осложняет подготовку оконечного документа, предназначенного для чтения.

_MBK_ · 24.11.2015

xseed сказал(а):
что только осложняет подготовку оконечного документа, предназначенного для чтения.

Ни что так не осложняет работу с документом, как кривой безумный шрифт состряпанный распознавалкой. Разве вам не режет глаз подобная китайская разносортица букв? Не говоря уже о кодировке. Когда я говорил о вреде подобного распознавания, то я имел в виду, что подобным образом оцифрованные оригиналы даже хуже растровых - те, во всяком случае точно передают структуру и содержание документа, а эти, мало того, что исковерканы и могут содержать потенциальные ошибки распознавания, так еще издалека кажутся нормальными и очень сложно убедить заказчика предоставляющего такой "оригинал" что он никуда не годится и его надо переделывать с нуля.

suntory · 25.11.2015

xseed сказал(а):
Вещь, может быть и вредная, но выглядит лучше, чем растр.

Думаю просто растр большего разрешения выглядит лучше. OCR скорее всего делает невидимый текстовый слой, никакой векторный шрифт не создается.

_MBK_ сказал(а):
приведу пример из соседнего топика

Там из TeX PDF с растровым шрифтом, это не OCR
High quality PDF output from LaTeX and TeX

_MBK_ · 25.11.2015

suntory сказал(а):
Там из TeX PDF с растровым шрифтом, это не OCR

Да ну? С такими пляшущими символами? OCR в чистом виде

suntory · 25.11.2015

Там же написано "Creator dvips 5.58"

_MBK_ · 26.11.2015

Ну мало ли что на заборах пишут. Возможно, с распознанным PDFом какие то манипуляции потом проделывали.
Ты можешь себе представить чтобы кто-то в TeX такой драный мозаичный шрифт использовал сознательно?
Да и не растровый там шрифт.

suntory · 26.11.2015

_MBK_ сказал(а):
Ты можешь себе представить чтобы кто-то в TeX такой драный мозаичный шрифт использовал сознательно?

Выше ссылка, как раз использует или использовал по умолчанию, и на этом форуме тоже можно найти.

JAW сказал(а):
Есть же DVIPS, транслятор в PostScript. Правда стандартно гонит шрифты в Type3 растровые, но если поставить разрешение шрифтов хоть на 600 dpi уже будет неплохо.

JAW сказал(а):
2. Если нет возможности использовать Type1 шрифты, то правильно настроить драйвер DVIPS. Там нужно указать разрешение устрйства вывода под который он будет растрировать шрифты (по умолчанию стоит, кажется, 300 dpi)

Тут вся тема:
Пожалуйста, прокомментируйте файл

_MBK_ сказал(а):
Да и не растровый там шрифт.

А какой?

_MBK_ · 26.11.2015

И вправду растровый!

xseed · 27.11.2015

suntory сказал(а):
Думаю просто растр большего разрешения выглядит лучше. OCR скорее всего делает невидимый текстовый слой, никакой векторный шрифт не создается.

Выглядит лучше, не спорю, но растр занимает больше места, чем распознанный текстовый слой ClearScan с растровой подложкой, кроме того, в распознанном документе возможен поиск.

suntory · 27.11.2015

Думаю ClearScan просто пережимает картинку.

Нехватка памяти при распознавании PDF

Пикирующий бомбардировщик

Участник

Пикирующий бомбардировщик

Участник

I wish I was the monster you think I am

Участник

Пикирующий бомбардировщик

Пикирующий бомбардировщик

I wish I was the monster you think I am

Участник

Пикирующий бомбардировщик

Administrator

Пикирующий бомбардировщик

Administrator

Пикирующий бомбардировщик

Administrator

Пикирующий бомбардировщик

Участник

Administrator