Нехватка памяти при распознавании PDF

xseed · 23.11.2014

Столкнулся с такой проблемой. При распознавании файла PDF (https://yadi.sk/d/9ZZiKc7GctAe7) ClearScan вываливается с ошибкой нехватки памяти:

Если я выбираю распознавание Searchable Image, то получаю

Непонятно, какой памяти не хватает, оперативной или памяти на жестком диске? Вроде и то и другое присутствует в достаточном количестве. Скриншот Диспетчера устройств прилагаю. На всех разделах по несколько десятков гигабайт свободно. ОС Win 7 Pro SP1 64-bit. Acrobat Pro Version 11.0.06. Переустанавливал на 10-ку - не помогло. Менял расположение каталога Temp в переменных среды - не помогло. Сколько же памяти ему надо и почему это нигде не описывается в системных требованиях к ПО - непонятно.

andrejK · 23.11.2014

вот этот https://yadi.sk/d/cvVescTRctE9t
распознает)))

splxgf · 23.11.2014

Ну это грязный хак, памятуя о сканировании 2400...

xseed · 24.11.2014

Увеличивал файл подкачки до 16 Гб, ставил и по выбору системы... Да не в этом дело, при импорте и распознавании память-то не расходуется особо, ну вместо 2,5 системных тратится 2,8-3 Гб и еще 5 остается свободных, при этом акробат жалуется на нехватку памяти.

Навскидку моя текущая конфигурация:
Процессор Intel Core i5-3xxx серии
Память 8ГБ DDR3
Видеокарта GT630x2 (шт.)
ЖД 500 Seaagate 500 Гб, из которых на системном разделе 100, при этом половина дискового пространства свободна.

Даже если бы у меня был 8-ядерный сервер Dell на Xeon 26xx-v3 с 32 Гб набортной памяти, сомневаюсь, что это бы мне помогло. У кого распознается мой файл, отзовитесь. Попробую проверить на второй машине.

xseed · 24.11.2014

andrejK сказал(а):
вот этот https://yadi.sk/d/cvVescTRctE9t
распознает)))

Вы имеете ввиду, если я распознаю этот файл, у меня получится? А чем он отличается от моего?

splxgf сказал(а):
Ну это грязный хак, памятуя о сканировании 2400...

Да, только пока грязный хак 2400 - 600 - 2400 не прокатывает - ругается на память.

svlasov · 24.11.2014

xseed сказал(а):
У кого распознается мой файл, отзовитесь.

OS X 10.10.1, Acrobat 10.1.12. Настройки распознавания такие:

Результат такой: http://forum.rudtp.ru/resources/ocr-pdf.602/
Вроде бы проблем нет.

~RA~ · 24.11.2014

xseed сказал(а):
У кого распознается мой файл, отзовитесь.

Ау.

splxgf · 24.11.2014

На w8 и 11.0.07 тоже на оперативу ругается.
Вообще по проблеме нагуглить можно https://forums.adobe.com/thread/958047

xseed · 24.11.2014

andrejK сказал(а):
вот этот https://yadi.sk/d/cvVescTRctE9t
распознает)))

300 dpi? Спасибо, но качество распознавания будет не очень, к сожалению.

svlasov сказал(а):
OS X 10.10.1, Acrobat 10.1.12. Настройки распознавания такие:
Посмотреть вложение 67253
Результат такой: http://forum.rudtp.ru/resources/ocr-pdf.602/
Вроде бы проблем нет.

Попробовал на другой машине с Win XP SP3 32-bit с Acrobat ver. 10.1.4 - проблема осталась. Что-ж, придется обновиться, да и прикупить еще Mac Pro

... не радужная перспектива...
Тогда еще вот до кучи ZIP Flate. Распознает или нет? Все таки большой размер. И второй файл ZIP Flate A3:
https://yadi.sk/d/9ZZiKc7GctAe7
https://yadi.sk/d/ADMaFAEwcuT85
Мне просто очень интересно знать, проглотит Acrobat эти сканы или нет.

~RA~ сказал(а):
Ау.

) А у вас какая конфигурация аппаратного и ПО? 2. Это Searchable Image? Меня интересует ClearScan.

~RA~ · 24.11.2014

xseed сказал(а):
А у вас какая конфигурация аппаратного и ПО?

OS X 10.8.5, Acrobat 11.0.9.29

xseed · 25.11.2014

splxgf сказал(а):
Вообще по проблеме нагуглить можно https://forums.adobe.com/thread/958047

Ну насколько я понял, здесь речь идет об ошибке "Unable to locate the paper Capture recognition service. ..." и решается она копированием "Copy C:\ProgramFiles (x86)\adobe\acrobat 9.0\acrobat\plug-ins\PaperCapture\*" в parent directory "C:\ProgramFiles (x86)\adobe\acrobat 9.0\acrobat\plug-ins", а точнее. файла drs32.dll. Здесь же доступ к сервису распознавания имеется, сервис распознавания начинает работу, но Acrobat не хватает памяти для распознавания и распознавание прекращается, как-то так.

splxgf · 25.11.2014

Если не помогает, тогда только в техподдержку или сменить платформу.

xseed · 25.11.2014

Да, у пользователей OS X проблемы пока не вижу, но окончательно в этом убежусь, если вам удастся распознать те два крупных файла, ссылки на которые я указал в комментарии выше.

svlasov · 25.11.2014

xseed сказал(а):
у пользователей OS X проблемы пока не вижу

Есть проблема на этих крупных файлах.
При открытии 300М файла после этапа Postprocessing image появляется такое сообщение об ошибке:

При открытии 600М файла процесс не начинается, сразу появляется такое сообщение:

PS. Должен сказать, что если 300М файл открыть в Photoshop, тут же сохранить как TIFF с LZW-компрессией и этот TIFF открыть в Акробате, то процесс проходит без ошибок.

Dmitrij M · 25.11.2014

FineReader сильно дешевле макпро. Качество распознавания очень высокое.

~RA~ · 25.11.2014

xseed сказал(а):
И второй файл ZIP Flate A3

Ежели А3, то voila.

xseed · 25.11.2014

~RA~ сказал(а):
Ежели А3, то voila.

Извините, я ошибся, имел ввиду как есть, А1, без уменьшения размера.

dimon222 сказал(а):
FineReader сильно дешевле макпро. Качество распознавания очень высокое.

Finereader не интересен, нужен ClearScan.

Dmitrij M · 25.11.2014

Не по теме:
Будем искать…

xseed · 25.11.2014

svlasov сказал(а):
если 300М файл открыть в Photoshop, тут же сохранить как TIFF с LZW-компрессией и этот TIFF открыть в Акробате, то процесс проходит без ошибок.

М-да, странно, как же это так получается, ведь LZW компрессия не влияет на процесс распознавания, ведь при импорте в PDF TIFF-файл конвертируется в соответствии с настройками, заданными в Adobe PDF settings, а для цветных изображений там либо ZIP, либо JPEG/JPEG2000. У меня настройки такие:

По крайней мере Quite a box of tricks показывает тип компрессии ZIP:

Получается на входе может быть TIFF файл с любой компрессией или без нее, все равно он будет сжат/пересжат по методу ZIP.

svlasov сказал(а):
При открытии 600М файла процесс не начинается, сразу появляется такое сообщение:

Эх, понадеялся я на Max Wyss, который написал, что подобное ограничение срабатывает только при размере страницы 45 дюйма, а она всего 33 дюйма. At the desired resolution the image is too wide... Интересно, о чем думали программисты Adobe и I.R.I.S. S.A., когда создавали движок ClearScan? Как вообще такой баг могли допустить? Это даже не баг, а намеренное ограничение. Я уже молчу про поддержку режимов с более высоким разрешением.

~RA~ · 25.11.2014

xseed сказал(а):
А1, без уменьшения размера.

Разницу практически незаметно, что А1, что смасштабить в А3.

Поиск

Нехватка памяти при распознавании PDF

xseed

Участник

Вложения

andrejK

splxgf

xseed

Участник

xseed

Участник

svlasov

Администратор

~RA~

Одарённая.

splxgf

xseed

Участник

~RA~

Одарённая.

xseed

Участник

splxgf

xseed

Участник

svlasov

Администратор

Dmitrij M

~RA~

Одарённая.

xseed

Участник

Dmitrij M

xseed

Участник

~RA~

Одарённая.