Нехватка памяти при распознавании PDF

  • Автор темы Автор темы xseed
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.

xseed

Участник
Топикстартер
Сообщения
118
Реакции
1
Столкнулся с такой проблемой. При распознавании файла PDF (https://yadi.sk/d/9ZZiKc7GctAe7) ClearScan вываливается с ошибкой нехватки памяти:
ClearScan_error.jpg

Если я выбираю распознавание Searchable Image, то получаю
ClearScan_error_2.jpg

Непонятно, какой памяти не хватает, оперативной или памяти на жестком диске? Вроде и то и другое присутствует в достаточном количестве. Скриншот Диспетчера устройств прилагаю. На всех разделах по несколько десятков гигабайт свободно. ОС Win 7 Pro SP1 64-bit. Acrobat Pro Version 11.0.06. Переустанавливал на 10-ку - не помогло. Менял расположение каталога Temp в переменных среды - не помогло. Сколько же памяти ему надо и почему это нигде не описывается в системных требованиях к ПО - непонятно.
 

Вложения

  • procman.jpg
    procman.jpg
    134.1 КБ · Просм.: 890
Ну это грязный хак, памятуя о сканировании 2400...
 
Увеличивал файл подкачки до 16 Гб, ставил и по выбору системы... Да не в этом дело, при импорте и распознавании память-то не расходуется особо, ну вместо 2,5 системных тратится 2,8-3 Гб и еще 5 остается свободных, при этом акробат жалуется на нехватку памяти.

Навскидку моя текущая конфигурация:
Процессор Intel Core i5-3xxx серии
Память 8ГБ DDR3
Видеокарта GT630x2 (шт.)
ЖД 500 Seaagate 500 Гб, из которых на системном разделе 100, при этом половина дискового пространства свободна.

Даже если бы у меня был 8-ядерный сервер Dell на Xeon 26xx-v3 с 32 Гб набортной памяти, сомневаюсь, что это бы мне помогло. У кого распознается мой файл, отзовитесь. Попробую проверить на второй машине.
 
Вы имеете ввиду, если я распознаю этот файл, у меня получится? А чем он отличается от моего?
Ну это грязный хак, памятуя о сканировании 2400...
Да, только пока грязный хак 2400 - 600 - 2400 не прокатывает - ругается на память.
 
Последнее редактирование:
300 dpi? Спасибо, но качество распознавания будет не очень, к сожалению.
OS X 10.10.1, Acrobat 10.1.12. Настройки распознавания такие:
Посмотреть вложение 67253
Результат такой: http://forum.rudtp.ru/resources/ocr-pdf.602/
Вроде бы проблем нет.
Попробовал на другой машине с Win XP SP3 32-bit с Acrobat ver. 10.1.4 - проблема осталась. Что-ж, придется обновиться, да и прикупить еще Mac Pro :)... не радужная перспектива...
Тогда еще вот до кучи ZIP Flate. Распознает или нет? Все таки большой размер. И второй файл ZIP Flate A3:
https://yadi.sk/d/9ZZiKc7GctAe7
https://yadi.sk/d/ADMaFAEwcuT85
Мне просто очень интересно знать, проглотит Acrobat эти сканы или нет.
) А у вас какая конфигурация аппаратного и ПО? 2. Это Searchable Image? Меня интересует ClearScan.
 
Последнее редактирование:
Вообще по проблеме нагуглить можно https://forums.adobe.com/thread/958047
Ну насколько я понял, здесь речь идет об ошибке "Unable to locate the paper Capture recognition service. ..." и решается она копированием "Copy C:\ProgramFiles (x86)\adobe\acrobat 9.0\acrobat\plug-ins\PaperCapture\*" в parent directory "C:\ProgramFiles (x86)\adobe\acrobat 9.0\acrobat\plug-ins", а точнее. файла drs32.dll. Здесь же доступ к сервису распознавания имеется, сервис распознавания начинает работу, но Acrobat не хватает памяти для распознавания и распознавание прекращается, как-то так.
 
Если не помогает, тогда только в техподдержку или сменить платформу.
 
Да, у пользователей OS X проблемы пока не вижу, но окончательно в этом убежусь, если вам удастся распознать те два крупных файла, ссылки на которые я указал в комментарии выше.
 
у пользователей OS X проблемы пока не вижу
Есть проблема на этих крупных файлах.
При открытии 300М файла после этапа Postprocessing image появляется такое сообщение об ошибке:
2.jpg
При открытии 600М файла процесс не начинается, сразу появляется такое сообщение:
1.jpg
PS. Должен сказать, что если 300М файл открыть в Photoshop, тут же сохранить как TIFF с LZW-компрессией и этот TIFF открыть в Акробате, то процесс проходит без ошибок.
 
  • Спасибо
Реакции: xseed
FineReader сильно дешевле макпро. Качество распознавания очень высокое.
 
Последнее редактирование:

Не по теме:
Будем искать… :)
 
если 300М файл открыть в Photoshop, тут же сохранить как TIFF с LZW-компрессией и этот TIFF открыть в Акробате, то процесс проходит без ошибок.
М-да, странно, как же это так получается, ведь LZW компрессия не влияет на процесс распознавания, ведь при импорте в PDF TIFF-файл конвертируется в соответствии с настройками, заданными в Adobe PDF settings, а для цветных изображений там либо ZIP, либо JPEG/JPEG2000. У меня настройки такие:
adobe_pdf_settings.jpg
По крайней мере Quite a box of tricks показывает тип компрессии ZIP:
qbt_info.jpg
Получается на входе может быть TIFF файл с любой компрессией или без нее, все равно он будет сжат/пересжат по методу ZIP.
При открытии 600М файла процесс не начинается, сразу появляется такое сообщение:
Эх, понадеялся я на Max Wyss, который написал, что подобное ограничение срабатывает только при размере страницы 45 дюйма, а она всего 33 дюйма. At the desired resolution the image is too wide... Интересно, о чем думали программисты Adobe и I.R.I.S. S.A., когда создавали движок ClearScan? Как вообще такой баг могли допустить? Это даже не баг, а намеренное ограничение. Я уже молчу про поддержку режимов с более высоким разрешением.
 
Последнее редактирование:
Статус
Закрыто для дальнейших ответов.