[Acr DC] FineReader 15. Проблемы с распознаванием таблицы в PDF

  • Автор темы Автор темы Konsta
  • Дата начала Дата начала
Хорошо, продолжим веселую угадайку
Настройки меняли?
Как таблицу копировали?
Без файнридера в doc экспортировали?
Собственно, что именно не так в распознавании - символы перевирает или табличное форматирование?
С воспроизведением структуры таблицы проблем нет, а вот с символами косячит сильно.
 
Так их чаще всего и нету в PDF даже при наличии текстового слоя. Зачем хранить отдельный пустой символ?
Почему нету? При копипасте они сохраняются. Или я чего-то не понимаю?
 
с символами косячит сильно.
Ну из последнего вашего сообщения я так понял, что это норма
При копипасте они сохраняются. Или я чего-то не понимаю?
При вставке в клипбоард пробелы и переводы строк автоматом генерируются между соседними словами
Обратите внимание на хранение текстовых блоков в PDF - они состоят не из фреймов а из слов
 
  • Спасибо
Реакции: Konsta

George, извините, но все файлы, с которыми работаю, оговорены как коммерческая тайна.​

Сказочная сказка. Отошлите, значит, техподдержке ABBYY свой образец и задайте вопрос как правильнее распознавать чудо ошалелое.
 
А что говорит Acrobat Pro при родном сохранение из пфд в док? Или у Вас его нет или он совсем старый?
Что говорит FineReader, который не OCR, а который пдф-редактор при таком сохранении?

А, да, коммерческая тайна (одна страница образца), будем писать и дальше сказки, что ничего не говорит.
 
Последнее редактирование:
У файнридера нет искусственного интеллекта, соответственно распознавать так же хорошо, как распознает специально обученный человек, он не может. И это хорошо, ибо, в противном случае топикстартеру и миллионам ему подобных пришлось бы срочно переквалифицироваться в управдомы. Но процесс уже идет.
 
А что говорит Acrobat Pro при родном сохранение из пфд в док?
Может неправильно понял вопрос... Я использую функцию Передать в MW. Ничего не говорит.

У файнридера нет искусственного интеллекта, соответственно распознавать так же хорошо, как распознает специально обученный человек, он не может. И это хорошо, ибо, в противном случае топикстартеру и миллионам ему подобных пришлось бы срочно переквалифицироваться в управдомы. Но процесс уже идет.
Лет 15-20 назад в FineReader распознавание было гораздо корректнее. Так что, ИИ, видимо есть, но у него деменция (((
Остальные пассажи не понял.
 
Лет 15-20 назад в FineReader распознавание было гораздо корректнее.
Ага, согласен, трава зеленее, а девушки прям сами прыгали, раздеваясь в полете '))'
Лет 20 назад файнридер вообще PDF не умел, насколько я помню '))'
 
  • Спасибо
Реакции: NNN5
А что говорит Acrobat Pro при родном сохранение из пфд в док?
Почему из ТС даже это клещами вытаскивать приходится? '))' 'hz'
Мне не нужно doc>pdf>doc.
Нужно pdf>doc. Причем, речь идет о таблицах, часто 2-язычных.
Так я и пытаюсь до Вас донести, (даже с примером) Что если в pdf это таблица с текстом, таковой она при экспорте pdf>doc и останется, 2 там языка или 3 вообще все равно
Сохранить как попробуйте и выбрать doc
 
Последнее редактирование:
но все файлы, с которыми работаю, оговорены как коммерческая тайна
Сделайте другой, нужна одна таблица с любым текстом
самое смешное, что, даже при установке "Использовать только текст..." распознает и графику
Ничего смешного нет, скорее вы неправильно поняли настройку.
В программе предусмотрены три режима распознавания PDF-документов:
  • Автоматически определять: использовать OCR или текст из PDF
    При использовании данного режима программа определяет качество текстового слоя. При хорошем качестве текстового слоя используется этот текстовый слой, в противном случае создается текстовый слой в результате распознавания.
  • Использовать OCR
    При использовании данного режима текстовый слой создается в результате распознавания.
    По сравнению с другими режимами требует больше времени, но обеспечивает лучшее качество распознавания на документах с некачественным текстовым слоем.
  • Использовать только текст из PDF
    Данный режим используется для обработки документов, содержащих текстовый слой. При использовании этого режима текст извлекается из PDF-документа без распознавания.
Только текст касается именно того, что в PDF текстом, текст в кривых и на картинках распознается OCR
 
Последнее редактирование:

Не по теме:
Добрый ты. Я бы все темы, где ТС-у выложить пример невозможно (ибо страшная военная тайна там в каждом символе), но продолжающих мучить форумчан расспросами, удалял бы без сожалений, ибо они флуд пустой лишь.
 
и за файнридер -
Я уже рекомендовал нажать выше Открыть в OCR редакторе и помогать вручную, будет точно лучше, чем 20 лет назад. Сомневаюсь кстати, что тогда FR умел напрямую открывать PDF, не говоря о выборе между текстом в нем и распознаванием