[Acr DC] FineReader 15. Проблемы с распознаванием таблицы в PDF

_MBK_ · 10.02.2021

Konsta сказал(а):
не распознает пробелы

Так их чаще всего и нету в PDF даже при наличии текстового слоя. Зачем хранить отдельный пустой символ?

Konsta · 10.02.2021

_MBK_ сказал(а):
Хорошо, продолжим веселую угадайку
Настройки меняли?
Как таблицу копировали?
Без файнридера в doc экспортировали?
Собственно, что именно не так в распознавании - символы перевирает или табличное форматирование?

С воспроизведением структуры таблицы проблем нет, а вот с символами косячит сильно.

Konsta · 10.02.2021

_MBK_ сказал(а):
Так их чаще всего и нету в PDF даже при наличии текстового слоя. Зачем хранить отдельный пустой символ?

Почему нету? При копипасте они сохраняются. Или я чего-то не понимаю?

_MBK_ · 10.02.2021

Konsta сказал(а):
с символами косячит сильно.

Ну из последнего вашего сообщения я так понял, что это норма

Konsta сказал(а):
При копипасте они сохраняются. Или я чего-то не понимаю?

При вставке в клипбоард пробелы и переводы строк автоматом генерируются между соседними словами
Обратите внимание на хранение текстовых блоков в PDF - они состоят не из фреймов а из слов

George · 10.02.2021

Konsta сказал(а):
George, извините, но все файлы, с которыми работаю, оговорены как коммерческая тайна.

Сказочная сказка. Отошлите, значит, техподдержке ABBYY свой образец и задайте вопрос как правильнее распознавать чудо ошалелое.

George · 10.02.2021

Konsta сказал(а):
Нужно pdf>doc.

А что говорит Acrobat Pro при родном сохранение из пфд в док? Или у Вас его нет или он совсем старый?
Что говорит FineReader, который не OCR, а который пдф-редактор при таком сохранении?

А, да, коммерческая тайна (одна страница образца), будем писать и дальше сказки, что ничего не говорит.

_MBK_ · 10.02.2021

У файнридера нет искусственного интеллекта, соответственно распознавать так же хорошо, как распознает специально обученный человек, он не может. И это хорошо, ибо, в противном случае топикстартеру и миллионам ему подобных пришлось бы срочно переквалифицироваться в управдомы. Но процесс уже идет.

Konsta · 10.02.2021

George сказал(а):
А что говорит Acrobat Pro при родном сохранение из пфд в док?

Может неправильно понял вопрос... Я использую функцию Передать в MW. Ничего не говорит.

_MBK_ сказал(а):
У файнридера нет искусственного интеллекта, соответственно распознавать так же хорошо, как распознает специально обученный человек, он не может. И это хорошо, ибо, в противном случае топикстартеру и миллионам ему подобных пришлось бы срочно переквалифицироваться в управдомы. Но процесс уже идет.

Лет 15-20 назад в FineReader распознавание было гораздо корректнее. Так что, ИИ, видимо есть, но у него деменция (((
Остальные пассажи не понял.

_MBK_ · 10.02.2021

Konsta сказал(а):
Лет 15-20 назад в FineReader распознавание было гораздо корректнее.

Ага, согласен, трава зеленее, а девушки прям сами прыгали, раздеваясь в полете '))'

Лет 20 назад файнридер вообще PDF не умел, насколько я помню '))'

George · 10.02.2021

Konsta сказал(а):
Лет 15-20 назад в FineReader распознавание было гораздо корректнее.

Gad · 10.02.2021

George сказал(а):
А что говорит Acrobat Pro при родном сохранение из пфд в док?

Почему из ТС даже это клещами вытаскивать приходится? '))'

Konsta сказал(а):
Мне не нужно doc>pdf>doc.
Нужно pdf>doc. Причем, речь идет о таблицах, часто 2-язычных.

Так я и пытаюсь до Вас донести, (даже с примером) Что если в pdf это таблица с текстом, таковой она при экспорте pdf>doc и останется, 2 там языка или 3 вообще все равно
Сохранить как попробуйте и выбрать doc

George · 10.02.2021

Konsta сказал(а):
Может неправильно понял вопрос...

PDF to Word – How to convert PDF to Word

Learn how to easily convert PDFs to Word documents using Adobe Acrobat and Acrobat online services.

helpx.adobe.com

и за файнридер -

George · 10.02.2021

Gad сказал(а):
Почему из ТС даже это клещами вытаскивать приходится?

Потому что коммерческая тайна взять и создать пример без тайны из примера с тайной!

suntory · 10.02.2021

Konsta сказал(а):
но все файлы, с которыми работаю, оговорены как коммерческая тайна

Сделайте другой, нужна одна таблица с любым текстом

Konsta сказал(а):
самое смешное, что, даже при установке "Использовать только текст..." распознает и графику

Ничего смешного нет, скорее вы неправильно поняли настройку.

В программе предусмотрены три режима распознавания PDF-документов:

Автоматически определять: использовать OCR или текст из PDF
При использовании данного режима программа определяет качество текстового слоя. При хорошем качестве текстового слоя используется этот текстовый слой, в противном случае создается текстовый слой в результате распознавания.

Использовать OCR
При использовании данного режима текстовый слой создается в результате распознавания.
По сравнению с другими режимами требует больше времени, но обеспечивает лучшее качество распознавания на документах с некачественным текстовым слоем.

Использовать только текст из PDF
Данный режим используется для обработки документов, содержащих текстовый слой. При использовании этого режима текст извлекается из PDF-документа без распознавания.

Только текст касается именно того, что в PDF текстом, текст в кривых и на картинках распознается OCR

~RA~ · 10.02.2021

George сказал(а):

Не по теме:
Добрый ты. Я бы все темы, где ТС-у выложить пример невозможно (ибо страшная военная тайна там в каждом символе), но продолжающих мучить форумчан расспросами, удалял бы без сожалений, ибо они флуд пустой лишь.

Gadalka · 10.02.2021

Konsta сказал(а):
все файлы, с которыми работаю, оговорены как коммерческая тайна

Делается рыба с LoremIpsum которая ведёт себя аналогично.

suntory · 10.02.2021

George сказал(а):
и за файнридер -

Я уже рекомендовал нажать выше Открыть в OCR редакторе и помогать вручную, будет точно лучше, чем 20 лет назад. Сомневаюсь кстати, что тогда FR умел напрямую открывать PDF, не говоря о выборе между текстом в нем и распознаванием

George · 10.02.2021

~RA~ сказал(а):
Не по теме:
Добрый ты.

Не по теме:

Это меня сегодня накрыло добротой. Ничего, это проходит.

_MBK_ · 10.02.2021

George сказал(а):
Не по теме:

Это меня сегодня накрыло добротой. Ничего, это проходит.

Я - добрый крокодил, я злая бабушка! - Coub

Created by Damiracle. Open and watch this coub with all the loops!

coub.com

George · 10.02.2021

suntory сказал(а):
Я уже рекомендовал нажать выше Открыть в OCR редакторе

А я не за OCR редактор сию речь веду, а именно за пдф-редактор.

Поиск

[Acr DC] FineReader 15. Проблемы с распознаванием таблицы в PDF

_MBK_

Пикирующий бомбардировщик

Konsta

Konsta

_MBK_

Пикирующий бомбардировщик

George

I wish I was the monster you think I am

George, извините, но все файлы, с которыми работаю, оговорены как коммерческая тайна.

George

I wish I was the monster you think I am

_MBK_

Пикирующий бомбардировщик

Konsta

_MBK_

Пикирующий бомбардировщик

George

I wish I was the monster you think I am

Gad

George

I wish I was the monster you think I am

PDF to Word – How to convert PDF to Word

George

I wish I was the monster you think I am

suntory

Administrator

~RA~

🄯

Gadalka

suntory

Administrator

George

I wish I was the monster you think I am

_MBK_

Пикирующий бомбардировщик

Я - добрый крокодил, я злая бабушка! - Coub

George

I wish I was the monster you think I am

[Acr DC] FineReader 15. Проблемы с распознаванием таблицы в PDF

Пикирующий бомбардировщик

Пикирующий бомбардировщик

I wish I was the monster you think I am

George, извините, но все файлы, с которыми работаю, оговорены как коммерческая тайна.​

I wish I was the monster you think I am

Пикирующий бомбардировщик

Пикирующий бомбардировщик

I wish I was the monster you think I am

I wish I was the monster you think I am

I wish I was the monster you think I am

Administrator

🄯

Administrator

I wish I was the monster you think I am

Пикирующий бомбардировщик

I wish I was the monster you think I am

George, извините, но все файлы, с которыми работаю, оговорены как коммерческая тайна.