- Сообщения
- 33 762
- Реакции
- 11 041
Так их чаще всего и нету в PDF даже при наличии текстового слоя. Зачем хранить отдельный пустой символ?не распознает пробелы
Так их чаще всего и нету в PDF даже при наличии текстового слоя. Зачем хранить отдельный пустой символ?не распознает пробелы
С воспроизведением структуры таблицы проблем нет, а вот с символами косячит сильно.Хорошо, продолжим веселую угадайку
Настройки меняли?
Как таблицу копировали?
Без файнридера в doc экспортировали?
Собственно, что именно не так в распознавании - символы перевирает или табличное форматирование?
Почему нету? При копипасте они сохраняются. Или я чего-то не понимаю?Так их чаще всего и нету в PDF даже при наличии текстового слоя. Зачем хранить отдельный пустой символ?
Ну из последнего вашего сообщения я так понял, что это нормас символами косячит сильно.
При вставке в клипбоард пробелы и переводы строк автоматом генерируются между соседними словамиПри копипасте они сохраняются. Или я чего-то не понимаю?
Сказочная сказка. Отошлите, значит, техподдержке ABBYY свой образец и задайте вопрос как правильнее распознавать чудо ошалелое.George, извините, но все файлы, с которыми работаю, оговорены как коммерческая тайна.
А что говорит Acrobat Pro при родном сохранение из пфд в док? Или у Вас его нет или он совсем старый?Нужно pdf>doc.
Может неправильно понял вопрос... Я использую функцию Передать в MW. Ничего не говорит.А что говорит Acrobat Pro при родном сохранение из пфд в док?
Лет 15-20 назад в FineReader распознавание было гораздо корректнее. Так что, ИИ, видимо есть, но у него деменция (((У файнридера нет искусственного интеллекта, соответственно распознавать так же хорошо, как распознает специально обученный человек, он не может. И это хорошо, ибо, в противном случае топикстартеру и миллионам ему подобных пришлось бы срочно переквалифицироваться в управдомы. Но процесс уже идет.
Ага, согласен, трава зеленее, а девушки прям сами прыгали, раздеваясь в полетеЛет 15-20 назад в FineReader распознавание было гораздо корректнее.
Лет 15-20 назад в FineReader распознавание было гораздо корректнее.
Почему из ТС даже это клещами вытаскивать приходится?А что говорит Acrobat Pro при родном сохранение из пфд в док?
Так я и пытаюсь до Вас донести, (даже с примером) Что если в pdf это таблица с текстом, таковой она при экспорте pdf>doc и останется, 2 там языка или 3 вообще все равноМне не нужно doc>pdf>doc.
Нужно pdf>doc. Причем, речь идет о таблицах, часто 2-язычных.
Может неправильно понял вопрос...
Потому что коммерческая тайна взять и создать пример без тайны из примера с тайной!Почему из ТС даже это клещами вытаскивать приходится?
Сделайте другой, нужна одна таблица с любым текстомно все файлы, с которыми работаю, оговорены как коммерческая тайна
Ничего смешного нет, скорее вы неправильно поняли настройку.самое смешное, что, даже при установке "Использовать только текст..." распознает и графику
Только текст касается именно того, что в PDF текстом, текст в кривых и на картинках распознается OCRВ программе предусмотрены три режима распознавания PDF-документов:
- Автоматически определять: использовать OCR или текст из PDF
При использовании данного режима программа определяет качество текстового слоя. При хорошем качестве текстового слоя используется этот текстовый слой, в противном случае создается текстовый слой в результате распознавания.- Использовать OCR
При использовании данного режима текстовый слой создается в результате распознавания.
По сравнению с другими режимами требует больше времени, но обеспечивает лучшее качество распознавания на документах с некачественным текстовым слоем.- Использовать только текст из PDF
Данный режим используется для обработки документов, содержащих текстовый слой. При использовании этого режима текст извлекается из PDF-документа без распознавания.
Делается рыба с LoremIpsum которая ведёт себя аналогично.все файлы, с которыми работаю, оговорены как коммерческая тайна
Я уже рекомендовал нажать выше Открыть в OCR редакторе и помогать вручную, будет точно лучше, чем 20 лет назад. Сомневаюсь кстати, что тогда FR умел напрямую открывать PDF, не говоря о выборе между текстом в нем и распознаваниеми за файнридер -
Не по теме:
Добрый ты.
Не по теме:
Это меня сегодня накрыло добротой. Ничего, это проходит.
А я не за OCR редактор сию речь веду, а именно за пдф-редактор.Я уже рекомендовал нажать выше Открыть в OCR редакторе