[Acr DC] FineReader 15. Проблемы с распознаванием таблицы в PDF

Konsta · 09.02.2021

Можете объяснить, почему OCR в FineReader распознает pdf с текстом как картинку, соответственно, полно ошибок.
Или я что-то не так делаю?

George · 09.02.2021

Konsta сказал(а):
Можете объяснить, почему OCR в FineReader распознает pdf с текстом как картинку, соответственно, полно ошибок.
Или я что-то не так делаю?

А кто Вас знает, что Вы там делаете. Пример якобы "плохой" странички пфд — в студию.

Gadalka · 09.02.2021

Konsta сказал(а):
соответственно, полно ошибок

Попробуйте для начала удалить остальные картинки в PDF

_MBK_ · 09.02.2021

А зачем распознавать

Konsta сказал(а):
pdf с текстом

если можно просто скопировать? Или таки не?

Konsta · 09.02.2021

George сказал(а):
А кто Вас знает, что Вы там делаете. Пример якобы "плохой" странички пфд — в студию.

Распознаю таблицы, в которых текст.
Нет хороших и плохих. Всегда так.
Имел наглость ожидать, что OCR FineReader просто считает текст, так нет же, он их как изображение распознает.

Konsta · 09.02.2021

Gadalka сказал(а):
Попробуйте для начала удалить остальные картинки в PDF

Я выделяю область с текстом. Остальное не подвергается анализу OCR.

Konsta · 09.02.2021

_MBK_ сказал(а):
А зачем распознавать

если можно просто скопировать? Или таки не?

Ну, если есть десяток-другой свободных часов, то можно... Но их нету.

_MBK_ · 09.02.2021

Konsta сказал(а):
в которых текст.

Вы не поняли мой намек.
Вы точно уверены, что там именно текст?
Он копируется?

Konsta · 09.02.2021

_MBK_ сказал(а):
Вы не поняли мой намек.
Вы точно уверены, что там именно текст?
Он копируется?

Разумеется, в этом и смысл вопроса. Причем, копируется правильно.

George · 09.02.2021

George сказал(а):
Пример якобы "плохой" странички пфд — в студию.

Lucky1978 · 09.02.2021

@Konsta, а тут настройки не влияют на это?

Gad · 09.02.2021

Konsta сказал(а):
Ну, если есть десяток-другой свободных часов,

Может чего-то не понял ...
Сделал doc>pdf>doc заняло секунды...

suntory · 09.02.2021

Konsta сказал(а):
Я выделяю область с текстом.

Можно явно указать что это таблица

Или пользоваться OCR редактором в ручном режиме.

_MBK_ сказал(а):
Вы точно уверены, что там именно текст?

Какая разница, это же FineReader.

Lucky1978 · 09.02.2021

suntory сказал(а):
Какая разница, это же FineReader.

Я так понимаю, ТС хочет, чтобы текст брался из текстового слоя при его наличии (а он говорит, что текст есть и копируется), а не распознавался как из отсканированной картинки с появлением ошибок такого распознавания.

suntory · 09.02.2021

Во-первых не топикстартер, просто поднята старая тема о выходе 15 версии.
Во-вторых, как я понял, нужны именно таблицы, а не просто текст из них. Под временными затратами тоже имеется ввиду, что из просто текста делать обратно таблицы долго.
Но может это я не так понял.

Konsta сказал(а):
Распознаю таблицы, в которых текст.
Нет хороших и плохих. Всегда так.

Это странновато, покажите хотя бы одну. В автоматическом режиме ошибок достаточно много, но таблицы все-таки далеко не всегда неправильно распознаются.

suntory · 09.02.2021

Lucky1978 сказал(а):
не распознавался как из отсканированной картинки с появлением ошибок такого распознавания

Вообще FR как бы изначально заточен на распознавание отсканированных картинок без каких-либо текстовых слоев, а от ошибок и текстовый слой не панацея.

Konsta · 10.02.2021

George, извините, но все файлы, с которыми работаю, оговорены как коммерческая тайна.

Konsta · 10.02.2021

Gad сказал(а):
Может чего-то не понял ...
Сделал doc>pdf>doc заняло секунды...

Мне не нужно doc>pdf>doc.
Нужно pdf>doc. Причем, речь идет о таблицах, часто 2-язычных.

_MBK_ · 10.02.2021

Хорошо, продолжим веселую угадайку
Настройки меняли?
Как таблицу копировали?
Без файнридера в doc экспортировали?
Собственно, что именно не так в распознавании - символы перевирает или табличное форматирование?

Konsta · 10.02.2021

Lucky1978 сказал(а):
@Konsta, а тут настройки не влияют на это?
Посмотреть вложение 140756

Спасибо!
При переводе на текстовый режим количество ошибок сократилось раз в 30! К сожалению, не распознает пробелы и изредка теряется текст из некоторых ячеек, хотя копипастом этот текст переносится.
Не обращал внимание на эту настройку, так ка работаю и с текстом в графическом формате. Но, самое смешное, что, даже при установке "Использовать только текст..." распознает и графику. Причем, корректнее, чем при универсальной установке.

Поиск

[Acr DC] FineReader 15. Проблемы с распознаванием таблицы в PDF

Konsta

George

I wish I was a monster you think I am

Gadalka

_MBK_

Пикирующий бомбардировщик

Konsta

Konsta

Konsta

_MBK_

Пикирующий бомбардировщик

Konsta

George

I wish I was a monster you think I am

Lucky1978

Gad

Вложения

suntory

Administrator

Lucky1978

suntory

Administrator

suntory

Administrator

Konsta

Konsta

_MBK_

Пикирующий бомбардировщик

Konsta