Еще один вариант кракозябр при копировании в Word

Azg · 26.02.2015

В процессе переписки с соврагами по работе получил вот такой интересный файл. Сам текст больше похож на низкосортный скан, чем на какой-либо шрифт. При попытке скопировать в ворд рисует кракозябры\иероглифы. Не подскажете, есть ли другие методы борьбы кроме finereader?
PS если не лень, дайте пару подсказок как делают столь малочитаемые файлы.
PSS Можно ли (и если да - то как) сделать pdf с невидимым текстом?

MrDesigner · 26.02.2015

В этом pdf-файле находится обычный монохромный битмап 600 х 600 dpi. Используйте любую OCR-программу для оцифровки текста. Файнридер - в том числе.

Данный пдф-файл вполне мог быть получен путём сканирования из офисного МФУ - современные модели позволяют сканировать в пдф-формат.

~RA~ · 26.02.2015

Это результат труда EPSON Scan.

George · 26.02.2015

В акробат про есть свой ocr.

MrDesigner · 26.02.2015

~RA~ сказал(а):
Это результат труда EPSON Scan.

Угу.

Код:

<pdf:Producer>EPSON Scan</pdf:Producer>

JAW · 26.02.2015

Таки там текстовый слой есть, похоже его кто то распознавал, но криво.

Azg · 27.02.2015

Если суммировать, то
1) Скан документа сделали фоном (водяным знаком)
2) Распознали непонятно чем и криво. Шрифт разпознования со сбитой кодировкой.
3) Текстовый слой или прозрачен, или находиться за фоном по видимости.

И если с первыми двумя пунктами все понятно, то как они умудрились сотворить 3-й? Может и туплю, но в штатных инструментах адоба ничего похожего не нашел ( .

George · 27.02.2015

Azg сказал(а):
И если с первыми двумя пунктами все понятно, то как они умудрились сотворить 3-й?

Также как и Акробат Про делает так же. Откройте Pro и сделайте распознавание заново, но русским языком (или если нет Acrobat Pro - Откройте через файнридер или любую др. программу ocr с русским языком).

JAW · 01.03.2015

Azg сказал(а):
3) Текстовый слой или прозрачен, или находиться за фоном по видимости.

И если с первыми двумя пунктами все понятно, то как они умудрились сотворить 3-й? Может и туплю, но в штатных инструментах адоба ничего похожего не нашел ( .

Так же, как бывает DJVu с текстовым слоем...
Это делается просто для упрощения поиска в графическом дукументе, так умеет и Акробатовский OCR и FineReader.
Распознайте FineReader нормально разметив, но только как графику, а не как тестовый документ.

Поиск

Еще один вариант кракозябр при копировании в Word

Azg

Участник

Вложения

MrDesigner

~RA~

Одарённая истеричка.

George

I wish I was a monster you think I am

MrDesigner

JAW

Azg

Участник

George

I wish I was a monster you think I am

JAW