Еще один вариант кракозябр при копировании в Word

  • Автор темы Автор темы Azg
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.

Azg

Участник
Топикстартер
Сообщения
2
Реакции
0
В процессе переписки с соврагами по работе получил вот такой интересный файл. Сам текст больше похож на низкосортный скан, чем на какой-либо шрифт. При попытке скопировать в ворд рисует кракозябры\иероглифы. Не подскажете, есть ли другие методы борьбы кроме finereader?
PS если не лень, дайте пару подсказок как делают столь малочитаемые файлы.
PSS Можно ли (и если да - то как) сделать pdf с невидимым текстом?
 

Вложения

В этом pdf-файле находится обычный монохромный битмап 600 х 600 dpi. Используйте любую OCR-программу для оцифровки текста. Файнридер - в том числе.

Данный пдф-файл вполне мог быть получен путём сканирования из офисного МФУ - современные модели позволяют сканировать в пдф-формат.
 
Это результат труда EPSON Scan.
 
В акробат про есть свой ocr.
 
Таки там текстовый слой есть, похоже его кто то распознавал, но криво.
 
Если суммировать, то
1) Скан документа сделали фоном (водяным знаком)
2) Распознали непонятно чем и криво. Шрифт разпознования со сбитой кодировкой.
3) Текстовый слой или прозрачен, или находиться за фоном по видимости.

И если с первыми двумя пунктами все понятно, то как они умудрились сотворить 3-й? Может и туплю, но в штатных инструментах адоба ничего похожего не нашел ( .
 
И если с первыми двумя пунктами все понятно, то как они умудрились сотворить 3-й?
Также как и Акробат Про делает так же. Откройте Pro и сделайте распознавание заново, но русским языком (или если нет Acrobat Pro - Откройте через файнридер или любую др. программу ocr с русским языком).
 
3) Текстовый слой или прозрачен, или находиться за фоном по видимости.

И если с первыми двумя пунктами все понятно, то как они умудрились сотворить 3-й? Может и туплю, но в штатных инструментах адоба ничего похожего не нашел ( .
Так же, как бывает DJVu с текстовым слоем...
Это делается просто для упрощения поиска в графическом дукументе, так умеет и Акробатовский OCR и FineReader.
Распознайте FineReader нормально разметив, но только как графику, а не как тестовый документ.
 
Статус
Закрыто для дальнейших ответов.