Как вытащить русский текст из PDF, сделанного на МАС

Статус
Закрыто для дальнейших ответов.

Spiderxman

Участник
Топикстартер
Сообщения
13
Реакции
0
Как вытащить русский текст из PDF, сделанного на МАС?

На экране (в любом PDF-ридере) текст отображается совершенно нормально, однако при выделении и копировании вместо русских букв всякая хрень вылезает. К примеру слово "Этап" выглядит как "uU‡O", "последовательность" - "ÔÓÒΉӂ‡ÚÂθÌÓÒÚ¸"
Я в курсе, что это связано не только с кодировкой, но и шрифтами, однако как исправить ситуацию - не знаю.
В системе стоит только Adobe Reader 7.0.5 rus.
Я когда-то сталкивался с этим при работе c КПК Newton, но не использовать же КПК, чтобы перевести с русского на русский более 1000 страниц текста!
Подскажите, что делать?
P.S. Я работаю под Windows XP.
P.P.S. FineReader 7 некорректно обрабатывает эти PDF (там табличный текст), посему воспользоваться этим способом тоже не получилось.
 

shamal

Участник
Сообщения
467
Реакции
0
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

экспорт текста не помогает?
 

Spiderxman

Участник
Топикстартер
Сообщения
13
Реакции
0
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Так и экспорт такую же хрень выдаёт!
 

@diz@

отечеств. про
15 лет на форуме
Сообщения
4 220
Реакции
1 914
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Spiderxman сказал(а):
P.P.S. FineReader 7 некорректно обрабатывает эти PDF (там табличный текст), посему воспользоваться этим способом тоже не получилось.
Насчёт FineReader я не понял. Он же вроде бы создаёт графический образ страницы и потом распознаёт её. Некорректно создаёт или ошибки в дальнейшем распознавании?
Ну и ещё: в какие проги копировал текст? А если тупо попробовать в патченный кварк, чтобы он маковские хрюши перевёл на русский.
 

Spiderxman

Участник
Топикстартер
Сообщения
13
Реакции
0
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

FineReader некорректно создаёт графический образ (колонки наезжают друг на друга). Поэтому и распознаёт их хреново.

Копировал в Ворд и в блокнот. Так же экспортировал в текстовый файл (через меню Acrobat Reader'a). Открывал программой PDFExplorer (она может читать pdf-ки как текстовые файлы). C одинаковым результатом.

На счёт кварка. Так как я не дизайнер и не верстальщик, этой проги на машине нет. И честно говоря, не очень хотелось бы ставить в систему дополнительное ПО. Впрочем, если других выходов не найдётся... Придётся изучать кварк:)
 

Shlyapa

Участник
Сообщения
4 838
Реакции
1
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

FineReader некорректно создаёт графический образ (колонки наезжают друг на друга).
Не верю!

Покажи (скриншоты, где «колонки наезжают», и PDF-чик свой, хотя бы страничку).
 

Spiderxman

Участник
Топикстартер
Сообщения
13
Реакции
0
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Пожалуйста!
Так видит текст Acrobat Reader (слева), а так - FineReader (справа)
 

Вложения

  • Snap2.gif
    Snap2.gif
    46.7 КБ · Просм.: 1 026
  • Snap1.gif
    Snap1.gif
    58.7 КБ · Просм.: 1 086

Shlyapa

Участник
Сообщения
4 838
Реакции
1
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

А на сам PDF взглянуть можно? Вот на эту самую страницу?
 

Spiderxman

Участник
Топикстартер
Сообщения
13
Реакции
0
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Он весит больше, чем позволяет местная системма приложений файлов. Если очень нужно, подскажи как здесь выложить 450 кб.
Да и зачем, если не секрет?
 

Shlyapa

Участник
Сообщения
4 838
Реакции
1
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

как здесь выложить 450 кб.
Упаковать RAR-ом в многотомный архив, указав размер тома, скажем, 150 К.
И выложить тремя сообщениями.

Да и зачем, если не секрет?
Любопытно.

FineReader у тебя, кстати, какой версии?
 

Spiderxman

Участник
Топикстартер
Сообщения
13
Реакции
0
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Невнимательно читаешь - я в первом посту указал, что у меня 7-я версия FineReader.
 

Вложения

  • p081.part1.rar
    156.3 КБ · Просм.: 343

Spiderxman

Участник
Топикстартер
Сообщения
13
Реакции
0
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Вторая часть
 

Вложения

  • p081.part2.rar
    156.3 КБ · Просм.: 344

Spiderxman

Участник
Топикстартер
Сообщения
13
Реакции
0
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Третья часть
 

Вложения

  • p081.part3.rar
    150.5 КБ · Просм.: 342

Shlyapa

Участник
Сообщения
4 838
Реакции
1
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Невнимательно читаешь - я в первом посту указал, что у меня 7-я версия FineReader.
Да, не заметил.
Оправдаю. Отслужу.
Отстрадаю. Отсижу.
©

7-й, действительно, колдобит со страшной силой.

FineReader 8 спасёт отца русской демократии.
Это не предположение, это проверенный факт.

Конкретно для твоего PDF-а разрешение растеризации нужно выставить, эдак, в 400 ppi (в FineReader-е: Image — Correct Resolution…), иначе текст распознаётся неуверенно.
 

Вложения

  • fr8.png
    fr8.png
    120.9 КБ · Просм.: 1 059

Spiderxman

Участник
Топикстартер
Сообщения
13
Реакции
0
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Хм. Это, конечно, удаление гланд через задницу и автогеном, но всё же лучше, чем ничего (см. первый пост с сабжем).
 

Shlyapa

Участник
Сообщения
4 838
Реакции
1
Ответ: Как вытащить русский текст из PDF, сделанного на МАС


Не по теме:
Кстати, о вёрстке в показанном файле.
Особенно хороши восемь переносов подряд.
Семь переносов подряд тоже неплохо.
Да и прочее…

 

Spiderxman

Участник
Топикстартер
Сообщения
13
Реакции
0
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Существуют ли другие варианты? Только не предлагайте мне купить Macintosh! :)
 

Shlyapa

Участник
Сообщения
4 838
Реакции
1
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Macintosh не поможет.
Виндозное или маковское происхождение твоего PDF-а тут не имеет никакого значения.

Дело в том, что часто текст в PDF кодируется не в кодовой таблице, привязанной к какому-либо языку, в совершенно отфонарной, работающей только внутри этого PDF-а.
Этот твой PDF, я думаю, как раз такой случай и есть.

Других вариантов нет — только FineReader (восьмой).
 

Vadim_PDF

15 лет на форуме
Сообщения
1 648
Реакции
237
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Нет, мы не ищем лёгких путей! А как-то можно извлечь эту таблицу и сделать конвертер из кракозябр в нормальный текст?
 

Shlyapa

Участник
Сообщения
4 838
Реакции
1
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

А как-то можно извлечь эту таблицу и сделать конвертер из кракозябр в нормальный текст?
Извлечь-то, думаю, можно.

Но из манной каши обратно крупу не сделаешь. Из фарша — мясо. И т.п.
 
Статус
Закрыто для дальнейших ответов.