Как вытащить русский текст из PDF, сделанного на МАС

  • Автор темы Автор темы Spiderxman
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

По-моему - это полная чушь. Он не может "отфонарно" кодировать текст. В противном случае проблемы с кодировкой былы бы нормой, независимо от платформы, на котором был сделан PDF.
В файл должны быть внедрены шрифты в соответствующей кодировке.
Когда я отдавал текст на верстку (в кодировке Win-1251) верстальщик, при его открытии на Mac G4 (9-я ось), получал такую же абракадабру, как и описанную выше. Дальше, для перевода в Mac Cyrillic он запускал какую-то утилиту, которая и превращала текст в нормальный (т.е. читабельный). Потом этот тектс вставлялся в Кварк (4.5), и потом с помощью Acrobat 5 Distiller создавал данный PDF.
 
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Он не может "отфонарно" кодировать текст.
Может.


Верстальщику ты отдавал текст — грубо говоря, последовательность кодов, однозначно указывающих на ту или иную позицию во вполне определённой кодовой таблице.

Верстальщик твой эту последовательность перекодировал в другую, т.е. преобразовал в последовательность кодов, однозначно указывающих на вполне определённые позиции в другой таблице.

Программа вёрстки через встроенные в неё и ОС механизмы брала поименованные векторные объекты (буквы из шрифта) и расставляла их в порядке, соответсвующем порядку следования кодов, о которых было выше.

Вот до этого момента всё стандартизировано, специфицировано и т.д.
Но дальше возможны варианты.

Дальше у нас запись в файл, в который одноврменно нужно поместить и последователность кодов (т.е. текст), и поименованные векторные объекты (т.е. встроить шрифт).
Встаиваться в выходной файл могут либо только использованные объекты (внедрение шрифта Subset-ом), либо полный набор этих объектов (внедрение шрифта Complite).

И вот тут всё отдано на откуп программе, записывающей выходной файл. Каждая программа рулит по-своему, и текст на этом этапе может быть перекодирован и буковки попереименованы в никем никак нигде не регламентированные коды, и в таком виде это всё будет записано в PDF.

Внутри PDF-а полный порядок: вот совершенно случайной код — но вот объект (символ встроенного шрифта), который этому коду однозначно сопоставлен.
Потому-то в Acrobat-е или, скажем, в RIP-е текст без проблем читается и выглядит так, как было сделано верстальщиком.

Но если вытянуть этот код (последовательность кодов) в текстовой редактор, понятия не имеющий об уникальности этой кодировки, он сопоставит этим кодам те символы стандартного шрифта, которые случайно окажутся подходящими. И мы увидим не осмысленный текст, а бессмысленный набор символов.

Ежели заглянет на огонёк 1998, то растолкует не на пальцах.
 
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

В противном случае проблемы с кодировкой былы бы нормой, независимо от платформы, на котором был сделан PDF.
Запиши PS из любой программы (или из нескольких разных программ) на своём компе, используя в макете разные шрифты (TTF, Type1, OTF), да на разных языках, прогони этот PS через Distiller, и попробуй вытащить текст из полученного PDF-а. На том же самом компе, под той же самой ОС.

Крякозябриков насмотришься!..
 
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Shlyapa сказал(а):
только FineReader (восьмой).
Можно и 7-м. Только pdf сохранить сначала в tiff или jpeg.
 

Вложения

Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Есть хорошая программа PDF Transformer
 
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Stvad сказал(а):
Есть хорошая программа PDF Transformer
Движок у него тот же — FineReader-овский.
 
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

aar сказал(а):

Не сумел грамтно настроить, а с настройками по умолчанию - фигня выходит (хотя кракозябры уже другие).
 
Ответ: Как вытащить русский текст из PDF, сделанного на МАС

PDF Transformer рулит!!! Все сконвертировалось без проблем! ':=))'
 
Статус
Закрыто для дальнейших ответов.