Как вытащить русский текст из PDF, сделанного на МАС

Spiderxman · 20.03.2006

Ответ: Как вытащить русский текст из PDF, сделанного на МАС

По-моему - это полная чушь. Он не может "отфонарно" кодировать текст. В противном случае проблемы с кодировкой былы бы нормой, независимо от платформы, на котором был сделан PDF.
В файл должны быть внедрены шрифты в соответствующей кодировке.
Когда я отдавал текст на верстку (в кодировке Win-1251) верстальщик, при его открытии на Mac G4 (9-я ось), получал такую же абракадабру, как и описанную выше. Дальше, для перевода в Mac Cyrillic он запускал какую-то утилиту, которая и превращала текст в нормальный (т.е. читабельный). Потом этот тектс вставлялся в Кварк (4.5), и потом с помощью Acrobat 5 Distiller создавал данный PDF.

Shlyapa · 20.03.2006

Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Он не может "отфонарно" кодировать текст.

Может.

Верстальщику ты отдавал текст — грубо говоря, последовательность кодов, однозначно указывающих на ту или иную позицию во вполне определённой кодовой таблице.

Верстальщик твой эту последовательность перекодировал в другую, т.е. преобразовал в последовательность кодов, однозначно указывающих на вполне определённые позиции в другой таблице.

Программа вёрстки через встроенные в неё и ОС механизмы брала поименованные векторные объекты (буквы из шрифта) и расставляла их в порядке, соответсвующем порядку следования кодов, о которых было выше.

Вот до этого момента всё стандартизировано, специфицировано и т.д.
Но дальше возможны варианты.

Дальше у нас запись в файл, в который одноврменно нужно поместить и последователность кодов (т.е. текст), и поименованные векторные объекты (т.е. встроить шрифт).
Встаиваться в выходной файл могут либо только использованные объекты (внедрение шрифта Subset-ом), либо полный набор этих объектов (внедрение шрифта Complite).

И вот тут всё отдано на откуп программе, записывающей выходной файл. Каждая программа рулит по-своему, и текст на этом этапе может быть перекодирован и буковки попереименованы в никем никак нигде не регламентированные коды, и в таком виде это всё будет записано в PDF.

Внутри PDF-а полный порядок: вот совершенно случайной код — но вот объект (символ встроенного шрифта), который этому коду однозначно сопоставлен.
Потому-то в Acrobat-е или, скажем, в RIP-е текст без проблем читается и выглядит так, как было сделано верстальщиком.

Но если вытянуть этот код (последовательность кодов) в текстовой редактор, понятия не имеющий об уникальности этой кодировки, он сопоставит этим кодам те символы стандартного шрифта, которые случайно окажутся подходящими. И мы увидим не осмысленный текст, а бессмысленный набор символов.

Ежели заглянет на огонёк 1998, то растолкует не на пальцах.

Shlyapa · 20.03.2006

Ответ: Как вытащить русский текст из PDF, сделанного на МАС

В противном случае проблемы с кодировкой былы бы нормой, независимо от платформы, на котором был сделан PDF.

Запиши PS из любой программы (или из нескольких разных программ) на своём компе, используя в макете разные шрифты (TTF, Type1, OTF), да на разных языках, прогони этот PS через Distiller, и попробуй вытащить текст из полученного PDF-а. На том же самом компе, под той же самой ОС.

Крякозябриков насмотришься!..

aar · 20.03.2006

Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Попробуй Xpdf, и утилиту pdftotext.
http://www.foolabs.com/xpdf/download.html

suntory · 21.03.2006

Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Shlyapa сказал(а):
только FineReader (восьмой).

Можно и 7-м. Только pdf сохранить сначала в tiff или jpeg.

Stvad · 21.03.2006

Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Есть хорошая программа PDF Transformer

Shlyapa · 21.03.2006

Ответ: Как вытащить русский текст из PDF, сделанного на МАС

Stvad сказал(а):
Есть хорошая программа PDF Transformer

Движок у него тот же — FineReader-овский.

1998 · 21.03.2006

Ответ: Как вытащить русский текст из PDF, сделанного на МАС

> вытащить русский текст из PDF

http://www.iceni.com/gemini.htm

Spiderxman · 21.03.2006

Ответ: Как вытащить русский текст из PDF, сделанного на МАС

aar сказал(а):
Попробуй Xpdf, и утилиту pdftotext.
http://www.foolabs.com/xpdf/download.html

Не сумел грамтно настроить, а с настройками по умолчанию - фигня выходит (хотя кракозябры уже другие).

Spiderxman · 21.03.2006

Ответ: Как вытащить русский текст из PDF, сделанного на МАС

PDF Transformer рулит!!! Все сконвертировалось без проблем! ':=))'

Поиск

Как вытащить русский текст из PDF, сделанного на МАС

Spiderxman

Участник

Shlyapa

Участник

Shlyapa

Участник

aar

Участник

suntory

Administrator

Вложения

Stvad

Участник

Shlyapa

Участник

1998

Участник

Spiderxman

Участник

Spiderxman

Участник