PDF 2 WORD

Lionet · 09.04.2010

Возможно обсуждалось - не нашел.
Задача перекинуть текстовый PDF в Word.
Что только не пробовал - и "wondershar_pdf_to_word1.0.1.4" и "Very.PDF.to.Word.Converter.v3.0" и "TweakPDFConverter3.0Rus_serial" и PitStopom его ковырял, и Штирлицем... - ни-че-го!
первая страница (Академи) - все норм, а вот далее где "NewtonC-Bold-Identity-H" - сплошная абракадабра.
Полос там за 100...

Заранее спасибо!

svlasov · 09.04.2010

Ответ: PDF 2 WORD

Можно использовать безотказный OCR-вариант

.
http://www.abbyy.ru/solutions_home/pdf_conversion

Lionet · 09.04.2010

Ответ: PDF 2 WORD

svlasov сказал(а):
Можно использовать безотказный OCR-вариант .

FineReader к сожалению не подходит - множество индексов, над/подстрочников, русско-англ. терминов и т.п.

Evgen · 09.04.2010

Ответ: PDF 2 WORD

Так вы покажите индексы и прочие засадные места.
А то выложили такие странички, что там и проверять нечего.
PDF Transformer пережевал и не поморщился.

JAW · 09.04.2010

Ответ: PDF 2 WORD

С любой математикой только полный перебор формул.
Не встречался с системами, которые бы их адекватно распознавали.

igors · 09.04.2010

Ответ: PDF 2 WORD

Evgen сказал(а):
...PDF Transformer пережевал и не поморщился.

Знают, что делают.

Lionet · 09.04.2010

Ответ: PDF 2 WORD

Evgen сказал(а):
Так вы покажите индексы и прочие засадные места.
А то выложили такие странички, что там и проверять нечего.
PDF Transformer пережевал и не поморщился.

Основная идея была именно вытащить текст, что бы не делать скрупулезную вычитку.
В 2-м примере переводит градус в кавычки, а с нижним индексом "К-" делает "К_".

Но вообще (не касательно данного случая) - результат потрясающий! Про эту софтину не знал... )

Lionet · 09.04.2010

Ответ: PDF 2 WORD

JAW сказал(а):
С любой математикой только полный перебор формул.
Не встречался с системами, которые бы их адекватно распознавали.

А НЕраспознавать вообще возможно? или алгоритмы акробата неисповедимы?

Evgen · 10.04.2010

Ответ: PDF 2 WORD

Lionet сказал(а):
результат потрясающий! Про эту софтину не знал...

Это ядро Файнридера, про который вы сказали, что не подходит. )

В аттаче результат вашего второго примера.
Первый градус не распознан, но далее – нормально.
С подстрочными индексами тоже неплохо. Правда, не идеально. )
Но все-таки лучшей утилиты я пока не знаю. Очень хороша для выдергивания текста из растра и PDF.

Update
Пардон, я не заметил, что вы уже написали про градус и индексы.

Evgen · 10.04.2010

Ответ: PDF 2 WORD

igors > Знают, что делают.
Да-да, я уже давно пропагандирую Transformer.

Как-то сравнивал с Solid'ом.

Lionet · 10.04.2010

Ответ: PDF 2 WORD

Evgen сказал(а):
Это ядро Файнридера, про который вы сказали, что не подходит. )

Первый градус не распознан, но далее – нормально.
С подстрочными индексами тоже неплохо. Правда, не идеально. )
Но все-таки лучшей утилиты я пока не знаю. Очень хороша для выдергивания текста из растра и PDF.

т.е. используя ядро файнридера нам обязательна нужна корректура. а именно от этого и хотелось уйти.
ps. и всё таки, я почти уверен, что как то можно заменить шрифт в пдф и выдернуть оттуда текст с сохранением форматирования...

JAW · 10.04.2010

Ответ: PDF 2 WORD

Lionet сказал(а):
А НЕраспознавать вообще возможно? или алгоритмы акробата неисповедимы?

Возможно, в принципе, но результат...
Трансформер работает в двух режимах (как и ФайнРидер), или режим распознавания (как графики), или режим просто извлечения текста. Второй менее предсказуем, но иногда работает. Первый режим по мне так обычно даёт лучший результат.

Преимущество FineReader над Трансформером исключительно в несколько большем удобстве работы. Там легко править в самой программе.

С формулами... Дело в том, что качество распознавания FineReader основано в первую очередь на постобработке текста, т.е. он знает вероятность ошибки для пары букв и смотрит по словарю, что вероятней. Без такой постработки (почти) работает кюниформ, к слову собственно распознавание у последнего лучше, но закончилось таки тем, что последний загнулся и перешёл в OpenSource.

Ну... И какая постобработка на математике?

Lionet · 10.04.2010

Ответ: PDF 2 WORD

JAW сказал(а):
Возможно, в принципе, но результат...

Спасибо за развернутый ответ (про режим извлечения текста не знал), но вернемся "к нашим баранам"

Если мы инструментом "TouchUp Text Tool" посмотрим на 55-ю стр., 7-ю стр. снизу:
R=ОПобразца : (среднее значение ОПК- + 0,2);
то на буквах
"R" - NewtonC-Bold-Identity-H, 11pt,
"ОП" - NewtonC-Identity-H, 11pt,
"образца" - NewtonC-Identity-H, 8.25pt,
Permissions: Embed, Subset - галки стоят, но снять нельзя.
т.е. это текст! и при понимании структуры пдф-ки, можно извлечь оттуда текст не используя "режим распознавания" совсем. далее pref_xtg, и в кварк. и корректора не нанимать. )
понятно что можно напрячь клиента, мол "так и так, это лучше чем ничего, сидите читайте пожалуйста", или за те же деньги сидеть самому глаза портить (100+ полос мелкого не литературного текста), но хотелось бы "красивое" решение...

suntory · 10.04.2010

Ответ: PDF 2 WORD

Lionet сказал(а):
извлечь оттуда текст не используя "режим распознавания"

http://forum.rudtp.ru/showthread.php?t=36974&p=412607&viewfull=1#post412607

Lionet · 10.04.2010

Ответ: PDF 2 WORD

suntory сказал(а):
http://forum.rudtp.ru/showthread.php?t=36974&p=412607&viewfull=1#post412607

О! Спасибо, это похоже оно... Глянул на скорую руку (сейчас времени нет совсем) много умных слов и непонятно где pdf-recode.rar брать - ссылка мертвая. На след. неделе поковыряю...

1998 · 10.04.2010

Ответ: PDF 2 WORD

Исключительно с целью разубедить Вас, что можно "корректора не нанимать" (аттач).

p.s. А OCR исходного файла можно прямо в Акробате сделать, с ненамного худшим результатом, чем у ABBY.

Lionet · 11.04.2010

Ответ: PDF 2 WORD

1998 сказал(а):
Исключительно с целью разубедить Вас, что можно "корректора не нанимать" (аттач).

гм... это игра "найди 5 отличий"? либо совсем заработался, либо кроме размера файла разницы не вижу...

suntory · 12.04.2010

Ответ: PDF 2 WORD

Lionet сказал(а):
разницы не вижу

Сохраните свой файл и этот в rtf из Акробата, может заметите. ;-)

Lionet · 12.04.2010

Ответ: PDF 2 WORD

«Сидят 2 англичанина рыбу ловят. 1-й вылавливает красивейшую русалку. Повертел, посмотрел и выкинул обратно. 2-й (через пол-часа): "Сэр, но почему?", 1-й (через пол-часа): "Сэр, но как?"»

О! Именно оно! "Сэр, но как?"

Главное что "±", "°" и нижние индексы на месте! А все мелочи меняются/удаляются либо в ворде по Ф7, либо автозаменой...

PS. полез в вышеуказанный пост читать... )[FONT=&quot]
[/FONT]

PDF 2 WORD

Участник

Вложения

Администратор

Участник

Registered User

Вложения

Участник

Участник

Вложения

Участник

Registered User

Вложения

Registered User

Участник

Участник

Administrator

Участник

Участник

Вложения

Участник

Administrator

Участник