PDF 2 WORD

  • Автор темы Автор темы Lionet
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.

Lionet

Участник
Топикстартер
Сообщения
16
Реакции
0
Возможно обсуждалось - не нашел.
Задача перекинуть текстовый PDF в Word.
Что только не пробовал - и "wondershar_pdf_to_word1.0.1.4" и "Very.PDF.to.Word.Converter.v3.0" и "TweakPDFConverter3.0Rus_serial" и PitStopom его ковырял, и Штирлицем... - ни-че-го!
первая страница (Академи) - все норм, а вот далее где "NewtonC-Bold-Identity-H" - сплошная абракадабра.
Полос там за 100...

Заранее спасибо!
 

Вложения

Ответ: PDF 2 WORD

Так вы покажите индексы и прочие засадные места.
А то выложили такие странички, что там и проверять нечего.
PDF Transformer пережевал и не поморщился.
 

Вложения

Ответ: PDF 2 WORD

С любой математикой только полный перебор формул.
Не встречался с системами, которые бы их адекватно распознавали.
 
Ответ: PDF 2 WORD

Так вы покажите индексы и прочие засадные места.
А то выложили такие странички, что там и проверять нечего.
PDF Transformer пережевал и не поморщился.

Основная идея была именно вытащить текст, что бы не делать скрупулезную вычитку.
В 2-м примере переводит градус в кавычки, а с нижним индексом "К-" делает "К_".


Но вообще (не касательно данного случая) - результат потрясающий! Про эту софтину не знал... )
 

Вложения

Ответ: PDF 2 WORD

С любой математикой только полный перебор формул.
Не встречался с системами, которые бы их адекватно распознавали.
А НЕраспознавать вообще возможно? или алгоритмы акробата неисповедимы?
 
Ответ: PDF 2 WORD

результат потрясающий! Про эту софтину не знал...
Это ядро Файнридера, про который вы сказали, что не подходит. )

В аттаче результат вашего второго примера.
Первый градус не распознан, но далее – нормально.
С подстрочными индексами тоже неплохо. Правда, не идеально. )
Но все-таки лучшей утилиты я пока не знаю. Очень хороша для выдергивания текста из растра и PDF.

Update
Пардон, я не заметил, что вы уже написали про градус и индексы.
 

Вложения

Ответ: PDF 2 WORD

igors > Знают, что делают.
Да-да, я уже давно пропагандирую Transformer. :)
Как-то сравнивал с Solid'ом.
 
Ответ: PDF 2 WORD

Это ядро Файнридера, про который вы сказали, что не подходит. )

Первый градус не распознан, но далее – нормально.
С подстрочными индексами тоже неплохо. Правда, не идеально. )
Но все-таки лучшей утилиты я пока не знаю. Очень хороша для выдергивания текста из растра и PDF.
т.е. используя ядро файнридера нам обязательна нужна корректура. а именно от этого и хотелось уйти.
ps. и всё таки, я почти уверен, что как то можно заменить шрифт в пдф и выдернуть оттуда текст с сохранением форматирования...
 
Ответ: PDF 2 WORD

А НЕраспознавать вообще возможно? или алгоритмы акробата неисповедимы?
Возможно, в принципе, но результат...
Трансформер работает в двух режимах (как и ФайнРидер), или режим распознавания (как графики), или режим просто извлечения текста. Второй менее предсказуем, но иногда работает. Первый режим по мне так обычно даёт лучший результат.

Преимущество FineReader над Трансформером исключительно в несколько большем удобстве работы. Там легко править в самой программе.

С формулами... Дело в том, что качество распознавания FineReader основано в первую очередь на постобработке текста, т.е. он знает вероятность ошибки для пары букв и смотрит по словарю, что вероятней. Без такой постработки (почти) работает кюниформ, к слову собственно распознавание у последнего лучше, но закончилось таки тем, что последний загнулся и перешёл в OpenSource.

Ну... И какая постобработка на математике?
 
Ответ: PDF 2 WORD

Возможно, в принципе, но результат...
Спасибо за развернутый ответ (про режим извлечения текста не знал), но вернемся "к нашим баранам" :)
Если мы инструментом "TouchUp Text Tool" посмотрим на 55-ю стр., 7-ю стр. снизу:
R=ОПобразца : (среднее значение ОПК- + 0,2);
то на буквах
"R" - NewtonC-Bold-Identity-H, 11pt,
"ОП" - NewtonC-Identity-H, 11pt,
"образца" - NewtonC-Identity-H, 8.25pt,
Permissions: Embed, Subset - галки стоят, но снять нельзя.
т.е. это текст! и при понимании структуры пдф-ки, можно извлечь оттуда текст не используя "режим распознавания" совсем. далее pref_xtg, и в кварк. и корректора не нанимать. )
понятно что можно напрячь клиента, мол "так и так, это лучше чем ничего, сидите читайте пожалуйста", или за те же деньги сидеть самому глаза портить (100+ полос мелкого не литературного текста), но хотелось бы "красивое" решение...
 
Ответ: PDF 2 WORD

Исключительно с целью разубедить Вас, что можно "корректора не нанимать" (аттач).

p.s. А OCR исходного файла можно прямо в Акробате сделать, с ненамного худшим результатом, чем у ABBY.
 

Вложения

Ответ: PDF 2 WORD

Исключительно с целью разубедить Вас, что можно "корректора не нанимать" (аттач).
гм... это игра "найди 5 отличий"? либо совсем заработался, либо кроме размера файла разницы не вижу...
 
Ответ: PDF 2 WORD

«Сидят 2 англичанина рыбу ловят. 1-й вылавливает красивейшую русалку. Повертел, посмотрел и выкинул обратно. 2-й (через пол-часа): "Сэр, но почему?", 1-й (через пол-часа): "Сэр, но как?"»

О! Именно оно! "Сэр, но как?" :)
Главное что "±", "°" и нижние индексы на месте! А все мелочи меняются/удаляются либо в ворде по Ф7, либо автозаменой...

PS. полез в вышеуказанный пост читать... )[FONT=&quot]
[/FONT]
 
Статус
Закрыто для дальнейших ответов.