Поиск/извлечение текста

1998 · 21.01.2011

Ответ: pdf-recode101210

Всё как-то гаже, по-моему, и вопрос далеко не только в научных публикациях. Хотим мы или нет, pdf (PDF/A) будет стандартом хранения данных (значительной их части, т.е.) в обозримом будущем. И что мы, которые 150 млн., храним? Набор "весёлых картинок"? (т.к. файлы годятся только на "посмотреть") Или полное собрание кракозябликов? Вот о чем не мешало бы подумать нашему IT-продвинутому. А не модными телефончиками баловаться.

Ну а "кодировку" по ссылке мы победим, нашей могучей программкой. Щас посмотрю :-)

1998 · 21.01.2011

Ответ: pdf-recode101210

http://ifolder.ru/21471484

Как-то так, на скорую руку. Очередной безобразный хак, по префиксу Advn в имени шрифта, ничего формального и быстрого больше не придумалось.

catpaw · 31.10.2011

Ответ: pdf-recode101210

Почему-то программка не дает результата. Пишет мне от имени Перла "Can't save" ':('

catpaw · 31.10.2011

Ответ: Поиск/извлечение текста

1998 сказал(а):
Бывает, что кириллические шрифты кодируются правильно, а ресурс CMap утерян.

А можно про СМар чуть подробнее? Судя по всему этот механизьм можно использовать не только для CJK.
А можно им починить создание PDF, в неадобовской верстальной программе? На уровне прямого создания PDF из верстки?
Нарыла кучу английского хелпа про этот СМар, но что-то я там никак ничего не пойму... :-(

alexandr007 · 04.11.2011

Ответ: Поиск/извлечение текста

ребят, помогите пожалуйста извлечь текст из этого pdf-документа. черноморов "теория принятия решения".(сорри, я пока не могу постить ссылки. эту книгу легко найти в поисковике).в файн-ридере толком не распознаёт, а остальные конвертеры из пдф в док конвертируют в качестве изображений. мне необходим текст. распознанный.с возможностью его редактирования)

suntory · 04.11.2011

Ответ: Поиск/извлечение текста

К теме это не имеет отношения.
Ищите форумы, на которых обсуждается сканирование и распознавание книг. Если вам нужен распознанный текст, то вам придется его сначала распознать.
Извлечь текст без OCR из тех pdf, которые "легко найти в поисковике" нельзя, его там нет, только сканы страниц.

vit1737 · 30.06.2012

Ответ: Поиск/извлечение текста

Большое спасибо за программу.
Есть ли возможность пакетной обработки?

barabanozver · 25.12.2012

Ответ: Поиск/извлечение текста

Добро.
Вы меня уж простите, но, чем дальше читаю тему, тем больше убеждаюсь в своей безграмотности.
Скачал pdf-recode101210. Далее - к чему и как мне приладить этот exe-шник я не понял...
Скажите, как пользовать сию программку?

suntory · 25.12.2012

Ответ: Поиск/извлечение текста

Попробуйте перетащить нужный pdf на этот exe.

barabanozver · 26.12.2012

Ответ: Поиск/извлечение текста

drop target. Ага. Пишет "can't save"

Ziatz · 16.03.2013

Ответ: Поиск/извлечение текста

Спасибо за замечательную программу. Она хорошо исправляет пдфы, сгенерированные Вентурой 10.

serge_li · 20.03.2013

Ответ: Поиск/извлечение текста

Уважаемый 1998!

Столкнулся с такой же проблемой! Есть pdf, созданные старым софтом (на месте расширенной латиницы стоят русские буквы). Попробовал использовать скачанную "pdf-recode101210.exe". Однако выдает 'can't save'.

Подскажите плиз, это проблема pdf или нет какого-то доп. софта?

Заранее спасибо за ответ.
Сергей.

Jeine · 20.03.2013

Ответ: Поиск/извлечение текста

Не по теме:
К глубокому моему сожалению, в профиле юзера 1998 написано: "Последний визит: 27.12.2011 00:54" И одна из последних фраз этого Человека на этом форуме была типа "Ну зачем я снова сюда зашел". Так что шансов почти нет.

_MBK_ · 20.03.2013

Ответ: Поиск/извлечение текста

Да уж, похоже, 1998 безвременно нас покинул, однако, жизнь продолжается. Кидайте свой PDF будем посмотреть.

Ziatz · 20.03.2013

Ответ: Поиск/извлечение текста

Я drop не пробовал, а давал имя файла в командной строке. Всё перекодировалось нормально, только размер файла почему-то чуть больше получался.
А не может быть так, что у вас просто русское имя файла?

serge_li · 20.03.2013

Ответ: Поиск/извлечение текста

Выкладываю через файлообменник глючный файл. Пробовал запускать на другом компе - результат тот же

Посмотреть вложение kuprii2013-a5-1-10.pdf

_MBK_ · 20.03.2013

Ответ: Поиск/извлечение текста

Там какой-то нестандартный метод компрессии, что ли? Распаковщик в конце падает, причем не только pdf-recodе. Внутри обычный 8битный кириллический текст в кодировке Windows-1251

serge_li · 20.03.2013

Ответ: Поиск/извлечение текста

Файл создавался в Ventura 8.0 путем печати на принтер "Adobe PDF" - это который напрямую, без дистиллера. Может с этим связано?

_MBK_ · 20.03.2013

Ответ: Поиск/извлечение текста

Возможно. Теоретический алгоритм решения проблемы: найти что-то, чем можно корректно распаковать данный файл (я по быстрому не нашел), в конце концов, передистиллировать, а потом натравить на полученный файл pdf-recode

Ziatz · 20.03.2013

Ответ: Поиск/извлечение текста

Да, не работает и в командной строке.
Но можно предложить следующий способ.

Копируете в Ворд 2007.
Там сохраняете как простой текст, запросит выбор кодировки. Отметьте пункт "другая", а там западноевропейская iso.
После чего сохраняется текст в кодировке windows1251
Одна проблема - отсутствие пробелов

Методичнівказівкидолабораторнихробіт
длястудентіврадіотехнічногофакультету

Но так было и при простом копировании без перекодировки:

Ìåòîäè÷í³âêàç³âêèäîëàáîðàòîðíèõðîá³ò
äëÿñòóäåíò³âðàä³îòåõí³÷íîãîôàêóëüòåòó

Поиск

Поиск/извлечение текста

1998

Участник

1998

Участник

catpaw

catpaw

alexandr007

Участник

suntory

Administrator

vit1737

Участник

barabanozver

suntory

Administrator

barabanozver

Ziatz

Участник

serge_li

Участник

Jeine

Да здравствует разум! Да сгинет маразм!

_MBK_

Пикирующий бомбардировщик

Ziatz

Участник

serge_li

Участник

_MBK_

Пикирующий бомбардировщик

serge_li

Участник

_MBK_

Пикирующий бомбардировщик

Ziatz

Участник