Поиск/извлечение текста

1998

Участник
Сообщения
1 895
Реакции
1 322
Ответ: pdf-recode101210

Всё как-то гаже, по-моему, и вопрос далеко не только в научных публикациях. Хотим мы или нет, pdf (PDF/A) будет стандартом хранения данных (значительной их части, т.е.) в обозримом будущем. И что мы, которые 150 млн., храним? Набор "весёлых картинок"? (т.к. файлы годятся только на "посмотреть") Или полное собрание кракозябликов? Вот о чем не мешало бы подумать нашему IT-продвинутому. А не модными телефончиками баловаться.

Ну а "кодировку" по ссылке мы победим, нашей могучей программкой. Щас посмотрю :)
 

1998

Участник
Сообщения
1 895
Реакции
1 322
Ответ: pdf-recode101210

http://ifolder.ru/21471484

Как-то так, на скорую руку. Очередной безобразный хак, по префиксу Advn в имени шрифта, ничего формального и быстрого больше не придумалось.
 

catpaw

12 лет на форуме
Сообщения
245
Реакции
10
Ответ: pdf-recode101210

Почему-то программка не дает результата. Пишет мне от имени Перла "Can't save" :(
 

catpaw

12 лет на форуме
Сообщения
245
Реакции
10
Ответ: Поиск/извлечение текста

Бывает, что кириллические шрифты кодируются правильно, а ресурс CMap утерян.
А можно про СМар чуть подробнее? Судя по всему этот механизьм можно использовать не только для CJK.
А можно им починить создание PDF, в неадобовской верстальной программе? На уровне прямого создания PDF из верстки?
Нарыла кучу английского хелпа про этот СМар, но что-то я там никак ничего не пойму...:(
 

alexandr007

Участник
Сообщения
1
Реакции
0
Ответ: Поиск/извлечение текста

ребят, помогите пожалуйста извлечь текст из этого pdf-документа. черноморов "теория принятия решения".(сорри, я пока не могу постить ссылки. эту книгу легко найти в поисковике).в файн-ридере толком не распознаёт, а остальные конвертеры из пдф в док конвертируют в качестве изображений. мне необходим текст. распознанный.с возможностью его редактирования)
 

suntory

Administrator
15 лет на форуме
Сообщения
23 686
Реакции
12 614
Ответ: Поиск/извлечение текста

К теме это не имеет отношения.
Ищите форумы, на которых обсуждается сканирование и распознавание книг. Если вам нужен распознанный текст, то вам придется его сначала распознать.
Извлечь текст без OCR из тех pdf, которые "легко найти в поисковике" нельзя, его там нет, только сканы страниц.
 

vit1737

Участник
Сообщения
1
Реакции
0
Ответ: Поиск/извлечение текста

Большое спасибо за программу.
Есть ли возможность пакетной обработки?
 

barabanozver

10 лет на форуме
Сообщения
63
Реакции
1
Ответ: Поиск/извлечение текста

Добро.
Вы меня уж простите, но, чем дальше читаю тему, тем больше убеждаюсь в своей безграмотности.
Скачал pdf-recode101210. Далее - к чему и как мне приладить этот exe-шник я не понял...
Скажите, как пользовать сию программку?
 

suntory

Administrator
15 лет на форуме
Сообщения
23 686
Реакции
12 614
Ответ: Поиск/извлечение текста

Попробуйте перетащить нужный pdf на этот exe.
 

barabanozver

10 лет на форуме
Сообщения
63
Реакции
1
Ответ: Поиск/извлечение текста

drop target. Ага. Пишет "can't save"
 

Ziatz

Участник
Сообщения
118
Реакции
0
Ответ: Поиск/извлечение текста

Спасибо за замечательную программу. Она хорошо исправляет пдфы, сгенерированные Вентурой 10.
 

serge_li

Участник
Сообщения
19
Реакции
0
Ответ: Поиск/извлечение текста

Уважаемый 1998!

Столкнулся с такой же проблемой! Есть pdf, созданные старым софтом (на месте расширенной латиницы стоят русские буквы). Попробовал использовать скачанную "pdf-recode101210.exe". Однако выдает 'can't save'.

Подскажите плиз, это проблема pdf или нет какого-то доп. софта?

Заранее спасибо за ответ.
Сергей.
 

Jeine

Да здравствует разум! Да сгинет маразм!
15 лет на форуме
Сообщения
7 396
Реакции
6 371
Ответ: Поиск/извлечение текста


Не по теме:
К глубокому моему сожалению, в профиле юзера 1998 написано: "Последний визит: 27.12.2011 00:54" И одна из последних фраз этого Человека на этом форуме была типа "Ну зачем я снова сюда зашел". Так что шансов почти нет.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 294
Реакции
10 865
Ответ: Поиск/извлечение текста

Да уж, похоже, 1998 безвременно нас покинул, однако, жизнь продолжается. Кидайте свой PDF будем посмотреть. ;)
 

Ziatz

Участник
Сообщения
118
Реакции
0
Ответ: Поиск/извлечение текста

Я drop не пробовал, а давал имя файла в командной строке. Всё перекодировалось нормально, только размер файла почему-то чуть больше получался.
А не может быть так, что у вас просто русское имя файла?
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 294
Реакции
10 865
Ответ: Поиск/извлечение текста

Там какой-то нестандартный метод компрессии, что ли? Распаковщик в конце падает, причем не только pdf-recodе. Внутри обычный 8битный кириллический текст в кодировке Windows-1251
 

serge_li

Участник
Сообщения
19
Реакции
0
Ответ: Поиск/извлечение текста

Файл создавался в Ventura 8.0 путем печати на принтер "Adobe PDF" - это который напрямую, без дистиллера. Может с этим связано?
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 294
Реакции
10 865
Ответ: Поиск/извлечение текста

Возможно. Теоретический алгоритм решения проблемы: найти что-то, чем можно корректно распаковать данный файл (я по быстрому не нашел), в конце концов, передистиллировать, а потом натравить на полученный файл pdf-recode
 

Ziatz

Участник
Сообщения
118
Реакции
0
Ответ: Поиск/извлечение текста

Да, не работает и в командной строке.
Но можно предложить следующий способ.

Копируете в Ворд 2007.
Там сохраняете как простой текст, запросит выбор кодировки. Отметьте пункт "другая", а там западноевропейская iso.
После чего сохраняется текст в кодировке windows1251
Одна проблема - отсутствие пробелов

Методичнівказівкидолабораторнихробіт
длястудентіврадіотехнічногофакультету

Но так было и при простом копировании без перекодировки:

Ìåòîäè÷í³âêàç³âêèäîëàáîðàòîðíèõðîá³ò
äëÿñòóäåíò³âðàä³îòåõí³÷íîãîôàêóëüòåòó