Поиск/извлечение текста

antabu · 30.10.2008

Ответ: Поиск/извлечение текста

Я был неправ – вариантов больше.
Это уже наглость с моей стороны, но есть ещё десяток файлов, не поддающихся перекодировке последней версией рекодера. Выборочно 5 шт:
http://rapidshare.com/files/159052981/Hij.RAR.html
Если кого интересуют ссылки для скачивания полного архива журнала – могу выложить. Общий вес – около 2,5 гигов.

1998 · 31.10.2008

Ответ: Поиск/извлечение текста

Да нет, все нормально. Скачал, посмотрел, понял как решать. Но не сегодня

antabu · 01.11.2008

Ответ: Поиск/извлечение текста

Редакция спрашивает разрешение на размещение на своей странице с электронной версией журнала Вашей программы "если она написана на лицензионно чистом софте".

1998 · 01.11.2008

Ответ: Поиск/извлечение текста

Обновил ссылку в сообщении 13. Все pdf из этой темы перекодируются (чувствую себя немного японской бензопилой). Редакция, как и кто-либо другой, могут использовать программку как им заблагорассудится. Лишь надеюсь, что она будет предложена юзерам, нежелающим повторно расходовать трафик на скачивание исправленных редакцией архивов. Также как, надеюсь, по сдаче текущего номера, в дальнейшем будут использованы нормальные шрифты, хотя это не моё дело. В программе не содержится фрагментов кода, из-за которых могут возникнуть вопросы у каких-либо правообладателей. Perl свободен (gratis, libre). Использованные модули также распространяются "under the same terms as Perl itself".

Не по теме:
И, если редакция стремится к соблюдению законов, то пусть обратит внимание: в pdf из сообщения 1 основной шрифт (тот самый, со "смешной" кодировкой, с которого всё началось) -- "Pragmatica" c пометкой "(C) !22! Soft 1992". Я не спец ни по шрифтам, ни по вопросам закона, но afaik у Паратайпа могут возникнуть претензии. Даже если у них куплена "нормальная" Pragmatica (которой в этом файле набрано всего несколько слов). Возможно, просто дело в беспорядке на верстальной машине, и для набора используется нелицензионный шрифт. А ответственные товарищи не в курсе (как следует из Вашей с ними переписки - прочитал в личке, спасибо.

antabu · 04.11.2008

Ответ: Поиск/извлечение текста

Огромное Вам спасибо! Перекодировал все 82 номера журнала, представленные в pdf формате. Практически весь текст отображается правильно. Проверил в Foxit Reader в режиме просмотра текста, и выборочно в Adobe Reader копированием.
Теперь разбираюсь, почему компонент pdftotext поискового плагина неправильно извлекает текст из перекодированных файлов. Полностью сборку выложил:
http://webfile.ru/2359345 Потом напишу в редакцию.

1998 · 04.11.2008

Ответ: Поиск/извлечение текста

почему компонент pdftotext поискового плагина неправильно извлекает текст из перекодированных файлов

Хм-м, я вывел из индизайна заведомо "правильный" pdf, с экспортируемым из акробата текстом, нетронутый подозрительной программкой pdf-recode, -- так этот Universal Viewer не показывает в нем русский текст. Возможно, в сообщении 11 есть подсказка, какие конфиг.файлы править и/или параметры ком.строки задавать...

antabu · 05.11.2008

Ответ: Поиск/извлечение текста

Как это ни странно, Вьювер с теми настройками, как я его выложил, правильно отображает текст в неперекодированных номерах журнала до второго за 07 год. А чтобы правильно показывал в правильных файлах, достаточно удалить расширение .txt из имени файла xpdfrc — извините за беспокойство.
Pdf-recode я отправил в редакцию с Вашими комментариями из поста 24.

ch_alex · 05.11.2008

Ответ: Поиск/извлечение текста

Не по теме:
Эх... Это был мой любимый журнал, пока был жив Петрянов-Соколов.

Химики сами по себе весьма весёлые и неординарные люди. Достаточно зайти на химфак.

antabu · 06.11.2008

Ответ: Поиск/извлечение текста

Кроме бумажных номеров журнала есть выпущенная редакцией т. н. электроверсия в формате pdf начиная с 02 года. Кроме того, в Сети можно найти все номера до 06 года включительно в djvu формате с текстовым слоем в UTF8.
В девятом номере за 05 год и в pdf и в djvu версиях не хватает двух страниц, которые есть в бумажном номере. Отсюда делаю вывод, что файлы djvu кем-то получены конвертацией из pdf, а не сканированием с бумаги, причём нестандартная кодировка текста этому не помешала.

Vadim39 · 26.10.2009

Ответ: Поиск/извлечение текста

У меня возникла похожее затруднение: имеется несколько десятков файлов, которые нужно сделать searchable-льными.
Пример: _http://slil.ru/28122550

К сожалению, я мало-что смыслю в формате PDF, поэтому указание

Надо взять файл и прописать в шрифтах ресурс ToUnicode (CMap)

мне не совсем ясно.

В самом акробате (8-й версия profrssional) я не смог найти инструмент для этого, вероятно потому, что плохо представляю себе где искать. Наверное, где-то тут? _http://slil.ru/28122659

И еще, этот самый ресурс можно вставлять из текстового файла?

Grievous · 15.04.2010

Старые PDF кракозябры

Хотелось бы поднять тему. Думаю мне сюда.

Издательства присылают нам журналы в виде PDF. Но в них не работает поиск и копирование текста и нечитабельные закладки с содержанием.

Корень зла возможно в том, что они пользуются до сих пор восьмибитными кодировками и такими же нестандартными шрифтами. Причем эти шрифты содержат удмуртские буквы.

Как быть в такой ситуации? С отсутствием поиска еще можно смириться, но нечитабельное оглавление конкретно напрягает. Как научить издательства создавать правильные юникодные PDF?
И можно ли вылечить старые архивы? Исходники наверное уже потерялись, остались только PDF файлы.

MORda · 01.07.2010

Ответ: Поиск/извлечение текста

Столкнулись с такой же проблемой, как и у автора темы, старые шрифты, программы верстки. Результат не работает поиск, текст копируется криво...
Ссылка на перекодировщик умерла. Поделитесь, кто стал счастливым обладателем pdf-recode.

suntory · 01.07.2010

Ответ: Поиск/извлечение текста

Вот:
http://forum.rudtp.ru/resources/pdf-recode.141/

vvIvv · 30.11.2010

pdf-recode

Болшое спасибо 1998 за утилиту pdf-recode - оказалась очень полезной.
НО
нельзя ли ее доработать?
Не конвертируютя символы ср1251 не относящиеся к русскому алфавиту.
Напр. буквы
0406 І
0456 і
0490 Ґ
0491 ґ
0404 Є
0454 є
0454 є
0457 ї
0407 Ї
040E Ў
045E ў
и нек. др.

Все знаки греческого алфавта и проч.
(нужно, чтобы сделать искабельными и индексируемыми Гуглем энциклопедии - pdf)

'thank'

А, может быть, возможно выложить сам скрипт и разъяснить "чайниу", что в нем дополнить и как потом сделать из этого exe?

suntory · 30.11.2010

Ответ: pdf-recode

vvIvv сказал(а):
выложить сам скрипт

Распакуйте exe 7-zip или другим архиватором

А exe сделан вроде этим
http://par.perl.org/wiki/Main_Page

vvIvv · 30.11.2010

Ответ: Поиск/извлечение текста

посмотрел я на этот pdf-recode.pl из pdf-recode.exe - пока только почесал репу и сказал себе "М-да... - не моё..."

Может кто более сведущий возьмется добавить в скрипт пару десятков строк соответствия кодов для "нерусскоалфавитных" символов кирилицы (ЉЊЌЋЏђљњќћџЎўЈҐЇІіґµєјЅѕї)? А мотет, даже и для греческих (Ά£¥µΈΉΊΌΎΏΐΑΒΓΔΕΖΗΘΙΚΛΜΝΞΟΠΡΣΤΥΦΧΨΩΪΫάέήίΰαβγδεζηθικλμνξοπρςστυφχψωϊϋόύώ), а потом это перепаковать?
'sos'

=========
Кстати,
в посте #33 сейчас выложен не тот pdf-recode.exe, что был еще вчера. И этот, похоже, не работает. По кр. мере на моих пи-ди-эф выдает

кàïðèê³íö³ 1980-õ ðð. â оêðà¿í³ ðîçãîðíóëàñÿ íàóêîâî-äîñë³äíà ðîáîòà

таже строка из прежнего:

Наприк³нц³ 1980-х рр. в Укра¿н³ розгорнулася науково-досл³дна робота

suntory · 30.11.2010

Ответ: Поиск/извлечение текста

Не по теме:

vvIvv сказал(а):

не тот pdf-recode.exe

Нажмите, чтобы раскрыть...

Наверное перепутал, у меня остались два с разными датами, и вчера видимо выложил в архив более старый, проверьте еще раз.

vvIvv · 30.11.2010

pdf-recode

теперь - тот.
3*787*207 bytes
Date 01.11.2008

1998 · 03.12.2010

Ответ: Поиск/извлечение текста

vvIvv сказал(а):
пару десятков строк

Видимо, надо дописать, по образу и подобию, пары уникодов из 1252 и 1251 into %LUT3 hash table, для перечисленных выше недостающих кириллических букв. Я поленился, вписал только 65 пар для русских букв (кроме Ёё) & "Numero". Напишите их, я запакую в Exe (что, вообще говоря, необязательно). Насчет еще и греческих -- внутренности "черного ящика" немного сложнее, чем Вы видимо представляете. Это немаленькая работа.

vvIvv · 04.12.2010

pdf-recode.pl

1998 сказал(а):
Видимо, надо дописать, по образу и подобию, пары уникодов из 1252 и 1251 into %LUT3 hash table, для перечисленных выше недостающих кириллических букв. Я поленился, вписал только 65 пар для русских букв (кроме Ёё) & "Numero". Напишите их, я запакую в Exe (что, вообще говоря, необязательно). Насчет еще и греческих -- внутренности "черного ящика" немного сложнее, чем Вы видимо представляете. Это немаленькая работа.

Ну вот строки, к-рые я добавил в секцию my %LUT3 =

Код:

,
# Добавляем другие буквы кириллицы
"<00B3>", "<0456>", # і
"<00BF>", "<0457>", # ї
"<00B2>", "<0406>", # І
"<00BA>", "<0454>", # є
"<00FF>", "<0404>", # Є
"<00B4>", "<0491>", # ґ
"<00AF>", "<0407>", # Ї
"<00A5>", "<0020>", # Ґ
"<00A2>", "<0463>", # ? (ять мал.)
"<00B8>", "<0451>"); # ё
# "<0015>", "<045E>", # ў
# "<0007>", "<045E>", # ў (опять... - наверное баг в предыдущем преобразовании)
# 0018, 0011, 0019, 000F # ў (опять... 
# 0013, 0015 # Ў (большая)
# хватит пока и украинских
# "<>", "<>", #

С белорусской ў получается мешанина какая-то
ПиДиЭфов с другими неправильными символами - не нашел (да и не шибко то старался искать)

=======
А можно как-то запусть скрипт из командной строки?
Напр. так

Код:

perl pdf-recode.pl myfile.pdf

Я - не спец. Надо, чтобы стоял Перл?
Заранее спасибо
Да, на всякий случай присоединил еще и образец неправильного украинского pdf

Поиск

Поиск/извлечение текста

antabu

1998

Участник

antabu

1998

Участник

antabu

Вложения

1998

Участник

antabu

ch_alex

Погулять вышел.

antabu

Vadim39

Участник

Grievous

Участник

MORda

Участник

suntory

Administrator

vvIvv

Участник

suntory

Administrator

vvIvv

Участник

suntory

Administrator

vvIvv

Участник

1998

Участник

vvIvv

Участник

Вложения