Поиск/извлечение текста

  • Автор темы Автор темы antabu
  • Дата начала Дата начала
Ответ: Поиск/извлечение текста

Я был неправ – вариантов больше.
Это уже наглость с моей стороны, но есть ещё десяток файлов, не поддающихся перекодировке последней версией рекодера. Выборочно 5 шт:
http://rapidshare.com/files/159052981/Hij.RAR.html
Если кого интересуют ссылки для скачивания полного архива журнала – могу выложить. Общий вес – около 2,5 гигов.
 
Ответ: Поиск/извлечение текста

Да нет, все нормально. Скачал, посмотрел, понял как решать. Но не сегодня :)
 
Ответ: Поиск/извлечение текста

Редакция спрашивает разрешение на размещение на своей странице с электронной версией журнала Вашей программы "если она написана на лицензионно чистом софте".
 
Ответ: Поиск/извлечение текста

Обновил ссылку в сообщении 13. Все pdf из этой темы перекодируются (чувствую себя немного японской бензопилой). Редакция, как и кто-либо другой, могут использовать программку как им заблагорассудится. Лишь надеюсь, что она будет предложена юзерам, нежелающим повторно расходовать трафик на скачивание исправленных редакцией архивов. Также как, надеюсь, по сдаче текущего номера, в дальнейшем будут использованы нормальные шрифты, хотя это не моё дело. В программе не содержится фрагментов кода, из-за которых могут возникнуть вопросы у каких-либо правообладателей. Perl свободен (gratis, libre). Использованные модули также распространяются "under the same terms as Perl itself".

Не по теме:
И, если редакция стремится к соблюдению законов, то пусть обратит внимание: в pdf из сообщения 1 основной шрифт (тот самый, со "смешной" кодировкой, с которого всё началось) -- "Pragmatica" c пометкой "(C) !22! Soft 1992". Я не спец ни по шрифтам, ни по вопросам закона, но afaik у Паратайпа могут возникнуть претензии. Даже если у них куплена "нормальная" Pragmatica (которой в этом файле набрано всего несколько слов). Возможно, просто дело в беспорядке на верстальной машине, и для набора используется нелицензионный шрифт. А ответственные товарищи не в курсе (как следует из Вашей с ними переписки - прочитал в личке, спасибо. :)
 
Ответ: Поиск/извлечение текста

Огромное Вам спасибо! Перекодировал все 82 номера журнала, представленные в pdf формате. Практически весь текст отображается правильно. Проверил в Foxit Reader в режиме просмотра текста, и выборочно в Adobe Reader копированием.
Теперь разбираюсь, почему компонент pdftotext поискового плагина неправильно извлекает текст из перекодированных файлов. Полностью сборку выложил:
http://webfile.ru/2359345 Потом напишу в редакцию.
 

Вложения

Ответ: Поиск/извлечение текста

почему компонент pdftotext поискового плагина неправильно извлекает текст из перекодированных файлов
Хм-м, я вывел из индизайна заведомо "правильный" pdf, с экспортируемым из акробата текстом, нетронутый подозрительной программкой pdf-recode, -- так этот Universal Viewer не показывает в нем русский текст. Возможно, в сообщении 11 есть подсказка, какие конфиг.файлы править и/или параметры ком.строки задавать...
 
Ответ: Поиск/извлечение текста

Как это ни странно, Вьювер с теми настройками, как я его выложил, правильно отображает текст в неперекодированных номерах журнала до второго за 07 год. А чтобы правильно показывал в правильных файлах, достаточно удалить расширение .txt из имени файла xpdfrc — извините за беспокойство.
Pdf-recode я отправил в редакцию с Вашими комментариями из поста 24.
 
Ответ: Поиск/извлечение текста


Не по теме:
Эх... Это был мой любимый журнал, пока был жив Петрянов-Соколов.

Химики сами по себе весьма весёлые и неординарные люди. Достаточно зайти на химфак. ;)

 
  • Спасибо
Реакции: traktor77
Ответ: Поиск/извлечение текста

Кроме бумажных номеров журнала есть выпущенная редакцией т. н. электроверсия в формате pdf начиная с 02 года. Кроме того, в Сети можно найти все номера до 06 года включительно в djvu формате с текстовым слоем в UTF8.
В девятом номере за 05 год и в pdf и в djvu версиях не хватает двух страниц, которые есть в бумажном номере. Отсюда делаю вывод, что файлы djvu кем-то получены конвертацией из pdf, а не сканированием с бумаги, причём нестандартная кодировка текста этому не помешала.
 
Ответ: Поиск/извлечение текста

У меня возникла похожее затруднение: имеется несколько десятков файлов, которые нужно сделать searchable-льными.
Пример: _http://slil.ru/28122550

К сожалению, я мало-что смыслю в формате PDF, поэтому указание
Надо взять файл и прописать в шрифтах ресурс ToUnicode (CMap)
мне не совсем ясно.

В самом акробате (8-й версия profrssional) я не смог найти инструмент для этого, вероятно потому, что плохо представляю себе где искать. Наверное, где-то тут? _http://slil.ru/28122659

И еще, этот самый ресурс можно вставлять из текстового файла?
 
Старые PDF кракозябры

Хотелось бы поднять тему. Думаю мне сюда.

Издательства присылают нам журналы в виде PDF. Но в них не работает поиск и копирование текста и нечитабельные закладки с содержанием.

Корень зла возможно в том, что они пользуются до сих пор восьмибитными кодировками и такими же нестандартными шрифтами. Причем эти шрифты содержат удмуртские буквы.

Как быть в такой ситуации? С отсутствием поиска еще можно смириться, но нечитабельное оглавление конкретно напрягает. Как научить издательства создавать правильные юникодные PDF?
И можно ли вылечить старые архивы? Исходники наверное уже потерялись, остались только PDF файлы.
 
Ответ: Поиск/извлечение текста

Столкнулись с такой же проблемой, как и у автора темы, старые шрифты, программы верстки. Результат не работает поиск, текст копируется криво...
Ссылка на перекодировщик умерла. Поделитесь, кто стал счастливым обладателем pdf-recode.
 
pdf-recode

Болшое спасибо 1998 за утилиту pdf-recode - оказалась очень полезной.
НО
нельзя ли ее доработать?
Не конвертируютя символы ср1251 не относящиеся к русскому алфавиту.
Напр. буквы
0406 І
0456 і
0490 Ґ
0491 ґ
0404 Є
0454 є
0454 є
0457 ї
0407 Ї
040E Ў
045E ў
и нек. др.

Все знаки греческого алфавта и проч.
(нужно, чтобы сделать искабельными и индексируемыми Гуглем энциклопедии - pdf)


'thank'

А, может быть, возможно выложить сам скрипт и разъяснить "чайниу", что в нем дополнить и как потом сделать из этого exe?
 
Ответ: Поиск/извлечение текста

посмотрел я на этот pdf-recode.pl из pdf-recode.exe - пока только почесал репу и сказал себе "М-да... - не моё..."

Может кто более сведущий возьмется добавить в скрипт пару десятков строк соответствия кодов для "нерусскоалфавитных" символов кирилицы (ЉЊЌЋЏђљњќћџЎўЈҐЇІіґµєјЅѕї)? А мотет, даже и для греческих (Ά£¥µΈΉΊΌΎΏΐΑΒΓΔΕΖΗΘΙΚΛΜΝΞΟΠΡΣΤΥΦΧΨΩΪΫάέήίΰαβγδεζηθικλμνξοπρςστυφχψωϊϋόύώ), а потом это перепаковать?
'halp'
=========
Кстати,
в посте #33 сейчас выложен не тот pdf-recode.exe, что был еще вчера. И этот, похоже, не работает. По кр. мере на моих пи-ди-эф выдает
кàïðèê³íö³ 1980-õ ðð. â оêðà¿í³ ðîçãîðíóëàñÿ íàóêîâî-äîñë³äíà ðîáîòà
таже строка из прежнего:
Наприк³нц³ 1980-х рр. в Укра¿н³ розгорнулася науково-досл³дна робота
'oops'
 
Ответ: Поиск/извлечение текста


Не по теме:
Наверное перепутал, у меня остались два с разными датами, и вчера видимо выложил в архив более старый, проверьте еще раз.

 
pdf-recode

теперь - тот.
3*787*207 bytes
Date 01.11.2008
 
Ответ: Поиск/извлечение текста

пару десятков строк
:-) Видимо, надо дописать, по образу и подобию, пары уникодов из 1252 и 1251 into %LUT3 hash table, для перечисленных выше недостающих кириллических букв. Я поленился, вписал только 65 пар для русских букв (кроме Ёё) & "Numero". Напишите их, я запакую в Exe (что, вообще говоря, необязательно). Насчет еще и греческих -- внутренности "черного ящика" немного сложнее, чем Вы видимо представляете. Это немаленькая работа.
 
pdf-recode.pl

:-) Видимо, надо дописать, по образу и подобию, пары уникодов из 1252 и 1251 into %LUT3 hash table, для перечисленных выше недостающих кириллических букв. Я поленился, вписал только 65 пар для русских букв (кроме Ёё) & "Numero". Напишите их, я запакую в Exe (что, вообще говоря, необязательно). Насчет еще и греческих -- внутренности "черного ящика" немного сложнее, чем Вы видимо представляете. Это немаленькая работа.

Ну вот строки, к-рые я добавил в секцию my %LUT3 =
Код:
,
# Добавляем другие буквы кириллицы
"<00B3>", "<0456>", # і
"<00BF>", "<0457>", # ї
"<00B2>", "<0406>", # І
"<00BA>", "<0454>", # є
"<00FF>", "<0404>", # Є
"<00B4>", "<0491>", # ґ
"<00AF>", "<0407>", # Ї
"<00A5>", "<0020>", # Ґ
"<00A2>", "<0463>", # ? (ять мал.)
"<00B8>", "<0451>"); # ё
# "<0015>", "<045E>", # ў
# "<0007>", "<045E>", # ў (опять... - наверное баг в предыдущем преобразовании)
# 0018, 0011, 0019, 000F # ў (опять... 
# 0013, 0015 # Ў (большая)
# хватит пока и украинских
# "<>", "<>", #

С белорусской ў получается мешанина какая-то
ПиДиЭфов с другими неправильными символами - не нашел (да и не шибко то старался искать)

=======
А можно как-то запусть скрипт из командной строки?
Напр. так
Код:
perl pdf-recode.pl myfile.pdf
Я - не спец. Надо, чтобы стоял Перл?
Заранее спасибо
Да, на всякий случай присоединил еще и образец неправильного украинского pdf
:)
 

Вложения