Поиск/извлечение текста

serge_li

Участник
Сообщения
19
Реакции
0
Ответ: Поиск/извлечение текста

найти что-то, чем можно корректно распаковать данный файл
Подскажите плиз, что значит "распаковать". Как вариант, если можно, привести название одной из прог, которая выполняет "распаковку". А то я таким никогда не занимался.
Заранее спасибо.
 

serge_li

Участник
Сообщения
19
Реакции
0
Ответ: Поиск/извлечение текста

Копируете в Ворд 2007.
Там сохраняете как прост
Это может быть решением... однако внешний вид. Не хочется его терять. Просто желание сделать его искабельным...или искаемым ;)
 

Ziatz

Участник
Сообщения
118
Реакции
0
Ответ: Поиск/извлечение текста

Кажется, проблема решена. Для этого нужен Foxit Phantom.
Эта смотрелка позволяет вносить закладки. Создайте ещё одну закладку (всё равно какую). Просто чтобы документ изменился. После этого сохраните как. Тогда файл кодируется заново (размер вырастает с 111 до 123), после чего нормально воспринимается программой для перекодировки (но проблема с пробелами остается).

Вот текст, скоипрованный прямо из pdf в окно Mozillы:

Пристроїнадвисокихчастоттаантени.ЧастинаI.Анте
вказівкидолабораторнихробітдлястудентіврадіотехнічног
Укл.В.С.Вунтесмері,О.М.Купрій,С.Є.Мартинюк,М.С.Ю
НТУУКПІ,2013.—36с.Видання3-е,виправлене.
Укладачі:
ВУНТЕСМЕРІВолодимирСеменович,к.т.н.,доцент
КУПРІЙОлександрМихайлович,к.т.н.,доцент
МАРТИНЮКСергійЄвстафійович,к.т.н.,доцент
ЮРЧЕНКОМихайлоСергійович,к.т.н.,доцент
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 298
Реакции
10 866
Ответ: Поиск/извлечение текста

Это как раз то о чем я говорил. Возможно, это пройдет и без фоксита, при пересохранении или передистилляции через акробат.
 

suntory

Administrator
15 лет на форуме
Сообщения
23 688
Реакции
12 617

Вложения

  • kuprii2013-a5-1-10_uncompress.rar
    76.3 КБ · Просм.: 471

serge_li

Участник
Сообщения
19
Реакции
0
Ответ: Поиск/извлечение текста

сложил все сохранившиеся версии pdf-recode
Спасибо за архив.
Поднимаю вопрос, который возможно уже был решен.
Интересно чтобы конвертер выполнял пакетное конвертирование. Например вместо файла целью явл. папка с pdf. На выходе получаем папку с тем же именем +"+" (так же, как сейчас с файлами), а внутри папки pdf со своими именами, но уже конвертированные.
Заранее спасибо за ответы.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 298
Реакции
10 866
Ответ: Поиск/извлечение текста

Это уж точно навряд ли. Без 1998 его программу никто не переделает, а его, похоже, теперь тут не найдешь. А что - у вас так много косячных файлов, что прямо пачками перекодировать надо?
Слепите все в один, перекодируйте а потом разбейте снова.
 

serge_li

Участник
Сообщения
19
Реакции
0
Ответ: Поиск/извлечение текста

у вас так много косячных файлов, что прямо пачками перекодировать надо?
А я их сам и создаю! ;) Просто Ventura у нас рабочая прога... соотв. как сделали номер, так и создали кривые pdf
 

serge_li

Участник
Сообщения
19
Реакции
0
Ответ: Поиск/извлечение текста

Внутри обычный 8битный кириллический текст в кодировке Windows-1251
Еще хотел спросить, просто интересно, при помощи какой проги получена сия инфа?
Заранее спасибо за ответ.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 298
Реакции
10 866
Ответ: Поиск/извлечение текста

Еще хотел спросить, просто интересно, при помощи какой проги получена сия инфа?
Первое что попалось под руку Nice PDF Compressor - начинает распаковывать и рушится по ошибке. Но темпфайл создает - там текст в данном виде. Впрочем, тут уже насоветовали массу программ, которые корректно распаковывают.
 

serge_li

Участник
Сообщения
19
Реакции
0
Ответ: Поиск/извлечение текста

По компрессору понятно, спасибо.
Я хотел спросить именно о фразе "8битный кириллический текст в кодировке Windows-1251". Откуда она получена?
Сорри за непонятность изложения
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 298
Реакции
10 866
Ответ: Поиск/извлечение текста

Ээээ.... Мммм... 'hmmm'
Как бы вам популярнее объяснить? Наверное, проще через картинку ;)
1.jpg
 

serge_li

Участник
Сообщения
19
Реакции
0
Ответ: Поиск/извлечение текста

Для этого нужен Foxit Phantom
Отписываюсь о результатах использования Foxit Phantom.
Все получилось ок! Низкий поклон всем откликнувшимся!

Кстати, при исп. версии pdf-recode210111 копирование в ворд идет нормально, с пробелами.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 298
Реакции
10 866
Ответ: Поиск/извлечение текста

Вообще, вспоминается старый анекдот: "Ему бы все резать..." ;)
А зачем, спрашивается, кромсать PDF, если достаточно поставить такой скрипт:
Код:
// Search 1251 script. 
// Copyright (c) MBK 2013 
// mikhail_kondakov@mail.ru http://mbkhome.narod.ru

if (app.viewerVersion < 10) {
	app.addMenuItem({ cName: "Search 1251", cUser: "Search 1251", cParent: "Edit", cExec: "Srch()", 
		cEnable: "event.rc = (event.target != null);"}); 
	
} else {
	app.addToolButton({ cName: "Search 1251", cLabel: "Search 1251", cExec: "Srch()",
		cEnable: "event.rc = (event.target != null);"});
	
}
/*
var win_cp1251=
( "\u0402", "\u0403", "\u201A", "\u0453", "\u201E", "\u2026", "\u2020", "\u2021",
"\u20AC", "\u2030", "\u0409", "\u2039", "\u040A", "\u040C", "\u040B", "\u040F",
"\u0452", "\u2018", "\u2019", "\u201C", "\u201D", "\u2022", "\u2013", "\u2014",
"\uFFFD", "\u2122", "\u0459", "\u203A", "\u045A", "\u045C", "\u045B", "\u045F",
"\u00A0", "\u040E", "\u045E", "\u0408", "\u00A4", "\u0490", "\u00A6", "\u00A7",
"\u0401", "\u00A9", "\u0404", "\u00AB", "\u00AC", "\u00AD", "\u00AE", "\u0407",
"\u00B0", "\u00B1", "\u0406", "\u0456", "\u0491", "\u00B5", "\u00B6", "\u00B7",
"\u0451", "\u2116", "\u0454", "\u00BB", "\u0458", "\u0405", "\u0455", "\u0457",
"\u0410", "\u0411", "\u0412", "\u0413", "\u0414", "\u0415", "\u0416", "\u0417",
"\u0418", "\u0419", "\u041A", "\u041B", "\u041C", "\u041D", "\u041E", "\u041F",
"\u0420", "\u0421", "\u0422", "\u0423", "\u0424", "\u0425", "\u0426", "\u0427",
"\u0428", "\u0429", "\u042A", "\u042B", "\u042C", "\u042D", "\u042E", "\u042F",
"\u0430", "\u0431", "\u0432", "\u0433", "\u0434", "\u0435", "\u0436", "\u0437",
"\u0438", "\u0439", "\u043A", "\u043B", "\u043C", "\u043D", "\u043E", "\u043F",
"\u0440", "\u0441", "\u0442", "\u0443", "\u0444", "\u0445", "\u0446", "\u0447",
"\u0448", "\u0449", "\u044A", "\u044B", "\u044C", "\u044D", "\u044E", "\u044F");
*/
var win_cp1251=
"\u0402\u0403\u201A\u0453\u201E\u2026\u2020\u2021\u20AC\u2030\u0409\u2039\u040A\u040C\u040B\u040F\u0452\u2018\u2019\u201C\u201D\u2022\u2013\u2014\uFFFD\u2122\u0459\u203A\u045A\u045C\u045B\u045F\u00A0\u040E\u045E\u0408\u00A4\u0490\u00A6\u00A7\u0401\u00A9\u0404\u00AB\u00AC\u00AD\u00AE\u0407\u00B0\u00B1\u0406\u0456\u0491\u00B5\u00B6\u00B7\u0451\u2116\u0454\u00BB\u0458\u0405\u0455\u0457\u0410\u0411\u0412\u0413\u0414\u0415\u0416\u0417\u0418\u0419\u041A\u041B\u041C\u041D\u041E\u041F\u0420\u0421\u0422\u0423\u0424\u0425\u0426\u0427\u0428\u0429\u042A\u042B\u042C\u042D\u042E\u042F\u0430\u0431\u0432\u0433\u0434\u0435\u0436\u0437\u0438\u0439\u043A\u043B\u043C\u043D\u043E\u043F\u0440\u0441\u0442\u0443\u0444\u0445\u0446\u0447\u0448\u0449\u044A\u044B\u044C\u044D\u044E\u044F";

function Srch()
{
var s=app.response({cQuestion: "Search string:",cDefault: ""});
var res="";
for (i=0;i<s.length;i++)
{
var b=s.charAt(i);
var c=win_cp1251.indexOf(b);

if (c!=-1)
{
 var tmp=128+c;
} else
{
 var tmp=b;
}
var tmp2=util.printf("%x",tmp);
while (tmp2.length<4) {tmp2="0"+tmp2;}
var tmp1=util.printf("\u0027\u005Cu%s\u0027",tmp2);
res=res+eval(tmp1);

}

search.query(res, "ActiveDoc");
return;
}
И будет превосходно искать в неперекодированном документе кириллический текст в кодировке win1251.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 298
Реакции
10 866
Ответ: Поиск/извлечение текста

Извиняюсь, выяснилось, что отмороженная акробатовская жаба поддерживает fromCharCode, а значит, код упрощается до:
Код:
// Search 1251 script. 
// Copyright (c) MBK 2013 
// mikhail_kondakov@mail.ru http://mbkhome.narod.ru

if (app.viewerVersion < 10) {
	app.addMenuItem({ cName: "Search 1251", cUser: "Search 1251", cParent: "Edit", cExec: "Srch()", 
		cEnable: "event.rc = (event.target != null);"}); 
	
} else {
	app.addToolButton({ cName: "Search 1251", cLabel: "Search 1251", cExec: "Srch()",
		cEnable: "event.rc = (event.target != null);"});
	
}
var win_cp1251=
"\u0402\u0403\u201A\u0453\u201E\u2026\u2020\u2021\u20AC\u2030\u0409\u2039\u040A\u040C\u040B\u040F\u0452\u2018\u2019\u201C\u201D\u2022\u2013\u2014\uFFFD\u2122\u0459\u203A\u045A\u045C\u045B\u045F\u00A0\u040E\u045E\u0408\u00A4\u0490\u00A6\u00A7\u0401\u00A9\u0404\u00AB\u00AC\u00AD\u00AE\u0407\u00B0\u00B1\u0406\u0456\u0491\u00B5\u00B6\u00B7\u0451\u2116\u0454\u00BB\u0458\u0405\u0455\u0457\u0410\u0411\u0412\u0413\u0414\u0415\u0416\u0417\u0418\u0419\u041A\u041B\u041C\u041D\u041E\u041F\u0420\u0421\u0422\u0423\u0424\u0425\u0426\u0427\u0428\u0429\u042A\u042B\u042C\u042D\u042E\u042F\u0430\u0431\u0432\u0433\u0434\u0435\u0436\u0437\u0438\u0439\u043A\u043B\u043C\u043D\u043E\u043F\u0440\u0441\u0442\u0443\u0444\u0445\u0446\u0447\u0448\u0449\u044A\u044B\u044C\u044D\u044E\u044F";



function Srch()
{


var s=app.response({cQuestion: "Search string:",cDefault: ""});
var res="";
for (i=0;i<s.length;i++)
{
var b=s.charAt(i);
var c=win_cp1251.indexOf(b);

if (c!=-1)
{
 var tmp=128+c;
} else
{
 var tmp=b;
}

res=res+String.fromCharCode(tmp);
}

search.query(res, "ActiveDoc");
return;
}