Количество знаков в файле PDF.

Статус
Закрыто для дальнейших ответов.

ramiraz

Участник
Топикстартер
Сообщения
5
Реакции
0
Уважаемые, подскажите можно ли не покидая Acrobat узнать количество знаков в файле PDF? Наподобие word'овского - "Сервис -> Статистика".
Попробовал программу Anycount, не понравилось - считает медленно, падает.
 

suntory

Administrator
15 лет на форуме
Сообщения
23 349
Реакции
12 401
Ответ: Количество знаков в файле PDF.

Traction Software Rapid PDF Count
Features include: count words
Считает быстро. Правда Акробат придется покинуть.
А можно даже и открывать:
No extra 3rd party software required for this to work.
плагин PDF Paper Stats
извиняюсь,это не то...


А если денег нет совсем то есть и забесплатно:
PDF-Explorer -- тоже считать слова умеет, и тоже быстро.
 

1998

Участник
Сообщения
1 895
Реакции
1 321
Ответ: Количество знаков в файле PDF.


Не по теме:
первый слова считает, второй вообще только страницы, если только я волшебных опций не нашел

это чтобы автор зря не качал (вдруг модем?^), а так-то интересно, созвучно мап-софтовскому pdf-explorer, но из другой оперы, оказалось

символы не проще ли чем слова считать? знай себе внутри скобок (которые strings) внутри Tj считай... ^)

 

Ninell'

Участник
Сообщения
6
Реакции
0
Ответ: Количество знаков в файле PDF.

Кто пробовал работать с PDF Explorer? Где в ней ведется подсчет количества символов?
 

suntory

Administrator
15 лет на форуме
Сообщения
23 349
Реакции
12 401
Ответ: Количество знаков в файле PDF.

Он считает слова, а не знаки
Batch Tools - Index text words

И я наврал, он не бесплатный, через какое-то время потребует себя купить. :)

Бесплатно вот для Mac OS X и не только в PDF
http://www.supermagnus.com/mac/Word_Counter/index.html
 

Ninell'

Участник
Сообщения
6
Реакции
0
Ответ: Количество знаков в файле PDF.

suntory, спасибо, попробую.
 

1998

Участник
Сообщения
1 895
Реакции
1 321
Ответ: Количество знаков в файле PDF.

Хм-м, узнать количество знаков можно практически моментально: pdftotext; оформить батником или скриптом. С площадью, занятой картинками (к запросу автора в другой теме), я бы попытался анализировать xml report из префлайта 9-ки, например:
Код:
<hit type="Image" page="PAG0" llx="92.824" lly="602.452" urx="181.146" ury="735.655">
<imagestate image_id="IMG133" v_ppi="299.993" h_ppi="299.993"></imagestate>
Вся информация создается и вынимается программно. Это, конечно, ходы для бестолковых типа меня, т.е. не дружащих с С и адобовским или сторонними SDK.
 

1998

Участник
Сообщения
1 895
Реакции
1 321
Ответ: Количество знаков в файле PDF.

С площадью, занятой картинками
Забавно, если выполнить экшн питстопа

select images
convert to gray
resample to 25
compression = none,

то в окошке "Аудит" оптимайзера напротив images увидим их общую площадь в кв.мм, с достаточно высокой точностью
^)

Очевидно, для учета битмапов надо немного усложнить экшн, обрабатывать их отдельно, т.е. задавать им разрешение (какое? правильно!) 71 dpi.
 

Ninell'

Участник
Сообщения
6
Реакции
0
Ответ: Количество знаков в файле PDF.

1998, спасибо огромное за идею, но мне это пока никак не реализовать, пока я буду разбираться в скриптовом языке акробата, пройдет много времени. Исли Вас не затруднит, помогите реализовать эту идею для уровня секретарши, (хотя бы основную часть алгоритма, а вывод - сама организую). Буду безмерно благодарна.
 

1998

Участник
Сообщения
1 895
Реакции
1 321
Ответ: Количество знаков в файле PDF.

"Основная часть алгоритма" изложена выше. Задавайте конкретные вопросы -- что, на основании изложенного, делаете, что, при этом, непонятно и/или не получается.
 

1998

Участник
Сообщения
1 895
Реакции
1 321
Ответ: Количество знаков в файле PDF.

Во как:
Код:
my $_ = `c:\\pdftk.exe $ARGV[0] output - uncompress`;
my $S = 0;
while ( /
   ((?:\+|-)?(?:\d+(?:\.\d*)?))\s
   (?:(?:\+|-)?(?:\d+(?:\.\d*)?)\s){2}
   ((?:\+|-)?(?:\d+(?:\.\d*)?))\s
   (?:(?:\+|-)?(?:\d+(?:\.\d*)?)\s){2}
   cm\n\/\w+\sDo
   /gx)
{
    $S += $1 * $2
};
printf "%s %.0f %s", "\n\nLooks like total pictures area is", $S/72/72*2.54*2.54, "sq cm\n";
 
Статус
Закрыто для дальнейших ответов.