Поиск на сайте в файлах pdf

Статус
Закрыто для дальнейших ответов.

Dresden

Топикстартер
20 лет на форуме
Сообщения
3 161
Реакции
665
Есть научно-технический журнал, который делается в Индизайне. В нем довольно много векторной графики, фотографий, формул, иногда больших (на разворот) таблиц и многоязычного текста с соответствующей спецификой (умляуты всякие и т. п.). Переделывать все это добро в HTML утомительно и требует по сути повторной верстки и корректуры. Кошернее было бы выкладывать статьи в виде файлов pdf, однако мне не совсем понятно, как при этом можно организовать поиск по сайту.
Знаю один сайт (немецкий), где выложены pdf-файлы и поиск по их содержимому работает. На выходе формируется перечень ссылок на файлы pdf, где встречается искомое слово.
Вот ссылка на страницу поиска на этом сайте: http://www.eurailpress.com/archiv/volltext-suche.php
Если не сильны в немецком:), то можете попробовать искать по слову, например, Stellwerk или Linienzugbeeinflussung.

Как реализован этот поиск?
 

huck

безучастник
15 лет на форуме
Сообщения
703
Реакции
59
Ответ: Поиск на сайте в файлах pdf

Гугль ищет в pdf.
 

Dresden

Топикстартер
20 лет на форуме
Сообщения
3 161
Реакции
665
Ответ: Поиск на сайте в файлах pdf

Для этого он pdf переделывает в html, если я правильно понимаю, и хранит html где-то у себя. Есть средства, способные на автомате сгенерить html из pdf?
Т. е. фактически в базе должны лежать рядом pdf и невидимая извне текстовая версия (неважно как сформатированная, главное, чтобы слова были), по которой ведется поиск. Результаты поиска привязываются к pdf-файлам. Такая мысль у меня с самого начала возникла. Может есть другие механизмы?
 

Dresden

Топикстартер
20 лет на форуме
Сообщения
3 161
Реакции
665
Ответ: Поиск на сайте в файлах pdf

Спасибо. А есть у кого-нибудь практический опыт?
 

MorLock

Участник
Сообщения
591
Реакции
0
Ответ: Поиск на сайте в файлах pdf

Dresden сказал(а):
Для этого он pdf переделывает в html, если я правильно понимаю, и хранит html где-то у себя. Есть средства, способные на автомате сгенерить html из pdf?
Т. е. фактически в базе должны лежать рядом pdf и невидимая извне текстовая версия (неважно как сформатированная, главное, чтобы слова были), по которой ведется поиск. Результаты поиска привязываются к pdf-файлам. Такая мысль у меня с самого начала возникла. Может есть другие механизмы?
Акробат CS3. Однако такой способ всё равно потребует ручной юстировки. Потому, мне кажется будет целесообразней, разместить всё же ПДФ-ы, а для поиска использовать быстро-сделаные акробатом HTML-файлы.
 

Вложения

  • acro.jpg
    acro.jpg
    131.1 КБ · Просм.: 1 376

suntory

Administrator
15 лет на форуме
Сообщения
23 475
Реакции
12 485
Ответ: Поиск на сайте в файлах pdf

И как тогда сохранненый из Акробата html будет связан с pdf-файлом лежащим на сайте?
 

MorLock

Участник
Сообщения
591
Реакции
0
Ответ: Поиск на сайте в файлах pdf

Ему не надо быть связаным. Имеется ввиду не поиск на странице (Ctrl + F и в Акробате работает), а поиск по всему сайту. При поиске ищем в хтмл. При клике на результаты поиска должна срабатывать метка на акробатовский файл. Это легко реализует любой програмер.
 

Dresden

Топикстартер
20 лет на форуме
Сообщения
3 161
Реакции
665
Ответ: Поиск на сайте в файлах pdf

MorLock сказал(а):
Акробат CS3. Однако такой способ всё равно потребует ручной юстировки. Потому, мне кажется будет целесообразней, разместить всё же ПДФ-ы, а для поиска использовать быстро-сделаные акробатом HTML-файлы.
Вот спасибо! Я все еще использую 7-й Акробат, там этого нет. Но прежде чем перейду на 8-й, можно еще вопрос? Русский язык при экспорте остается жить?
 

Dresden

Топикстартер
20 лет на форуме
Сообщения
3 161
Реакции
665
Ответ: Поиск на сайте в файлах pdf

Сам и отвечу: жить остается, если не напутать с настройками. Более того, сохраняет умляуты и прочие европейские гадости. Однако экспорт из Акробата в html, мягко говоря, далек от совершенства. Результат почти негодный, если верстка мало-мальски сложная. Проще выгнать html прямо из Индизайна, правда, потом приходится разбивать его на статьи.
 

barakuda

Участник
Сообщения
424
Реакции
12
Ответ: Поиск на сайте в файлах pdf

Закачивайте и устанавливайте Adobe PDF IFilter.
IFilter - это динамическая библиотека, реализующая интерфейс IFilter и использующаяся Indexing Service для извлечения текстовых данных из файлов различных форматов.
 

MrDesigner

15 лет на форуме
Сообщения
2 082
Реакции
772
Ответ: Поиск на сайте в файлах pdf

barakuda сказал(а):
Закачивайте и устанавливайте Adobe PDF IFilter.
Хм... Про веб ничё не сказано:
Adobe® PDF IFilter is designed for technically savvy users or administrators who wish to index Adobe PDF documents with Microsoft indexing clients. This allows the user to easily search for text within Adobe PDF documents.

Key benefits:
• Integrates with existing operating systems and tools within your company
• Provides an easy solution to search within Adobe PDF documents located on your computer, your company network, and your company intranet
• Greatly increases your ability to accurately locate information
Так понимаю, продукт индексирует для поиска pdf-файлы только в интранет-сети... И всё.
 

Dresden

Топикстартер
20 лет на форуме
Сообщения
3 161
Реакции
665
Ответ: Поиск на сайте в файлах pdf

При поиске непосредственно в файлах pdf есть неприятное ограничение - если слово переносится со строки на строку, на другую колонку или страницу, то оно не воспринимается целиком.
 

bundur

Участник
Сообщения
430
Реакции
0
Ответ: Поиск на сайте в файлах pdf

У нас сделали так:

Заливается пдф со статьей (или журналом), к ней текстовые поля: автор (рус, англ), название статьи (рус, англ), аннотация (тоже два поля: на русском и на английском).
Ну или на ином языке, если иной оригинал + англ.
Поиск идет через базу данных, которая индексирует слова в текстовых полях.
То есть более или менее сохранена структура журнала в печатном виде: есть сама статья, есть аннотации, которые читают, чтобы понять о чем статья. В аннотации всегда есть основные ключевые слова, по которым читатель поймет, нужна она ему или нет.

Сайт: http://vestnik.tspu.ru/
 

Dresden

Топикстартер
20 лет на форуме
Сообщения
3 161
Реакции
665
Ответ: Поиск на сайте в файлах pdf

Спасибо, это тоже решение. Но хотелось бы полноценный поиск по всем текстам.
 

Dresden

Топикстартер
20 лет на форуме
Сообщения
3 161
Реакции
665
Ответ: Поиск на сайте в файлах pdf

Да, есть оказывется решения.
По последней ссылке. Я не понял, от версии 1.4 или как (Versions through 1.4)?
Не знал, что google железками торгует.
 

Skvoznyak

15 лет на форуме
Сообщения
5 500
Реакции
2 168
Ответ: Поиск на сайте в файлах pdf

напишите им, там есть адрес отдела продаж :idea: по идее, до 1.4 включительно, но не думаю что более высокие версии для них проблема.
 
Статус
Закрыто для дальнейших ответов.