Поиск/извлечение текста

andrejK

R.I.P.
Сообщения
10 300
Реакции
5 218
зато Ромин пример прекрасно иллюстрирует идиотичность РГБ.
и очень правильное слово выбрано для ргб-шных хотелок.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 198
Реакции
10 848
Ехидина. :)
Но вообще же сложившаяся ситуация куда более точно описывается другим, близкородственным словом. Которое из четырех букв, начинается на "ж" и кончается на "а". :) А если букву "а" вписать невидимой, так совсем забавно выйдет - копируешь с вашего PDF одно, а получаешь со-о-овсем другое. :)
В ромыном примере не поняли вы, увы, ничего. Он никуда ничего не вписывал, пример иллюстрирует то, что любой символ можно поставить в шрифте в соответствие любому визуальному рисунку и на автомате назвать вещи своими именами невозможно.
 
  • Спасибо
Реакции: ~RA~

~RA~

Одарённая.
12 лет на форуме
Сообщения
11 861
Реакции
3 450
пример иллюстрирует то, что любой символ можно поставить в шрифте в соответствие любому визуальному рисунку и на автомате назвать вещи своими именами невозможно.
Спасибо.
 

George

I wish I was a monster you think I am
15 лет на форуме
Сообщения
17 324
Реакции
7 870
Почему тогда столько проблем? Почему не пользоваться стандартом PDF/X ?
Здесь нет сотрудников rgb. И эта тема вообще не об этом.

Комментарий модератора: Для плача о том, что сотрудники некой РГБ "нехорошие человеки" есть отдельная тема. В данной теме, с этого момента любое упоминание данной организации будет считаться злейшим оффтопом.
 
Последнее редактирование:

xan

Участник
Сообщения
8
Реакции
0
Если pdf-recode не справляется то какие еще методики еще есть что бы исправить крякозябры при копирование и поиске в файле?
 

xan

Участник
Сообщения
8
Реакции
0
Если pdf-recode не справляется то какие еще методики еще есть что бы исправить крякозябры при копирование и поиске в файле?

Нашел еще один способ, раньше скачал только последнею версию pdf-recode а теперь выкачал все и перекидываю с первой по третью обычно на 3 версии все нормализуется. Только один файл не пошел ну и те которые не выдавали ошибки вроде - what's wrong with this file тоже ни в какой версии не пошли.
 

JAW

15 лет на форуме
Сообщения
15 797
Реакции
3 454
Проще всего исходить из того, что PDF, это такой рисунок и рапознавать его как рисунок, благо, он чистенький и масштабируется до буков любого размера.

Ибо разработчики PDF и создатели файлов для печати в последнюю очередь думали о том, что кому то придёт в голову воспринимать по сути графический формат как текстовый.
 
Последнее редактирование модератором:

xan

Участник
Сообщения
8
Реакции
0
Проще всего исходить из того, что PDF, это такой рисунок и рапознавать его как рисунок, благо, он чистенький и масштабируется до буков любого размера.

Ибо разработчики PDF и создатели файлов для печати в последнюю очередь думали о том, что кому то придёт в голову воспринимать по сути графический формат как текстовый.


К сожалению пока еще не одна программа или он лайн ресурс не способны качественно распознавать даже идеальные тексты.
Все равно надо редактировать где больше где меньше и ладно бы там переносы строк убрать и прочие мелочи, мне встречалось когда просто целые куски текста пропускались и значит надо каждую страницу сравнивать с оригиналом.
 
Последнее редактирование модератором:

JAW

15 лет на форуме
Сообщения
15 797
Реакции
3 454
FineReader при грамотной разметке распознаёт вполне сносно.

А на автопилоте. Ну сами подумайте, откуда знать программе, что относительно хаотично разбросанные на пёстром фоне буквы, это текст. А аккуратно выставленные в блок схеме блоки текста, это иллюстрация?
 
Последнее редактирование:

xan

Участник
Сообщения
8
Реакции
0
Я вот для примера загрузил 3 страницы разной сложности с той книги в который не смог пока исправить крякозябры.
Не знаю правильно ли загрузил файл инструкция не работает.
Вот попробуйте разпознать их и выложить без редактирования.
https://forum.rudtp.ru/attachments/...116426/?hash=97c83d73448335bda6c1a890ac49e7b5
 

Elsynor

Tesseract
12 лет на форуме
Сообщения
1 282
Реакции
1 377
И что? Распознал…
ИСТОЧНИКИ ПЕРЕВОДА (Тексты и переводы)

Тексты

А - издание текста сочинения Ибн Хаукала, осуществленное Дж.Х. Крамерсом (Lugduni Batavorum, 1939, 1967, 1992) на основе уникальной рук. № 3346, хранящейся в биб-ке Топкапы Сарайи в Стамбуле с привлечением издания текста, осуществленного М.Дж. де Гуйе на основе лейденской и бодлеанской рукописей.

Б - издание текста сочинения Ибн Хаукала, осуществленное М. Дж. де Гуйе (Lugduni Batavorum, 1873) на основе рукописей, хранящихся в Лейдене и в фонде Бодлеана (Оксфорд) с привлечением рукописи Национальной библиотеки в Париже.

В - текст рукописи № 3346 сочинения Ибн Хаукала, хранящейся в биб-ке Топкапы Сарайи в Стамбуле.

Г - текст рукописи сочинения Ибн Хаукала, хранящейся в Лейдене (Дж.Х. Крамере).

Д - текст рукописи сочинения Ибн Хаукала, хранящейся в фонде Бодлеана в Оксфорде (Дж.Х.Крамерс).

Е - текст рукописи № 2214 сокращенной версии сочинения Ибн Хаукала, хранящейся в Национальной библиотеке в Париже (Дж. Х.Крамерс).

Ж - текст рукописи № 2577 сочинения «Акалим ал-булдан ва сурат джами‘ ал-ард» Абу Мухаммада ибн ал-Хасана (Ахмад ибн Сахл) ал-Балхи, хранящейся в биб-ке Сулайманийе (фонд Айа София) в Стамбуле (Дж.Х.Крамерс).

3 - издание текста сочинения «Масалик ал-мамалик» ал-Истахри (Lugduni Batavorum, 1873,1939,1967,1992).

И - издание персидского перевода сочинения «Масалик ал-мамалик» ал-Истахри (Техран, 1962).

К - издание персидского перевода сочинения «Ашкал ал-‘алам» ал-Джайхани (Техран, б.г.).

Л - Фрагменты текста сочинения «Му‘джам ал-булдан» Иакута ал-Хамави.

М - издание текста сочинения «ал-Китаб ал-‘Азизи» или «Китаб ал-масалик ва-л-мамалик» ал-Мухаллаби (Дамаск, 2006).
 

Elsynor

Tesseract
12 лет на форуме
Сообщения
1 282
Реакции
1 377
Дом царя сегодня был разрушен реками реки Бак, рынками и рекой Дахахан Зорик и этим напитком. '))')
انرابه دار الملك اليوم ماجان نهر البك و الاسواق و الزريق نهر الدهاقين و من ذلك شرب
 
Последнее редактирование:

xan

Участник
Сообщения
8
Реакции
0
Дом царя сегодня был разрушен реками реки Бак, рынками и рекой Дахахан Зорик и этим напитком. '))')
انرابه دار الملك اليوم ماجان نهر البك و الاسواق و الزريق نهر الدهاقين و من ذلك شرب

А можно целиком разметку посмотреть? С русским текстом? Потому то что в оригинале идет во второй строчке тут поставлено в начало.
 

xan

Участник
Сообщения
8
Реакции
0
Хм в он лайн сервисе finereaderonlin перегнал из pdf в pdf вроде нормально все. Скачаю полную версию проверю на всем файле и других. Но по идее очень долго распознавание идет, геморный метод если файлов много.
 

JAW

15 лет на форуме
Сообщения
15 797
Реакции
3 454
Какой онлайнсервис? Какой многофайлов?
Ты в день 10 файлов сдаёшь что ли? С автопилотом завязывать нужно. Вот так на потоке вместо самолётов комбайны получаются.
Вдумчиво, медленно, размечаешь где текст, где картинка, где какой язык, задумываясь о том, что формула в строке, она тоже картинка, только потом запускаешь на распознавание.

Это, блин, не на онлайн сервис кинуть, если нужен результат, а не помойка.
 

xan

Участник
Сообщения
8
Реакции
0
Ты в день 10 файлов сдаёшь что ли?

Больше и не сдаю а выкачиваю, собираю библиотеку на пару тысяч книг. Иногда как в данном примере попадаются файлы где поиск невозможен из за крякозябр.
Намного большая проблема это сканы. Их уже так чисто не разпознаешь. Их у меня штук 100, сложил в отдельную папку пока. Я индексирую библиотеку для мгновенного поиска потому мне нужен распознанный текст а не сканы.