FineReader примет это нормально или нет? Листы содержут буквы старого мремени.

needit · 15.10.2012

На листах копия старого издания, содержащего, например, букву i и др. буквы того времени. FineReader переведет нормально это в электронный вид или пропустит, или не правильно переведёт?
Может есть какие-нибудь советы по переносу таких букв в электронный вид? Может можно как-то подгрузить словарь букв того времени?
Еще листы, темноватые. Не получится ли так, что FinneRader не будет нормально распозновать текст из-за этого и будет путаться? Потому что бумага темнее белого, темная.

Собираю информацию.
Я этим заниматься не буду, узнаю для издательства.

George · 15.10.2012

Ответ: FineReader примет это нормально или нет? Листы содержут буквы старого мремени.

А Вы попробуйте. Всё он распознает.

Йожег · 15.10.2012

Ответ: FineReader примет это нормально или нет? Листы содержут буквы старого мремени.

Выложите листок если файнридера у самих нету. Он и современный текст может не распознать. Сильно зависит от качества оригинала. Если на глаз плохо читается то и файнридер чудес не совершит. Фон лучше осветлить если возможно без потери четкости букв.

NNN5 · 15.10.2012

Ответ: FineReader примет это нормально или нет? Листы содержут буквы старого мремени.

У FineReader есть режим "обучение". Его можно обучить распознавать определенные буквы.

splxgf · 15.10.2012

Ответ: FineReader примет это нормально или нет? Листы содержут буквы старого мремени.

В режиме обучения прекрасно распознаётся всякая шрифтовая экзотика.
А вот качество сканирования желательно улучшить. Можно сканировать даже в цвете, подбор яркости автоматический сканером или программой.

Йожег · 15.10.2012

Ответ: FineReader примет это нормально или нет? Листы содержут буквы старого мремени.

Не по теме:
Скачал недавно Чейза, так там "высокий грузный неф шагнул ко мне" Разумеется должно быть негр Просто две буковки слились. Но эта ошибка повторялась по всей книге. Обучили, блин.

Elsynor · 15.10.2012

Ответ: FineReader примет это нормально или нет? Листы содержут буквы старого мремени.

Зачем кого-то там обучать если у него и так IQ зашкаливает? Копать в сторону «Русский (старая орфография)»…
Если нету курить оффсайт…

splxgf · 16.10.2012

Ответ: FineReader примет это нормально или нет? Листы содержут буквы старого мремени.

Йожег сказал(а):
Выложите листок если файнридера у самих нету. Он и современный текст может не распознать. Сильно зависит от качества оригинала. Если на глаз плохо читается то и файнридер чудес не совершит. Фон лучше осветлить если возможно без потери четкости букв.

Чудеса он совершает, сомнительные слова по словарю проверяются... распознавал и факсовые распечатки, и бледную печатную машинку на желтой бумаге которые читались с сильными затруднениями. Хотя конечно бывают и сильно запущенные случаи.

needit · 17.10.2012

Ответ: FineReader примет это нормально или нет? Листы содержут буквы старого мремени.

Спасибо за ваши сообщения!
Мне знакомый сказал поставить вверху русско-английский словарь и будет лучше. В частности i, распознает. Как быть, например с "ять"?
Может подгрузить специальный словарь? Где такой взять и как подгрузить?

suntory · 17.10.2012

Ответ: FineReader примет это нормально или нет? Листы содержут буквы старого мремени.

needit сказал(а):
В частности i, распознает

Неправильно распознает скорее всего
http://ru.wikipedia.org/wiki/І_(кириллица)
http://ru.wikipedia.org/wiki/Дореволюционная_орфография#.D0.91.D1.83.D0.BA.D0.B2.D0.B0_.D0.86

needit сказал(а):
Где такой взять

Не надо брать, он уже там должен быть.

Elsynor сказал(а):
Копать в сторону «Русский (старая орфография)

В дополнительных языках искать.

http://cslav.orthonet.ru/viewtopic.php?t=3483
http://publ.lib.ru/cgi/forum/YaBB.pl?num=1120663080/23
http://www.djvu-scan.ru/forum/index.php?action=profile;area=showposts;u=979
http://mirknig.com/forum/topic_5839

ch_alex · 26.10.2012

Ответ: FineReader примет это нормально или нет? Листы содержут буквы старого мремени.

Практика показывает - после автоматического распознавания, даже самого лучшего, требуется редактор-корректор. На этой должности не стоит экономить. Проверено годами.

Йожег · 26.10.2012

Ответ: FineReader примет это нормально или нет? Листы содержут буквы старого мремени.

Ну вот даже пдф в кривых оно не распознает совсем без ошибок. Так что чего уж там. Казалось бы черный текст на белом фоне, минимум графики однако... пара ошибок было причем таких что не поймешь без корректора. Орфография правильная, по смыслу не то. Пдф http://forum.rudtp.ru/downloads.php?do=file&id=626 ворд http://forum.rudtp.ru/downloads.php?do=add сделанное/вделанное первая колонка

splxgf · 26.10.2012

Ответ: FineReader примет это нормально или нет? Листы содержут буквы старого мремени.

Йожег сказал(а):
Орфография правильная, по смыслу не то. http://forum.rudtp.ru/downloads.php?do=file&id=626

Это было проблемой в третьей или четвертой версии файнридера, во всех поздних таких явных корректировок не было (они все обозначалась как неуверенно распознанные).
Вообще сначала идет автоматическое распознавание. Затем ручками постранично проверяешь. Прощелкиваешь F4 (или уж забыл как) по неуверенно распознанным словам. Потом экспорт в ворд и приглаживание с проверкой там.
Процент финальных ошибок при этом очень минимальный. Хотя скоро будет и смысловая проверка, есть уже наработки по нейронам, многоядерным системам и анализу текстов на естественном языке.

JAW · 26.10.2012

Ответ: FineReader примет это нормально или нет? Листы содержут буквы старого мремени.

splxgf сказал(а):
Хотя скоро будет и смысловая проверка, есть уже наработки по нейронам, многоядерным системам и анализу текстов на естественном языке.

В комплекте прилагается "облачная" система ИИ "Корректор", оплата эксплуатации системы постраничная.
Так же прилагается система "Автовёрстка".

Йожег · 26.10.2012

Ответ: FineReader примет это нормально или нет? Листы содержут буквы старого мремени.

splxgf, 10-й файнридер. Реальный пример недельной давности. Неуверенные слова я проверяю. Как видим слово "вделанное" не помечено как неуверенное.

Поиск

FineReader примет это нормально или нет? Листы содержут буквы старого мремени.

needit

Участник

George

I wish I was a monster you think I am

Йожег

без телевизора

NNN5

Модератор

splxgf

Йожег

без телевизора

Elsynor

Tesseract

Вложения

splxgf

needit

Участник

suntory

Administrator

ch_alex

Погулять вышел.

Йожег

без телевизора

splxgf

JAW

Йожег

без телевизора