Помогите почистить скан

  • Автор темы Автор темы xseed
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.
А это хорошо или плохо. Я просто плохо понял суть метода. Разве otsu вовсе не годится для обработки сканов?

otsu определяет порог, выше которого будет белое, ниже - черное. Otsu просто его определяет по гистограмме изображения автоматически (корректно в случае явного разделения), но для черного текста на белом фоне и искать особо нечего.

это полезно для пакетной обработки, когда все файлы разные, а когда все одинаково и есть визуальный контроль - ничего не даст. адаптивный порог работает локально, но... в вашем случае вообще все это не нужно, по-моему. после описанных выше методов обработки пройдитесь репринтмастером, чтоб убрать дырки в буквах и мелкий мусор, где это возможно, да и все...
 
Эх, вот если бы был такой плагин, который ищет повторяющиеся растр, и удалял мусор на повторяющихся буквах, как бы распознавание не с целью перевода в векторный формат, а с целью чистки растрового скана.

я думал над этим, но точность распознавания все равно не будет 100%, в итоге можно больше испортить. да и задача достойна корпорации ABBYY по сложности. При этом, трудоемкость порядочная, а коммерческий потенциал стремится к нулю

если дико ценный оригинал (блин, распечатки самопальных инструкций от компьютерных игр :) ), ну можно покорпеть, вручную буковки позаменять )

что еще могу порекомендовать
http://fiji.sc/Fiji
не фотошоп, но здесь алгоритмов миллион. только работает несколько неторопливо.
 
На самом деле распознается быстро... Верстать живой текст проблем никаких, в т.ч. можно сохранить деление на строки и страницы. Оригинальный скан можно добавить подложкой.
Если нужно качество, но оно будет на порядок выше всяких обработок растра.
 
Спасибо за ваши советы. Действительно, не стоит заморачиватся, работы много.
 
Еще раз повторюсь: ваш плагин отличный! Работает намного быстрее моего скрипта с select-ми. Всякие ScanTailor'ы и SkanKromsator'ы отдыхают по сравнению со связкой PS + ReprintMaster! Рекомендую его всем, кто занимается сканированием книг.
Мой Action (F3) сократился до 19 шагов.
 

Вложения

  • Спасибо
Реакции: Skvoznyak
Прошу простить за оффтоп, файл не тот прикрепил.
 

Вложения

А это хорошо или плохо. Я просто плохо понял суть метода. Разве otsu вовсе не годится для обработки сканов?
Попробовал плагин otsu thresholding в ImageJ и вроде как пока доволен. Автоматом определяется порог в районе 170-190. Никаких AutoLevels, Selective Color и Layers overlay/multiple не делаю. Или все таки стоит делать?
Потом прогоняю через ReprintMaster.
 
можно сразу threshold в 180 установить и не париться с ImageJ
 
Понятно. Но мне показалось, алгоритм работает лучше, нежели классический Threshold. По красней мере при одинаковом значении 180 видно разницу в работе Otsu Thresholding.
 
В смысле? Otsu только определяет значение порога сам, а не использует заданное. Больше никакой разницы
 
Мда уж...
 
Статус
Закрыто для дальнейших ответов.