Исключить слова с дискреционными переносами из поиска

Статус
Закрыто для дальнейших ответов.

rams84

Участник
Топикстартер
Сообщения
107
Реакции
0
Добрый день.
При работе нужно было найти:
Слова (допустим из {13} букв) содержащие определенные буквы (а|о|е|и|я|у), еще притом что !в словах не присутствует дискреционный перенос (-~). Слова с дискреционными переносами не должны были попадать под поиск.
В общем, долго мучил ГРИП, так и не чего не вышло.
Может, кто поможет, Гриповеды
 

ASavchenko

10 лет на форуме
Сообщения
25
Реакции
0
Ответ: Поиск пустых ячеек в таблице

Есть ли математическое выражение по удалению переносов из сканированного текста - те самые ненавистные дефисы?
В принципе представляю, но как быть со словами как-будто, как-нибудь, черно-белый и так далее?
 

NNN5

Модератор
15 лет на форуме
Сообщения
1 256
Реакции
1 012
Ответ: Поиск пустых ячеек в таблице

FineReader при распознавании неплохо справляется с такими вещами.
 

ASavchenko

10 лет на форуме
Сообщения
25
Реакции
0
Ответ: Поиск пустых ячеек в таблице

FineReader уже не доступен, тексты все загнаны в Word и отданы в верстку. Как все-таки побороть эти переносы?
 

Skvoznyak

15 лет на форуме
Сообщения
5 500
Реакции
2 168
Ответ: Поиск пустых ячеек в таблице

у меня есть сырая программка для борьбы, но она под windows/indesign cs3 (написана на c#). с более новыми версиями InD, боюсь, не будет работать
 

ASavchenko

10 лет на форуме
Сообщения
25
Реакции
0
Ответ: Поиск пустых ячеек в таблице

Получается нереально задать grep-запрос на отслеживание дефисов-паразитов в словах, исключая слова, рожденные с дефисами? (((
 

NNN5

Модератор
15 лет на форуме
Сообщения
1 256
Реакции
1 012
Ответ: Поиск пустых ячеек в таблице

Короткий ответ - да, нереально.
Составных слов, которые пишутся через дефис, много. "Красно-коричневый".
Начните такого: ищите слова с "-то", "-кое", "-либо", "-нибудь". По ходу выявите еще какие-то глобальные вещи, которые нужно оставить. Остальные дефисы будете бросать в топку.

Если нужна помощь в составлении grep-запроса, обращайтесь.
 
  • Спасибо
Реакции: Jeine

imma

15 лет на форуме
Сообщения
3 089
Реакции
2 185
Ответ: Поиск пустых ячеек в таблице

ASavchenko

Можете выложить фрагмент текста?
 

ASavchenko

10 лет на форуме
Сообщения
25
Реакции
0
Ответ: Поиск пустых ячеек в таблице

ASavchenko

Можете выложить фрагмент текста?

Принцип 2:
исключение функции конституционного надзора из деятель-ности судов общей юрисдикции, т.е. суды общей юрисдикции лишаются полномочий конституционного надзора над зако-нами парламента или регламентарными законами исполни-тельной власти;
для осуществления функции конституционного надзора соз-даны другие судебные органы

Или в виде верстки выложить?

Короткий ответ - да, нереально.
Составных слов, которые пишутся через дефис, много. "Красно-коричневый".
Начните такого: ищите слова с "-то", "-кое", "-либо", "-нибудь". По ходу выявите еще какие-то глобальные вещи, которые нужно оставить. Остальные дефисы будете бросать в топку.

Если нужна помощь в составлении grep-запроса, обращайтесь.

В общем, прошу помочь составить GREP запрос, хотя бы треть убивающий паразиты-дефисы после скана.
 

NNN5

Модератор
15 лет на форуме
Сообщения
1 256
Реакции
1 012
Ответ: Поиск пустых ячеек в таблице

Рекомендую делать, например, так.
Первый проход. Пометить каким-то значком (например, знак процента) то, что по-любому правильное (и добавляйте свое):
Find what: (?<=\l)-(либо|то|нибудь|первых|вторых|третьих|правов|правоохранительн|хозяйственн|надзорн)
Replace to: процент$1 (здесь пришлось написать % словом, а то меняется на смайлик)
Второй проход. Пометить тем же значком тоже правильные дефисы, следующие после приставки:
Find what: (кое)-(?=\l) тут добавьте свое, что попадется
Replace to: $1процент
Третий проход. Ищете дефис, меняете на пустое место (по одному)
Четвертый проход. Все % меняете на дефисы.
 

ASavchenko

10 лет на форуме
Сообщения
25
Реакции
0
Ответ: Поиск пустых ячеек в таблице

Навскидку в обычной литературе может использоваться до 156 слов с дефисом. Не включая таких редких, как бой-баба и всяких мать-героинь. ))) Запрос умопомрачительный получится.
 

Elsynor

Tesseract
12 лет на форуме
Сообщения
1 282
Реакции
1 377
Ответ: Поиск пустых ячеек в таблице

Интереса ради, а о каком объёме речь идёт? А то Вы уже 3 дня решение ищете, которое заключается в проверке орфографии, её провести всё равно настоятельно рекомендуют после распознавания…
Да, нудная и тупая работа, но её нужно сделать если кто-то запорол текст после распознавания, у меня проверка за день доходила до 600 полос 170х240… А у Вас сколько?
 

ASavchenko

10 лет на форуме
Сообщения
25
Реакции
0
Ответ: Поиск пустых ячеек в таблице

700 алгоритм-схем, к сожалению! )) Это не flow текст... На странице по 15-20 текстовых блоков, оформленных в виде алгоритм-схем! И таких страниц - 700+!
 

Skvoznyak

15 лет на форуме
Сообщения
5 500
Реакции
2 168
Ответ: Поиск пустых ячеек в таблице

find/change, дефис менять на ничто - и либо change, либо next. да, скучно, но эффективно! не раз таким приходилось заниматься после лексикона раньше

автоматизация здесь возможна такая - программа для выбора всех слов с дефисом из текста в список, и руками проставлять галочки, какое верно, а какое нет. база сохраняется, и каждый следующий текст обрабатывается быстрее. не забудьте, кстати про наращения -й, -ый, частицы -то, и т.п. - их, как показывает практика в текстах очень много.

как я уже говорил, программа такая у меня есть, под win и indesign cs3 - нашел, прилагаю ее.
https://dl.dropbox.com/u/167681/hyphenremover.zip

насколько помню, эта версия перестала сохранять новые слова, а дальше я ее не ковырял. исходники есть, может и стоит возобновить...
 

azz

alexey
15 лет на форуме
Сообщения
711
Реакции
359
Ответ: GREP в InDesign. Что и как

а можно грепом найти автоматический перенос?
 

azz

alexey
15 лет на форуме
Сообщения
711
Реакции
359
Ответ: GREP в InDesign. Что и как

например, чтобы перекрасить их )
но я тоже чего то не нашел...
скриптом наверное можно заменить автоматический на ручной.
 

imma

15 лет на форуме
Сообщения
3 089
Реакции
2 185
Ответ: GREP в InDesign. Что и как

например, чтобы перекрасить их )

Алгоритм может быть таким.

1) Расставить переносы в тексте сторонним софтом. Каким лучше не знаю. Word'ом можно, но долго или не знаю как быстро. Может переводчиком каким.
2) Текст скопировать и вставить в Индизайн, автоматические переносы отключить, а те что есть в тексте заменить на выкрашенный дискреционный перенос.
 

NNN5

Модератор
15 лет на форуме
Сообщения
1 256
Реакции
1 012
Ответ: Исключить слова с дискреционными переносами из поиска

Вопрос еще актуален?
 
Статус
Закрыто для дальнейших ответов.