[ID CS4-CS6] Убрать абзацы

Пластилин

Участник
Топикстартер
Сообщения
49
Реакции
0
Принесли текст после FineReader, каждая строка с абзаца, где запятые и переносы соединил.
Осталось убрать абзац как в примере.
 

Вложения

  • Без имени-1.jpg
    Без имени-1.jpg
    51.7 КБ · Просм.: 603
Вообще-то FineReader как раз и предназначен, чтобы с этим справляться, и умеет это очень хорошо. Гораздо лучше перенастроить его и распознать заново. Это делается автоматически.
 
  • Спасибо
Реакции: LeonidB и RIKITIKI
Снимок экрана 2019-01-18 в 13.59.06.png
или
Снимок экрана 2019-01-18 в 14.02.00.png
в чем проблема то?
 
Последнее редактирование:
Проблема в одном: настоящие абзацы тоже уйдут и весь текст слипнется в один абзац. А так всё хорошо, конечно. Чтобы побороть это, нужно искать случаи, когда абзац начинается со строчной буквы. Но это - не панацея.
 
Ну распознавали бы не построчно а блоками...перераспознать или заново абзацы расставить, смотря что быстрее
 
Не за что.
 

Вложения

  • Без имени-1.jpg
    Без имени-1.jpg
    171.4 КБ · Просм.: 420
Найти: \r(\l)
Заменить: пробел$1
Так пройдёте все сразу строчные буквы.

Потом по одному.
Найти: \r(\u)
Заменить: пробел$1
Так пойдёте по одному, решая, менять или оставить как начало абзаца.
 
NNN5, а как найти как у меня в примере? Слово или буква+абзац, замена на пробел. и тут исключаются все знаки препинания.


ps. вроде бы так заработало
 

Вложения

  • Без имени-1.jpg
    Без имени-1.jpg
    81.8 КБ · Просм.: 577
Последнее редактирование:
Может быть подобное поможет.
Поиск - не знак пунктуации, следом абзац
Замена - пробел
Код:
find
(?<=[^[:punct:]])\r

change
*пробел
 
Последнее редактирование: