[ID CS4-CS6] Убрать абзацы

Пластилин

Участник
Топикстартер
Сообщения
49
Реакции
0
Принесли текст после FineReader, каждая строка с абзаца, где запятые и переносы соединил.
Осталось убрать абзац как в примере.
 

Вложения

  • Без имени-1.jpg
    Без имени-1.jpg
    51.7 КБ · Просм.: 571

NNN5

Модератор
15 лет на форуме
Сообщения
1 256
Реакции
1 012
Вообще-то FineReader как раз и предназначен, чтобы с этим справляться, и умеет это очень хорошо. Гораздо лучше перенастроить его и распознать заново. Это делается автоматически.
 
  • Спасибо
Реакции: LeonidB и RIKITIKI

kuplumosk

Участник
Сообщения
544
Реакции
127
Снимок экрана 2019-01-18 в 13.59.06.png
или
Снимок экрана 2019-01-18 в 14.02.00.png
в чем проблема то?
 
Последнее редактирование:

NNN5

Модератор
15 лет на форуме
Сообщения
1 256
Реакции
1 012
Проблема в одном: настоящие абзацы тоже уйдут и весь текст слипнется в один абзац. А так всё хорошо, конечно. Чтобы побороть это, нужно искать случаи, когда абзац начинается со строчной буквы. Но это - не панацея.
 

kuplumosk

Участник
Сообщения
544
Реакции
127
Ну распознавали бы не построчно а блоками...перераспознать или заново абзацы расставить, смотря что быстрее
 

NNN5

Модератор
15 лет на форуме
Сообщения
1 256
Реакции
1 012
Не за что.
 

Пластилин

Участник
Топикстартер
Сообщения
49
Реакции
0

Вложения

  • Без имени-1.jpg
    Без имени-1.jpg
    171.4 КБ · Просм.: 385

NNN5

Модератор
15 лет на форуме
Сообщения
1 256
Реакции
1 012
Найти: \r(\l)
Заменить: пробел$1
Так пройдёте все сразу строчные буквы.

Потом по одному.
Найти: \r(\u)
Заменить: пробел$1
Так пойдёте по одному, решая, менять или оставить как начало абзаца.
 

Пластилин

Участник
Топикстартер
Сообщения
49
Реакции
0
NNN5, а как найти как у меня в примере? Слово или буква+абзац, замена на пробел. и тут исключаются все знаки препинания.


ps. вроде бы так заработало
 

Вложения

  • Без имени-1.jpg
    Без имени-1.jpg
    81.8 КБ · Просм.: 543
Последнее редактирование:

kstati

иɯɐɯɔʞ
10 лет на форуме
Сообщения
1 138
Реакции
512
Может быть подобное поможет.
Поиск - не знак пунктуации, следом абзац
Замена - пробел
Код:
find
(?<=[^[:punct:]])\r

change
*пробел
 
Последнее редактирование: