Чистка текста от мусора.

Статус
Закрыто для дальнейших ответов.

Йожег

без телевизора
Топикстартер
12 лет на форуме
Сообщения
8 836
Реакции
4 275
Дали "древний" текст набитый .txt естественно с "возвратами каретки" - лишними абзацами в каждой строке. Как почистить? Есть утилитка какая-нибудь чтоб быстро прогнать (900-1000 стр) Можно конечно грепом почистить но это ж придумывать надо %8
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
Notepad++ - одной кнопкой
upload_2016-10-18_16-58-35.png
 
  • Спасибо
Реакции: Йожег

Skvoznyak

15 лет на форуме
Сообщения
5 500
Реакции
2 168
это реально помогает? каким образом?
 

carry

15 лет на форуме
Сообщения
2 637
Реакции
1 015
А концы абзацев оно не бахает?
 

Skvoznyak

15 лет на форуме
Сообщения
5 500
Реакции
2 168
ну вот у меня текст

ну
вот
у
меня
текст

должно быть одной строкой. как поможет изменение на что угодно, если все концы строк одинаковые? нужно, насколько я понимаю, убрать внутриабзацные, еще и пробелы поставить на всякий случай. А между абзацев сохранить (как они в исходном тексте отмаркированы и отмаркированы ли вообще - другой вопрос)
 
  • Спасибо
Реакции: Йожег

Йожег

без телевизора
Топикстартер
12 лет на форуме
Сообщения
8 836
Реакции
4 275
Ну поменяю я формат этого добра и
легче мне станет?
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
Топиковая задача была удалить возвраты каретки?
Я правильно понял?
 

Skvoznyak

15 лет на форуме
Сообщения
5 500
Реакции
2 168
Топиковая задача была удалить возвраты каретки?
Я правильно понял?

нет, топиковая задача была удалить ЛИШНИЕ внутри абзаца. Никогда не приносили текст из Лексикона, что-ли? )
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
Тьфу, понял
Одиночные убрать, двойные переделать в один - так?
 

Skvoznyak

15 лет на форуме
Сообщения
5 500
Реакции
2 168
в принципе греп-то несложный

\r менять на пробел (иначе можно легко соединить пару слов в одно)
потом два и более пробелов на один

а вот как сохранить абзацы - не видя текста, сложно сказать. там пустая строка между или красная строка пробелами сделана?

и что с переносами? если они там есть, это тоже небольшая проблема, так как отличить их от дефисов будет нетривиально. писал в свое время программку с пополняемым словарем даже. выручала )
 

Йожег

без телевизора
Топикстартер
12 лет на форуме
Сообщения
8 836
Реакции
4 275
Сейчас. Выкину всякую муть про кровавый режим 'tssss' то арестуют если такое показать '8()'
пример текста с лишними абзацами

Там полный фарш и одиночные и двойные и отбивка и даже псевдографика есть 'fp'Ну ее понятное дело придется вручную но хотя бы основной текст обработать.
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
Ну у него и с пробелами достаточно мощная работа и, вроде, регулярные выражения поддерживает
upload_2016-10-18_17-23-40.png
 

Йожег

без телевизора
Топикстартер
12 лет на форуме
Сообщения
8 836
Реакции
4 275
Типа того
Screenshot_92.jpg
 

Skvoznyak

15 лет на форуме
Сообщения
5 500
Реакции
2 168
ну, переносов вроде нет, уже хорошо

grep значит такой

1) \r менять на пробел
2) затем 6 и более пробелов меняем на \r
" {6,}"
затем
3)" +" на пробел

как-то так
для заголовков еще можно что-то придумать
 

Valentin

15 лет на форуме
Сообщения
2 272
Реакции
1 244
Из Лексикона давно ничего не видел.
И к слову сказать, не переделывал подобные тексты уж пару-тройку лет.
А стандартные средства Wold не подходят для этой задачи?
Так, просто спросил ;]]
upload_2016-10-18_17-27-2.png
 

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
33 228
Реакции
10 851
По идее, подходит любой редактор с регулярными выражениями
 

Skvoznyak

15 лет на форуме
Сообщения
5 500
Реакции
2 168
по идее в индизайне есть регулярные выражения. Насколько я понимаю, вопрос именно в их составлении и был
 
Статус
Закрыто для дальнейших ответов.