[ID CC-CC2021] Правильно выделить GREP`ом заголовки из markdown

blacksolg · 07.06.2021

Здравствуйте.
Здоровья вам и дорогим вам людям.

Посоветуйте правильно выделить GREP`ом заголовки из markdown

Сейчас использую вид

Код:

    #                                   ^#{1,1}(?=\s)(.+?)($)
    ##                                  ^#{2,2}(?=\s)(.+?)($)
    ###                                 ^#{3,3}(?=\s)(.+?)($)
    ####                                ^#{4,4}(?=\s)(.+?)($)

Но, есть два вопроса:

- 1. "вообщем" - работе, но правильно ли GREP написал =) ?

- 2. Как только забыл поставить пробел после ### - кирдык, выделения не будет ( ###Маруся )
- - Опечатки возможны, а дополнительная перепроверка документа markdown на пробел после ## - не гуд
- - Решить вопрос самостоятельно не смог.

Всем откликнувшимся спасибо!

NNN5 · 07.06.2021

Что-то вас трудно понять. Попробуйте рассказать другими слова.

Oleg Butrin · 07.06.2021

blacksolg сказал(а):
Сейчас использую вид

А зачем сложности типа positive lookahead, если можно просто проверять наличие любого количества пробелов между тегом и текстом?
^(#{3})(\s*)(.+)$
В третьей группе всегда будет текст без пробельных символов в начале. Можно добавить ту же группу в конце - и убрать лишние пробелы перед концом строки.

К.Т. · 07.06.2021

Если символ # не встречается в теле заголовков (а скорее всего это так), то:
^#{2}[^#]+$

blacksolg · 07.06.2021

NNN5 сказал(а):
Что-то вас трудно понять. Попробуйте рассказать другими слова.

Ок. Извините что не понятно =(

1. Имеем заголовки, добавленные из документа markdown
# Алиса
## Бобик
### Рыжик
#### Маруся
...

2. Их нужно искать по GREP каждый заголовок, используя маркировку markdown # ## ###
Далее присваивание каждому отдельные(!) стили абзаца

3. "Моими изысканиями" ^#{2,2}(?=\s)(.+?)($) можно выделить ## Бобик

4. Но если текст содержит ##Бобик (то есть без пробела)
выделения не происходит = плохо, тк ошибиться и НЕ поставить пробел после # можно

5. Написать GREP запрос, в котором выделяются абзацы строго по ## не выделяя при этом абзацы ### #### #####...
у меня получается только по отбивке-символу/маркеру в виде пробела ( \s )

6.
Другого решения "как пробел" не придумал.
Поиск гугла тоже не помог.
Решил обратиться к вам:
- правильно ли вообще написал "вариант с пробелом"?
- как реализовать GREP что бы работал и при отсутствие пробела, но выделял строго ## а не цеплял еще ### ####...

blacksolg · 07.06.2021

Oleg Butrin сказал(а):
А зачем сложности типа positive lookahead, если можно просто проверять наличие любого количества пробелов между тегом и текстом?
^(#{3})(\s*)(.+)$
В третьей группе всегда будет текст без пробельных символов в начале. Можно добавить ту же группу в конце - и убрать лишние пробелы перед концом строки.

Спасибо.
Но ваш пример ^(#{3})(\s*)(.+)$ последовательно выбирает
### Рыжик
и
#### Маруся

а нужно отдельно
один запрос - один вариант из # # ### ####...

blacksolg · 07.06.2021

К.Т. сказал(а):
Если символ # не встречается в теле заголовков (а скорее всего это так), то:
^#{2}[^#]+$

Ух!
Походу Ваш пример ^#{2}[^#]+$ - работает, и то что нужно
Выделят только заголовки (по факту абзац) только начинающиеся с ##

С пробелом/без пробела

# Алиса
## Бобик
### Рыжик
#### Маруся

#Алиса
##Бобик
###Рыжик
####Маруся

Только вот знаний не хватает, понять, что делает [^#]
символ корректурной вставки (^) для знака #
- если не сложно, можете рассказать-научить?
- спасибо

PS
Простите за наглость:
+$ - так правильней писать
чем как у меня: ($)

К.Т. · 07.06.2021

Символ ^ сразу после открывающей квадратной скобки означает "любой кроме следующих", то есть [^#] означает "любой кроме #".
Символ + относится к предыдущему и означает "в количестве один или более", то есть смысловой блок [^#]+.

Oleg Butrin · 07.06.2021

blacksolg сказал(а):
а нужно отдельно

regex101: build, test, and debug regex

Regular expression tester with syntax highlighting, explanation, cheat sheet for PHP/PCRE, Python, GO, JavaScript, Java, C#/.NET, Rust.

regex101.com

Отставить, надо править.

Skvoznyak · 07.06.2021

Markdown to InDesign

Based on the ideas and tools discussed in this article, we’re developing a web service for automated cross-media publishing. The idea is simple enough: with our service, you will just dump some .docx (or markdown) files into your favorite cloud storage bucket (say Dropbox) and get .indd files in...

rhythmus.be

Тут есть скрипты для импорта маркдауна, если что

blacksolg · 07.06.2021

К.Т. сказал(а):
Символ ^ сразу после открывающей квадратной скобки означает "любой кроме следующих", то есть [^#] означает "любой кроме #".
Символ + относится к предыдущему и означает "в количестве один или более", то есть смысловой блок [^#]+.

Не знал.
Спасибо!
Идеально!

blacksolg · 07.06.2021

Oleg Butrin сказал(а):
regex101: build, test, and debug regex

Regular expression tester with syntax highlighting, explanation, cheat sheet for PHP/PCRE, Python, GO, JavaScript, Java, C#/.NET, Rust.

regex101.com

Отставить, надо править.

Спасибо за ваше участие и помощь!
Но открыв ссылку, увидел пульт кабины управления авиолайнером =))
Regex - что-то слышал, и не более =))). Уж что там на сайте по ссылке вообще не понял )

blacksolg · 07.06.2021

Skvoznyak сказал(а):
Markdown to InDesign

Based on the ideas and tools discussed in this article, we’re developing a web service for automated cross-media publishing. The idea is simple enough: with our service, you will just dump some .docx (or markdown) files into your favorite cloud storage bucket (say Dropbox) and get .indd files in...

rhythmus.be

Тут есть скрипты для импорта маркдауна, если что

Спасибо за внимание и участие.

Да, знакомый сайт. Любой запрос GREP + markdown ведет на него.

Скрпиты видел, но подробно не изучал. - Пока не хватает времени.
Да и возможно, скорее всего, некоторые спецефичные метки и выделения в моих работах/программ могут не отработать,
тогда придется править-настраивать сам скрипт уже. Так что GREP + помощь данного форума, отзывчивых людей, гугла.

blacksolg · 07.06.2021

К.Т. сказал(а):
Символ ^ сразу после открывающей квадратной скобки означает "любой кроме следующих", то есть [^#] означает "любой кроме #".
Символ + относится к предыдущему и означает "в количестве один или более", то есть смысловой блок [^#]+.

Возникла проблема:

Ваш пример: ^#{3}[^#]+$
При тестах на тексте:

Код:

# Алиса
## Бобик
### Рыжик


#Алиса
##Бобик
###Рыжик


Текст Текст Текст Текст
Текст Текст Текст Текст

Текст Текст Текст Текст
Текст Текст Текст Текст

начинает захватывать-выделять
1. ### Рыжик +пустую строку после него (те след. абзац)
2. ###Рыжик +пустую строку +2 строки текста +пустую строку после текста +пустую строку + снова текст....
и так до пустой строки и новый заголовок с началом #

=(
пробовал переписать на
^#{3}[^#]+($)
^#{3}[^#]+\r
^#{3}[^#]+(\r)
^#{3}[^#]+(.+?)$ (еще хуже-больше захват пошел)
^(#{3}[^#]+)$

- не помогло.
- пока не понимаю как исправить ситуацию..
- помогите пожалуйста.

К.Т. · 07.06.2021

Тогда так: ^#{3}[^#]+?$

Выражение +? означает нежадный захват, т.е. минимально возможный, поэтому лишние \r не будут захватываться.
(Голый + означает жадный захват, т.е. максимально возможный).

А ещё можно так: ^#{3}[^#\r]+.

Oleg Butrin · 07.06.2021

Есть мнение, что не нужно впихивать в одно выражение оба случая. Два простых выражения прекрасно отработают любые сочетания.

JavaScript:

^(#{3})(\s)(.+)$
^(#{3})([^\s#]+)$

В пером случае группа 3, во втором группа 2

blacksolg · 07.06.2021

К.Т. сказал(а):
Тогда так: ^#{3}[^#]+?$

Выражение +? означает нежадный захват, т.е. минимально возможный, поэтому лишние \r не будут захватываться.
(Голый + означает жадный захват, т.е. максимально возможный).

А ещё можно так: ^#{3}[^#\r]+.

Спасибо вам человек!
И отдельное, спасибо, за то что сразу разъяснили "что от чего"

По поводу варианта 2:
пока для себя не понял, в чем разница между
\r - Конец абзаца
$ - Конец абзаца [расположение]

Выбираю по умолчанию $ потому как визуально в запросе GREP смотрится более чисто и понятно.
* - Если у вас есть желание, можете подсказать, в чём разница "концовок абзаца" в рамках данного топика? Спасибо.

blacksolg · 07.06.2021

Oleg Butrin сказал(а):
Есть мнение, что не нужно впихивать в одно выражение оба случая. Два простых выражения прекрасно отработают любые сочетания.

JavaScript:

^(#{3})(\s)(.+)$ ^(#{3})([^\s#]+)$

В пером случае группа 3, во втором группа 2

Спасибо.

Согласен:
1. чем чище и проще код - тем и работать с ним легче
2. нагрузка на анализ меньше, ложных срабатываний - разделяй и властвуй

Но при условии что заголовков уже 6шт,
плюс есть дополнительные схожие запросы (маркер в начале выделяемого абзаца)
то помножив все на х2, получится может 20-30 запросов против 10-15
а еще другие условия...

Понятное дело планируется использовать скрипт последовательного запуска GREP запросов для присвоения стилей
Но да же с ним, уже будет наверно тяжело ореинтироваться в списках и последовательностях на обработку по всему документу.

К.Т. · 07.06.2021

\r соответствует самому символу конца абзаца.
$ не соответствует никакому символу, а обозначает позицию перед завершением, которым может быть не только символ конца абзаца, но и перевод строки, конец текста или табличной ячейки.
Соответственно, в разных ситуациях они сработают по-разному.

blacksolg · 07.06.2021

К.Т. сказал(а):
\r соответствует самому символу конца абзаца.
$ не соответствует никакому символу, а обозначает позицию перед завершением, которым может быть не только символ конца абзаца, но и перевод строки, конец текста или табличной ячейки.
Соответственно, в разных ситуациях они сработают по-разному.

Спасибо.
Разницу понял.
Применение пока нет - время может научит.

Еще раз спасибо =)

[ID CC-CC2021] Правильно выделить GREP`ом заголовки из markdown

Участник

Модератор

Участник

Участник

Участник

Участник

Участник

Участник

Участник

Участник

Участник

Участник

Участник

Участник

Участник

Участник