[ID CC-CC2022] Непонятный непечатный символ и GREP

  • Автор темы Автор темы efodin
  • Дата начала Дата начала

efodin

Топикстартер
10 лет на форуме
Сообщения
156
Реакции
10
Всем добра коллеги.
Столкнулся с таким вопросом.
При переноске текста из ворд, появляются вот такие непечатные символы:
1570806429084.png

При переносе их в поиск GREP они отображаются так: ~I
Где можно узнать информацию по этому символу?

П.С. В Ворде в этих местах ссылки на Главы, типа якоря для переходы в нужное место.
 
Ага! Понял спасибо.
А почему он не находится поиском в GREP, не знаете?
 
  • Спасибо
Реакции: il-ir
Отчего же не находится? Вполне ищется и даже заменяется, что позволяет в один поисковый запрос уничтожить весь индекс документа.
 
Вот и сам не знаю... просто говорит что нет такого. На работе сделаю гифку, в подтверждение своих слов.
Олег, буду признателен за подсказку, если в курсе где можно почитать про эти "маркеры"?
 
  • Спасибо
Реакции: Serbel
Вот об этом говорил. В середине тоже есть маркер и его не отлавливает. Копировал именно его в поиск.

findMarker.gif
 
Последнее редактирование:
Если автор поставил эти маркеры, значит нужны (во всяком случае, не мешают).
А если вскоре выяснится, что нужен указатель? А вы индексы убили...
 
И снова здорова по этой теме :)
Ну вот как то никак не получается составить поиск именно по этому маркеру.
1572859506023.png
Нужно найти:
Начало строки, одну цифру, любой текст до этого маркера.
Мой запросы:
^\d+\. .+(?=~I)
или
^\d+\. .+~I
не отрабатывает. Не могу понять почему.
 
Это точно маркер, а не скрытый conditional text?
 
2019-11-04_124713.png
2019-11-04_124732.png
 
Сталкивался с таким - когда приходят из Ворда "битые" индексы (часто из интернета когда копируют документы).
В grep-е у меня не получилось их найти - но они сильно мешали поиску через grep (например когда они стоят в начале строки - не находит (^\d) - начало строки, любая цифра).

Поэтому я их отстреливал (заменял на "ничто" )через обычный текстовый поиск.
Причем поиск по unicode в текстовом поиске (<FEFF>) - работает, а в grep (\x{FEFF}) - нет.

Я их даже в idml искал ковыряя архив. В некоторых случаях они исчезают при экспорте в idml, в некоторых случаях сохраняются причем по-моему с незакрытым тегом, из-за чего и глюк. Тянется года так... 2008 :)


191105_0046.png
 
Последнее редактирование:
  • Спасибо
Реакции: Serbel и LeonidB
Зачем же так деструктивно? INDDrecovery умеет вытаскивать текстовый контент
Я их даже в idml искал ковыряя архив. В некоторых случаях они исчезают при экспорте в idml,
Можно и не так деструктивно - юникодный текст прямо HEX редактором в INDD искать можно и даже (очень осторожно и путем определенных манипуляций) заменять
 
  • Спасибо
Реакции: Валера1966
Сталкивался с таким - когда приходят из Ворда …
Да, именно от туда.
Для себя тоже "изобрел способ" находить его и заменять на что то, а уже потом делать все остальное.

Что странно, сам по себе он находится. Даже отрабатывает такой вариант: .+~I. Только почему то на двух предыдущих символах.
Вот пример текста.
 
Вопрос в том как теперь найти закладку?
ни ^I ни ~I не срабатывают.
 
  • Спасибо
Реакции: Serbel
Ну хорошо, в GREP его как впихнуть? Я пробовал \x{FEFF} не, не ищет...
Так же ни ^I ни ~I не срабатывают.
Нужно примерно вот такой запрос что бы был:
^[\s]?\d~I\.\s(.+)$