[ID CC-CC2021] Почему портятся кавычки при tagged-импорте?

hulk1776

Топикстартер
15 лет на форуме
Сообщения
725
Реакции
21
Обнаружилось, что после импорта тегированного файла в Инди все кавычки оказываются угловые.
Фраза:
«О внесении изменений в приказ ФНС России от 30.05.2007 “Об утверждении концепции системы планирования выездных налоговых проверок”» оказывается в виде
«О внесении изменений в приказ ФНС России от 30.05.2007 «Об утверждении концепции системы планирования выездных налоговых проверок»».
То есть англодвойные кавычки превращаются в елочки.
Стал смотреть внутрь импортируемого (макросом) tagged-файла. Там они уже испортились. Но если я руками сохраняю форд-документ как txt-файл, то кавычки сохраняются. В макросе сохранения тегированного файла записано:
Код:
ActiveDocument.SaveAs FileName:=NameSave, _
        FileFormat:=wdFormatText, _
        Encoding:=msoEncodingUnicodeLittleEndian
Решил подставить кодировку msoEncodingUTF8. Файл в верстке тут же перестал распознаваться как тегированный. Все служебные символы остались на местах.
Смущает кодировка msoEncodingUnicodeLittleEndian. Может быть она гробит вложенные кавычки? На какую тогда менять?

p.s. В тегированном файле шапка пишется такая
Код:
<UNICODE-WIN>
<Version:12><FeatureSet:InDesign-Roman><ColorTable:=<Black:COLOR:CMYK:Process:0,0,0,1>>
 

veretragna

γνώσις
Сообщения
578
Реакции
199
UnicodeLittleEndian - это обычный UTF16, дефолтная кодировка всех данных винды и офиса; отличается тем, что символ в ней занимает всегда 2 байта, а UTF8 может сократить известный символ (латиницу, например) и до 1 байта.
Кавычки бьются на каком-то другом этапе
 
  • Спасибо
Реакции: hulk1776

RIKITIKI

20 лет на форуме
Сообщения
1 465
Реакции
515
123123123.jpg птичка стоит "использовать типографские.."?
 

hulk1776

Топикстартер
15 лет на форуме
Сообщения
725
Реакции
21
Спасибо. Пришлось прописать "хитрые" замены по тексту, чтобы в верстке вернуть их обратно.
 

hulk1776

Топикстартер
15 лет на форуме
Сообщения
725
Реакции
21
Посмотреть вложение 120201 птичка стоит "использовать типографские.."?
Не стоит. Но уже в текстовом файле (до place) эти кавычки дохнут (если сохранять макросом). А если из Ворда сохранять руками как текстовый файл, то тип кавычек сохраняется. Я и подумал, что это может быть связано с параметром кодировки файла (msoEncodingUTF8).
 

andrejK

R.I.P.
Сообщения
10 300
Реакции
5 218
этож должно быть связано с языком абзаца? в английский импортируются одинарные кавычки, в русский - ёлки? нет?
 

veretragna

γνώσις
Сообщения
578
Реакции
199
Здесь небольшое недопонимание.
Если экспортировать текст из ворда в .txt - кавычки целые, а если экспортировать в tagged вордовский файл - бьются.
Импорт здесь ни при чем