[ID CC-CC2022] Проблемный импорт .docx

  • Автор темы Автор темы Serbel
  • Дата начала Дата начала

Serbel

Топикстартер
10 лет на форуме
Сообщения
393
Реакции
90
Обычно я конвертирую .docx в .doc, чтобы беспроблемно поместить текст в Индизайн, но бывают файлы фантастически кривые, которые при попытке импорта рушат Индизайн.

Импорт же .docx создаёт две проблемы:
  • мой ближневосточный Индизайн всему тексту присваивает арабский язык и ставит направление письма справа налево (направление письма исправляется легко, а вот языковая разметка слетает) — я уже как-то обсуждал это здесь, и решения не нашлось;
  • если в Ворде в окне Шрифт для латиницы установлен курсив, а в сложных знаках — прямой, то импортируется прямой (а такое расхождение в авторских файлах случается ОЧЕНЬ часто, см. скриншот) — и вот это по понятным причинам кошмар.
Кто-то сталкивался хотя бы со второй проблемой и не нашлось ли решения?

1635350157718.png
 
Первое, на что напрашивается Кэп - doc->docx->doc->id
 
  • Спасибо
Реакции: Serbel
Именно с такой проблемой я не сталкивался, в смысле - мне такое было не нужно. Поэтому не сильно помогу.
Но в целом импорт из MS-файлов - это головная боль. И не только из-за кривизны самих механизмов MS. Но и из-за возможности пользователя нагородить в файле всё что в голову придёт. А MS к этому относиться - "непонятная хрень какая-то, но пусть будет, в крайнем случае просто отображать не будем".
В данном случае наверное стоит переопределить такие места, назначив курсиву в таких местах, к примеру, дополнительное кодирование, цветом скажем. А потом в ID, если не слетит цвет шрифта, переопределить такой цветной текст в курсив.
 
  • Спасибо
Реакции: Serbel
Первое, на что напрашивается Кэп - doc->docx->doc->id
Да, но не работало.

В этот раз обнаружил, что вместо символа ʃ в тексте, если смотреть код xml, имеется вот такое: SYMBOL 242 \f "Symbol" \s 12, что и рушило импорт .doc, — бред ведь, но реально два часа убито на поиски проблемы…