Импорт текста с форматированием

  • Автор темы Автор темы gasyoun
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.

gasyoun

Санскритятина
Топикстартер
15 лет на форуме
Сообщения
926
Реакции
30
Я через php генерирую html страницу словаря, огромное полотно на 200000 слов, 6 Мб. Это промежуточный результат, который мне нужен для индизайна. Из радостей html мне нужно сохранить перелинковку букмарков, жирность, разметку заголовков.

1) Сначала попробовал http://digitalpublishingtoolkit.org/2014/05/import-html-into-indesign-via-xml/ - хотел все по научному, но там получается какашка, с которой я не знаю, что делать. А к погружению преобразования HTML в валидный XML не распологает положение.

Потом плюнул и перешел к копипасту из браузера.
2) Если из Хрома копипастить в индюк, сохраняются переносы строкы, но теряются гиперсылки и форматирование текста. Это я узнал из http://www.creativepro.com/article/html-to-indesign, проверил сам, так и есть.
3) Если из Ослика копипастить в индюк, сохраняются переносы строкы, гиперсылки и форматирование текста.
Но копипаст (в хроме и в ослике, неужели пользоваться оперой как в http://indesignsecrets.com/topic/indesign-mag-55-html-to-indesign#post-64977 описано) обламывается об список слов http://pastebin.com/NL44412q
Вставляется только до #saṁ#, потом обрывается - пробовал копировать из Ослика, Хрома - результат одинаковый. Какой-то особенный пробел после него закрался? Не вижу.

<a id="a">a</a> |<br>#a#<br><br>| <a id="ā">ā</a> |<br>#ā#<br>#phumphu<b>ā</b>#<br><br>| <a id="i">i</a> |<br>#i#<br>#ā<b>i</b>#<br>#reui#<br>#acchāi#<br>#dādābhāi#<br>#nāhnābhāi#<br>#rājasāi#<br><br>| <a id="ī">ī</a> |<br>#ī#<br><br>| <a id="u">u</a> |<br>#u#<br>#tita_<b>u</b>#<br><br>| <a id="ū">ū</a> |<br>#ū#<br>#maṇa<b>ū</b>#<br>#manaū#<br><br>| <a id="ṛ">ṛ</a> |<br>#ṛ#<br>#āṛ#<br>#upaṛ#<br><br>| <a id="ṝ">ṝ</a> |<br>#ṝ#<br><br>| <a id="ḷ">ḷ</a> |<br>#ḷ#<br><br>| <a id="ḹ">ḹ</a> |<br>#ḹ#<br><br>| <a id="e">e</a> |<br>#e#<br><br>| <a id="ai">ai</a> |<br>#ai#<br><br>| <a id="o">o</a> |<br>#o#<br><br>| <a id="au">au</a> |<br>#au#<br><br>| <a id="ṁ">ṁ</a> |<br>#humāuṁ#<br>#ūṁ#<br>#sākaṁ#<br>#vācaṁ#<br>#ṭhaṭhaṁ#<br>#pataṁ#<br>#śṛtaṁ#<br>#naktaṁ#<br>#kathaṁ#<br>#śubhaṁ#<br>#svayaṁ#<br>#sāyaṁ#<br>#dhiyaṁ#<br>#araṁ#<br>#puraṁ#<br>#alaṁ#<br>#tvaṁ#<br>#śaṁ#<br>#darśaṁdarśaṁ#<br>#saṁ#<br>#ahaṁ#<br>#gāṁ#<br>#jhāṁ#<br>#ghrāṁ#<br>#kiṁ#<br>#khariṁ#<br>#khāriṁ#<br>#tūṣṇīṁ#<br>#tadānīṁ#<br>#guṁ#<br>#puṁ#<br>#huṁ#<br><br>| <a id="ḥ">ḥ</a>

Другой же список, http://pastebin.com/Jt1mvW0u крупнее 1-го, не рвет, вставляет весь целиком.

4) Как вариант открывать html в Ворде, пересохранять в .doc и "поместить" в ID, классика жанра, делал так и раньше, программа на полчаса зависает, посмотрим. Самый деревенский вариант, похоже, единтсвенный относительно рабочий. Копирование из ворда тоже обрывается на слове #saṁ#, мистика.
 
Пробую чистый текст, без меток - та же петрушка.

Оборвало после
#sát--pratipakṣa---bādha-grantha#
потому что
#sādhāraṇāsādhāraṇānupasaṁhāri-virodha-grantha#
я уже не увидел. И это при иморте из .txt

#sát--pratipakṣa---bādha-grantha#
#sādhāraṇāsādhāraṇānupasaṁhāri-virodha-grantha#

Бывает такое, что рвет?
 
Статус
Закрыто для дальнейших ответов.