Возможности Hunspell (русский + другой язык из user dictionary)

  • Автор темы Автор темы gasyoun
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.

gasyoun

Санскритятина
Топикстартер
15 лет на форуме
Сообщения
926
Реакции
30
Вопрос, можно ли:
1) делать spellchecking
2) (относительно) правильные переносы

Если основной текст русский, а санскрит идет латиницей (или деванагари) идет в перемешку с ним, но их тоже нужно проверять (и готов сделать под это отдельный словарь Hunspell). Если укажу основной язык русский - проигнорируется вся не-кириллица, а ее почти столько же, сколько кириллицы. Пример:

visargá („выдох“ от ví „в разные стороны“) тех. термин для конечного спиранта ḥ; изначально назывался visarjanīya (согласно тр. „служащий для обозначения высвобождения, выхода“).

Когда InD увидит visargá с ударением (не отдельным, а цельным глифом), то он visarga из словаря пользовательского, конечно же не узнает. Можно ли прописать, чтобы знаки ударения не брались в учет?

P.S. Нет, это не отдельный вопрос. Как выделить сразу все текстовые фреймы в документы, чтобы применить язык Русский и включить Переносы? Выделять по одному фрейму, или по тексты из одного фрейма не интересно, их тут мнооого. Я вроде и сам сделал, а как именно - не понял.
 

Вложения

  • mixed.jpg
    mixed.jpg
    330 КБ · Просм.: 1 155
Как выделить сразу все текстовые фреймы в документы, чтобы применить язык Русский и включить Переносы?

Не надо ничего выделять.
грепом. найти - любой символ. заменить - в опциях язык.
 
грепом. найти - любой символ
Просто, но гениально, надо будет опробовать. Особенно интересно как поведут себя лигатуры деванагари, коих не меньше чем 807 шт. будет, хорошо, посмотрим. Теория вопроса понята, уже при конвертации из кодировки в кодировку внутри индизайна применял такие регулярки.
 
штукам типа

лучше назначать нерусский язык.

собственно, греп-замены стандартная практика 2-язычных публикаций.
к примеру, у меня в англо-русской вёрстке по умолчанию для всего стоит
русский язык, а потом грепом проходится по латинице и ей присваивается англ.
 
А чтобы с ударениями были равны тем, что без ударений - как лучше это сделать?
Заменять их на что-то а потом обратно или есть нечто отдаленно напоминающиее искусственный интеллект?
 
Hunspell позволяет вносить символы в список необрабатываемых, так что ударение будет просто игнорироваться
 
символы в список необрабатываемых
Хорошо, понял. А если, наоборот, нужно проверить ударения, то надо отдельный словарь с ударениями создавать, или можно где-то правила прописать?
 
я про переносы. что там с проверкой правописания - не смотрел.
 
Если найти словарь переносов для TeX с санскритом в латинской транскипции то, поскольку алфавиты не пересекаются, его можно будет прикрепить к русскому, как это делали с TeX. В общем пока алфавиты не пересекаются их можно лепить в один словарь.
 
По поводу орфографии... Как то делается. Синтаксис довольно богатый и там вроде можно описывать игнорируемые буквы.
 
алфавиты не пересекаются их можно лепить в один словарь
Они действительно не пересекаются. Начал документировать процесс лепки. В Ворде уже заработало, примитивно, но заработало.

Синтаксис довольно богатый
И, небось, незадокументированный?
 
И, небось, незадокументированный?
http://mozilla-russia.org/projects/dictionary/hunspell.html

По переносам на сайте hunspell
http://sourceforge.net/projects/hunspell/files/Hyphen/2.8/
Скачиваем архив, там внутри есть PDF со статьёй.
Собственно думаю, что и в исходниках спеллчекера должна быть документация.
 
Все бы ничего, но диакритику, похоже, системный шрифт InD ототбражать не собирается. Нельзя ему мозги подкрутить где?

внутри есть PDF со статьёй
Да, я уже скачал, но еще не читал.
 

Вложения

  • asesan.jpg
    asesan.jpg
    58.8 КБ · Просм.: 950
Статус
Закрыто для дальнейших ответов.