Word. Собственный .dic, или как обучать в длинных словах усматривать краткие

Статус
Закрыто для дальнейших ответов.

gasyoun

Санскритятина
Топикстартер
15 лет на форуме
Сообщения
926
Реакции
30
Продолжение разборок с hunspell. Обучаю ворд читать на санскрите. Образец текста:

Код:
na purastāddevayajanamātramatiricyeta | dviṣantaṃ [B]hāsya[/B]
tadbhrātṛvyamabhyatiricyate
kāmaṃ ha dakṣiṇataḥ syādevamuttarata etaddha tveva
samṛddhaṃ
devayajanaṃ yasya devayajanamātram paścātpariśiṣyate kṣipre
haivainamuttarā
devayajyopanamatīti nu [B]devayajanasya[/B]


Ну и словник на 200 000 слов:
Код:
puruSAyate
puruSAyita
puruSAyitatva
puruSAyuSa
puruSAyuSaka
puruSArtha
puruSArthakAra
puruSArthakaumudI
puruSArthacintAmaNi
puruSArthatrayImaya
puruSArthatva
puruSArthaprabodha
puruSArthaprabodhiNI
puruSArtham
puruSArtharatnAkara
puruSArthasiddhyupAya
puruSArthasudhAnidhi
puruSArthasUtravRtti
puruSArthAnuzAsana
puruSAvatAra
puruSAzin
puruSAstha
puruSAsthimAlin

Когда слова краткие, типа hāsya (как видно из списка они обычно не больше 10 букв), то все хорошо, вопросов нет. Морфология отдельный вопрос, у нас пока речь про фильтр грубой очистки.
Как только 2 слова слиплись вместе, типа devayajanasya - не узнаем. Ну хотя бы deva найти может? Заставить узнавать и искать части знакомых слов возможно?
 

Вложения

  • hasya.jpg
    hasya.jpg
    64.7 КБ · Просм.: 738

gasyoun

Санскритятина
Топикстартер
15 лет на форуме
Сообщения
926
Реакции
30
Addendum.
1) Было правильное слово vaidya, специально покалечил до vaidxa, Word правильно предлагает один из вариантов "vaidya". Тут все чин чином.
2) Было правильное слово jaghāna, специально покалечил до jagfāna, а Word видит теперь слово только "jag". Видит половину - никуда не годится.
3) Заменил anuṣañj на anusañj - ноль реакции, хотя такой (anuṣañj) есть в словаре и должен был ругаться на anusañj. Совсем не понятно.

Код:
anuṣañj
anuṣañjana
anuṣañjanam
anuṣañjanīya

Ближайший "словарный" вариант для искалеченного:
Код:
anusainya
То есть совсем не близко даже по вордовским понятиям.

То есть где-то делит слова, как будто бы я вставил букву из другой кодировки, а где-то воспринимает нормально. Текст чистый, из под текстового редактора. Везде одинаково вставляю букву f, которой там заведомо быть не должно. Поставил, чтобы не было привязки к языку текста, чтобы всегда показывался. Записей в словаре 200 000. Особенно смущает 2) случай.
 

Вложения

  • word-orpho-sanskrit.jpg
    word-orpho-sanskrit.jpg
    105.5 КБ · Просм.: 839
  • edit-dict.jpg
    edit-dict.jpg
    31.1 КБ · Просм.: 827
  • vaidya.jpg
    vaidya.jpg
    25.2 КБ · Просм.: 699
Статус
Закрыто для дальнейших ответов.