[ID CC-CC2022] Скрипт определения языка.

  • Автор темы Автор темы Dorm
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.

Dorm

Топикстартер
10 лет на форуме
Сообщения
574
Реакции
1
Добрый день.

Часто приходится верстать тексты с вкраплениями из других языков. Например текст на рус/укр, а цитаты на английском или немецком. Или наоборот. И переносы работаю не правильно. Сейчас выделяю нужный кусок и меняю язык.

Есть ли скрипт, который бы определял язык предложения и присваивал ему этот язык. Интересуют рус/укр/анг.

Как я это вижу:
1. Язык установлен в стиле абзаца. Например, рус.
2. Скрипт ищет (в выделенном или в материале) "характерные" символы конкретного языка (ö для немецкого; і, ї, є для украинского; ы, ъ, э для русского, y, z для английского)
3. Присваивает предложению (не абзацу) конкретный язык.
4. Конец

Спс за подсказки и помощь.
 
і, ї, є для украинского; ы, ъ, э для русского,
А как он, интересно, определит, где заканчивается русский кусок и начинается украинский? Или границу между английским и немецким? Такое даже со словарем не всегда определить можно 'hmmm'
 
А как он, интересно, определит, где заканчивается русский кусок и начинается украинский?
который бы определял язык предложения
по прописной в начале и точке в конце?

Или границу между английским и немецким?
а цитаты на английском или немецком
ключевое "или"
 
Предложение - от точки до точки (или от начала абзаца. или от заглавной - тут надо подумать)
По предложениям меня бы устроило, т.к. решало бы 95% проблем. Остальное руками.
 
На практике в подавляющем большинстве текстов лично мне хватает такой строки для FindChangeByList
Код:
grep    {findWhat:'[A-z]+'}    {appliedLanguage:"Английский: США"}    {includeFootnotes:true, includeMasterPages:true, includeHiddenLayers:true, wholeWord:false}
Интеллектуальность конечно не ахти.
Варианты со стилями grep тоже работают, но ощутимо медленней.
Изменяя наборы символов в запросе можно пытаться определять (ну конечно не "определять", а предполагать с какой-то вероятностью) и другие языки.
 
И. И. Иванов — три предложения? Война и мiръ — "украинский" язык? Feliz y salud — английский язык?
 
И. И. Иванов — три предложения? Война и мiръ — "украинский" язык? Feliz y salud — английский язык?

И. И. Иванов - да, 3 предложения, все русский. "Ива-нов" будет перенесено.
Война и мiръ - не требует перенос или "и так сойдет"
Feliz y salud - да, английский. будут работать переносы как в анг. В 95% првильно. (Fe-liz sa-lud )

Никто не просит золотого решения, но когда "Электрификация" "постиндустриальный" без переносов - это дырки в верстке.
 

Не по теме:
Просто вопрос: в украинском i какая используется?
0049 I 0069 i
или
0406 І 0456 і

 

Не по теме:
или
 
Статус
Закрыто для дальнейших ответов.