Переносы от Батова для InDesign

  • Автор темы Автор темы Yar
  • Дата начала Дата начала
Ответ: Кто-нибудь уже купил переносы от Батова?

Игорь Батов,
...Просто оригинальный предназначен для 7 битных кодировок и такого, который съел бы 8 бит мне найти не удалось...

Андрей, Вы видите только часть задачи. Генератор паттернов худо-бедно, но написать можно. А где Вы возьмете словарь, чем расставите в нем переносы и кто их будет вычитывать? Вы представьте: словарь в 20 Мб -- 1 600 000 словоформ... Без этой составляющей (вычитанного словаря) генератор паттернов столь же бесполезен, как видеомагнитофон без видеокассет...
 
Ответ: Кто-нибудь уже купил переносы от Батова?


Не по теме:
http://batov.ru (без www), к сожалению, не работает.

Игорь Батов,
сделайте редирект. не каждый юзверь всё же забивает www. Например меня как и Льва это напрягает и бесит))

Сделано: http://batov.ru
 
Ответ: Кто-нибудь уже купил переносы от Батова?

Андрей, Вы видите только часть задачи. Генератор паттернов худо-бедно, но написать можно. А где Вы возьмете словарь, чем расставите в нем переносы и кто их будет вычитывать? Вы представьте: словарь в 20 Мб -- 1 600 000 словоформ... Без этой составляющей (вычитанного словаря) генератор паттернов столь же бесполезен, как видеомагнитофон без видеокассет...
Игорь. Понимаете в чём дело... Словарь переносов, это проблема кого-то другого. Откуда его взять, это вопрос десятый... Для каких-то языков можно, например, нагенерить в Ворде, для каких-то из каких национальных переносчиков. Пусть он будет не вычитан, пусть там всё будет вкривь в кось, но слова будут переноситься хоть как-то... Иногда и это уже достижение. Вычитка, это дело энтузиастов...

Помниться мы с ребятами делали систему проверки правописания ещё в древние времена...
Набрали просто все доступные нам тексты, написали программу, которая выгребала слова встречающиеся более n раз (таким образом исключив очевидные очепятки), потом да, вычитывали, но результат можно было и так пустить в дело для генерации словаря проверки.

Лебедев что сделал?
1) Немножко подправил имеющийся набор патернов
2) Нагенерировал им переносов
3) Вычистил
4) Напустил PatGen.

т.е. можно взять за базу вообще любой переносчик...

Проблема в том, что для того, чтобы получить открытый и универсальный для приложений словарь нужен именно PatGen.
А его в адекватном виде нет. Для того, чтобы его получить нужен программист, который разберётся...
Словарь то могут и не программисты править.

P.S. Вообще то проблема касается в данный конкретный момент электронных устройств для чтения. Там все движки чтения поддерживающие переносы базируются на паттернах Лянге, взятых понятно откуда. Когда человек спрашивает, а поддерживает ли это устройство "блабланский" язык... Очень хочется ответить ему, "В принципе может, но для этого вы должны сами немного постараться"... И объяснить как именно.
 
Ответ: Кто-нибудь уже купил переносы от Батова?

Уважаемые коллеги, доброго всем дня!

Пожалуйста, у кого есть время и возможность, поделитесь своими соображениями. Дело в следующем.

Вчера получил от Михаила Иванюшина (aka iv-mi) письмо с сообщением, что "...корректор придралась к "заро-ждаются". Хочет "зарож-даются". Сегодня получаю от другого пользователя сообщение, что корректоры правят

возро-ждаться
охла-ждения
утвер-ждено

на

возрож-даться
охлаж-дения
утверж-дено

То есть лучшие варианты (лучшие -- в классическом понимании) меняются на допустимые.

Источники, по которым данные варианты переносов сверялись, однозначно выбирают "-жд":

возбу-ждены [4, 359]
выро-ждается [4, 154]
утвер-ждать [4, 273]
су-ждено [21, 36]
су-ждение [21, 39]
утвер-жден [21, 4]
утвер-ждали [23, 246]
учре-ждений [28, 446]
насла-ждаюсь [29, 233]
обсу-ждали [29, 269]
вра-ждебных [30, 15]
возбу-ждал [51, 71]
неприну-жденно [51, 142]
ну-ждаемся [51, 455]
ну-ждаюсь [51, 138]
подтвер-ждается [51, 517]
предупре-ждаю [51, 357]
происхо-ждения [51, 36]
рассу-ждал [51, 71]
сопрово-жденными [51, 103]
убе-ждений [51, 19]
убе-ждения [51, 15, 486]
убе-ждениями [51, 457]
утвер-ждать [51, 354]
прину-жденно [57, 338]
прину-жденным [57, 347]
рассу-ждать [57, 353]
ро-жден [57, 223]
вро-жденный [60, 302]
осу-ждает [60, 22]
прину-жденными [60, 57]
происхо-ждения [60, 254]
рассу-ждать [60, 97]
убе-жденье [60, 85]

и т. д.

Вариант переноса "ж-д" в этих изданиях встречается исключительно как компромиссный, чаще всего когда необходимо втянуть концевую строку абзаца.

Я вот и хотел спросить, как обстоят дела у тех, кто использует BaH, и что думают об этом явлении остальные коллеги?
 
Ответ: Кто-нибудь уже купил переносы от Батова?

Исходя из моего опыта, некоторые корректоры очень нервно относятся к практически любому переносу вида гласная - перенос - две согласных. Очевидно, они предпочитают перенос по слогам переносу по морфемам со всеми вытекающими.
 
Ответ: Кто-нибудь уже купил переносы от Батова?

А вот цитата из википедии
http://ru.wikipedia.org/wiki/Переносы

удвоенную согласную от предыдущей гласной можно отделять переносом только в сложных словах (ново-введение) и после приставок (со-жженный);

источник, к сожалению, не указан.
 
Ответ: Кто-нибудь уже купил переносы от Батова?

Википедия говорит именно об удвоенных согласных: удвоенные -- это две одинаковые, в случае примера -- 'ж' и 'в'.

В случае поста #184 действующими Правилами варианту "-жд" отдается предпочтение (в перечне возможных вариантов ставится на первое место):

"Из изложенных выше (§ 118 и 119) правил переноса следует, что многие слова можно переносить различными способами; при этом следует предпочитать такие переносы, при которых не разбиваются значащие части слова.
...
"пробу-ждение", "пробуж-дение"
...
 
Ответ: Кто-нибудь уже купил переносы от Батова?

Немного не в тему, но: мудохаясь с местными (не русскими) переносами с использованием пользовательльского словарика исключений, пришли к гениальному решению: делаем выключку ВЛЕВО + балансировка строк. Сия мысля посетила главреда после листания немецко- и англоязычных изданий, в которых процентов 70-80 текстовки имеет именно чистую левую выключку. Да, есть свои специфические маленькие минусики, но гордиев узел разрубился вот так.
Теперь осталась мелочь: посмотреть как на это отреагируют читатели, учредители и т.д. :)
 
Ответ: Кто-нибудь уже купил переносы от Батова?

Уважаемые коллеги, доброго всем дня!

Завершен перевод модулей, работающих на платформе PC, на ядро 2-го поколения. Оно в 2,5 раза быстрее и обеспечивает существенно более высокое качество. Запас по скорости в случае необходимости может быть трансформирован в "дополнительное качество".

Версию 1.66 (см. пост #171) было решено не выпускать: испытания нового ядра и версии 1.66 шли параллельно и завершились практически одновременно -- выпускать версию заведомо более слабую не имело никакого смысла. В общем, в линейке 1.XX версия 1.65 оказалась последней.

Работа над переводом MAC-версий модулей на ядро 2-го поколения начнется в самое ближайшее время.
 
Ответ: Кто-нибудь уже купил переносы от Батова?

Игорь Батов,
Меня вот тут немного алгоритм заинтересовал...
Можете немного поделиться, и похвастаться?
 
Ответ: Кто-нибудь уже купил переносы от Батова?

Игорь Батов,
Меня вот тут немного алгоритм заинтересовал...

Андрей, обобщая свой многолетний опыт, скажу, что собственно алгоритм -- дело, конечно, не десятое, но уж точно, что не первое.
Глвное -- воля к победе. Сколько времени потратил на тестированиие -- такое качество получил на выходе. Алгоритм может быть сложнее или проще, но это скажется в первую очередь на быстродействии. На качество влияет только тестирование. Именно по этой причине все "любительские" разработки превосходят "коммерческие"... Производители "коммерческого" софта обеспечивают работу "в основном"... Разбираться с деталями у них просто нет возможности.
 
Ответ: Кто-нибудь уже купил переносы от Батова?

Андрей, обобщая свой многолетний опыт, скажу, что собственно алгоритм -- дело, конечно, не десятое, но уж точно, что не первое.
Игорь. Нет. Меня интересует не собственно происхождение словаря и т.п.
Просто в своё время немного занимался схожей задачей (в том случае спелл чекер), и убедился что уже структура данных может быть определяющей, наполнение это да... Постоянные отладки и совершенствования.
Например Кнут работал в условиях, что его реализации должно было хватать килобайт памяти. Реализация дерева поиска на статических массивах. Динамических типов данных в Pascal тогда ещё не было.
В TeX это так и работает до сих пор.
В прочем мне разгрести сам алгоритм до уровня описания так и не удалось. В документации постоянные отсылки на Искусство программирования. Всё таки Хакер.
 
Ответ: Кто-нибудь уже купил переносы от Батова?

Андрей, я не занимался детальным анализом того, что предлагает Кнут. В этом нет никакой необходимости. Когда основная идея ясна, все остальное уже неважно.

Отдавая должное идеи Лянга и признавая ее красоту, я тем не менее настаиваю на том, что, если ориентироваться на конечный результат, классический подход безусловно лучше. Посмотрите на Сайте в "Новости раздела Сравнить" запись от 11.12.2010 -- "Еще раз о TeX". Добавить к тому, что там написано, мне пока нечего. То есть добавить-то есть что, но это будет не "за", а "против"... Лучше я помолчу.

Андрей, мне кажется, мы с вами не можем найти общего языка потому, что решаем разные задачи... Меня не интересуют никакие другие языки, кроме русского... Это первое. И я хочу превзойти "старых мастеров" -- корректоров старой школы. (Я говорю, конечно, только о качестве переносов.) Это второе. По моим оценкам, Расширенная редакция BaH с ядром 2-го поколения эту задачу решает. С выходом Максимальной редакции BaH, полагаю, можно будет говорить, что BaH работает лучше любого корректора. (Что означает в данном случае "лучше" -- тема отдельного разговора.)

TeX в решении сформулированных задач мне не помощник. Алгоритмы, в той или иной форме использующие TeX-идеи, у меня здесь нет сомнений, на рынке будут доминировать... В электронных книгах, например... И им принадлежит будущее. Я в этом не вижу ничего страшного... Пусть будет так.

Я же продолжаю решать свою задачу. А после перевода на ядро 2-го поколения MAC-версий модулей, вернусь к системе расстановки переносов в текстах, набранных в старой (дореволюционной) орфографии. Прототип давно готов, но надо будет еще раз все перепроверить... Постараться сохранить "дух времени"... Это очень интересно.
 
Ответ: Кто-нибудь уже купил переносы от Батова?

Игорь Батов,
Игорь. Да. Задачи разные. Хочется простого метода создания хоть каких-то переносов даже для проблемных языков, для которых алгоритма переносов нет. К сожалению, к таким языкам относятся и языки народов бывшего СССР.

Да... Естественно я прочитал те отчёты о сравнении, и анализ, который Вы приводите. Более того, переодически на них ссылаюсь и порой это оказывается продуктивным, например выяснилось, что не все наборы паттернов Лебедева полезны, и существует две версии и кое где используется первая.

Относительно моего вопроса... Мне просто интересно как Вы решили задачку со структурой данных, не более.

Я не считаю, что перенос по середине слова в случайном месте хуже принципиального их отсутствия, как делает, например, Adobe... Главное, чтобы переносы были, а возможность их прикрутить, это уже дело техники.
 
Ответ: Кто-нибудь уже купил переносы от Батова?

Андрей, у меня минимум данных... Поэтому никаких специальных структур данных не разрабатывалось.

Алгоритм основан на регулярных выражениях. Если мы, в отличие от Лянга, не игнорируем природу объекта, например, не уничтожаем различие между гласными и согласными, то особо много внутренних данных и не потребуется, чтобы описать большой массив эмпирических данных. Например, достаточно указать, что в конструкции вида "сгсг" перенос имеет место перед второй согласной... Cколько паттернов Лянга потребуется для описания всех возможных случаев, покрываемых эти шаблоном? Это очень упрощенный пример... В реальности все сложнее, но идея именно такая.
 
Ответ: Кто-нибудь уже купил переносы от Батова?

Уважаемые коллеги,

То, что мне казалось очевидным, у пользователей вызвало вопросы... Речь идет о "цене" перехода с версий 1.XX на 2.00.

Переход осуществляется в рабочем порядке. Как и в случаях перехода, допустим, с версии 1.64 на 1.65 просто скачивается с Сайта и устанавливается новая версия... Никакой дополнительной оплаты не требуется.
 
Ответ: Кто-нибудь уже купил переносы от Батова?

Алгоритм основан на регулярных выражениях. Если мы, в отличие от Лянга, не игнорируем природу объекта, например, не уничтожаем различие между гласными и согласными, то особо много внутренних данных и не потребуется, чтобы описать большой массив эмпирических данных. Например, достаточно указать, что в конструкции вида "сгсг" перенос имеет место перед второй согласной... Cколько паттернов Лянга потребуется для описания всех возможных случаев, покрываемых эти шаблоном? Это очень упрощенный пример... В реальности все сложнее, но идея именно такая.
Понятно. Мысль интересная. Но в случае с Патернами Лянге патерн, это лишь описание генерируемое автоматически из словаря, потом корректируемое.
А в Вашей ситуации регулярные выражения пришлось сперва описывать в ручную, на базе "очевидных правил", потом очень долго отлаживать, причём скорей всего гораздо более трудоёмко.
Плюс регулярные выражения таки работают помедленней.
 
Ответ: Кто-нибудь уже купил переносы от Батова?

Всем желаю доброго вечера!

...в случае с Патернами Лянге патерн, это лишь описание генерируемое автоматически из словаря, потом корректируемое.
Андрей, вы опять ошибаетесь... и сравниваете в данном случае разные этапы. Чтобы запустить генератор паттернов словарь уже должен быть готов. Вы этого не учитываете. Это раз. Делать такой словарь не просто долго, а очень долго... Это два. И некому -- это три. Плюс генератор паттернов работает, прямо скажем, не быстро. В сумме это ведет к столь существенным затратам труда и времени, что никто этим путем уже не идет. За последние годы не появилось ни одной новой таблицы паттернов.

...на базе "очевидных правил"...
Андрей, "очевидные правила" -- это всего лишь правила Переносов и Русского языка...

***

Андрей, мне непонятно, почему вы постоянно защищаете то, что дает худший результат, причем достигаемый и большими усилиями... Вы глазам своим верите?
 
Ответ: Кто-нибудь уже купил переносы от Батова?

Андрей, мне непонятно, почему вы постоянно защищаете то, что дает худший результат, причем достигаемый и большими усилиями... Вы глазам своим верите?
Я защищаю то, что банально "универсально". Я не говорю, лучше-хуже... Часто идеальный результат, сложно достижим и достаточен хоть какой-то.

Чтобы запустить генератор паттернов словарь уже должен быть готов. Вы этого не учитываете. Это раз. Делать такой словарь не просто долго, а очень долго... Это два. И некому -- это три.
Словарь может быть подготовлен в результате действия иного алгоритма переносов. Словарный набор генерируется путём анализа готовых электронных текстов (так мы делали для спеллчекера). Не забываем, что патерны, в принципе могут быть сгенерированны на базе очень малого словаря. Более того, набор патернов может быть может содержать вообще набор правил уровня "разрыв только после гласных", всё уже лучше чем ничего.

Андрей, "очевидные правила" -- это всего лишь правила Переносов и Русского языка...
Разумеется. Многие алгоритмы так и работают.
Да и, вообще говоря, существуют генераторы патернов на базе ну... не RegExp, но по принципу довольно схожему в плане описания.

Да. Очень хорошо, что для языка существует вылизанный алгоритм переноса.
Хорошо, что он поддерживается одной, или вроде ещё Вентура была.

Но вот когда нет никакого для данной программы, да ещё и открытого, то это с моей точки зрения очень плохо.
И плохой алгоритм лучше никакого, т.к. можно работать дальше.

Да...
Знаете, как Лебедев сделал свой набор патернов, если не читали.
Он немного немного усовершенствовал лучший из существующих для TeX,
Получил первую версию.
Сгенерировал словарную базу.
Зачистил её руками.
Сгенерировал 2-ю версию.

Причём дело то не в том, что этого некому делать. Желающих полно... Диссертацию, например, из воздуха таки не защитишь.
 
Ответ: Кто-нибудь уже купил переносы от Батова?

Уважаемые коллеги, доброго всем вечера!

...А после перевода на ядро 2-го поколения MAC-версий модулей, вернусь к системе расстановки переносов в текстах,
набранных в старой (дореволюционной) орфографии... Это очень интересно.

Не удержался и поменял порядок... Работа над консольной версией системы расстановки переносов в текстах, набранных в старой (дореволюционной) орфографии завершена. Приведены в соответствие с "духом времени" переносы в словах, не дававших мне покоя: "безобразный", "завтра", "надменный", "нельзя", "польза"... (Здесь я следую Правилам Я. К. Грота.) Дальнейшие изменения -- уже в рабочем порядке...

Поскольку коммерческой версии не предполагается, да и портировать в InD вряд ли имеет смысл, всех, кому приходится иметь дело с дореформенным русским и у кого возникает необходимость в расстановке переносв, приглашаю попробовать... Присылайте файлы на igor@batov.ru Расстановка переносов много времени не займет (на словарь в 40 Мб требуется 37 секунд)... Через несколько минут я вам их верну. (По умолчанию знак переноса -- дефис, но привести в соответствие с требованиями конкретной программы верстки труда не составит.)

Формат файлов: UTF-8, UTF-16LE, UTF-16BE.