Верстка переводов

romyk · 22.03.2019

Мефодий Касторский сказал(а):
То есть на входе басурманский пдф

А насколько часто встречается подобная ситуация?

Не по теме:
На моей практике (сам переводами не занимаюсь, но неоднократно помогал двум переводчикам, своим родителям) - не было ни разу

Мефодий Касторский · 22.03.2019

George сказал(а):
Сказка венского леса. Не закрылся.

Прошу прощения, криво выразился: закончилась работа с переводами. А FrameMaker жив конечно.

Мефодий Касторский · 22.03.2019

romyk сказал(а):
А насколько часто встречается подобная ситуация?

Не по теме:
На моей практике (сам переводами не занимаюсь, но неоднократно помогал двум переводчикам, своим родителям) - не было ни разу

Вся техническая документация: сервис-мануалы, руководства летной эксплуатации, референсы и чек-листы приходят от буржуев в виде пдф. При этом состояние может радикально различаться. Где-то очень хорошо отформатировано и в пдфе уже текст, и тут же рядом просто сканы страниц (весьма потрепанного вида), которые выглядят (особенно на немецком) как "архивы третьего рейха".

Windmar · 22.03.2019

Мефодий Касторский сказал(а):
ворд - это днище, одни колонтитулы чего стоят.

Да ладно вам на ворд

Зато корректоры-редакторы вносят правки в него самостоятельно, а не вам сначала вносить сотню правок к переводу, а потом половину назад откатывать, потому что заказчику так больше нравится. Аналогично с экселями, ппт и прочими: они все пригодны для дальнейшего самостоятельно использования заказчиком, при условии, что типографская печать ему в принципе не нужна.

Мефодий Касторский сказал(а):
То есть на входе басурманский пдф, распознаем через файнридер, и вот на этом этапе уже хочется выдернуть текстовую (распознанную) информацию для отправки на перевод, с целью ее последующей замены на переведенный текст (прямо внутри файнридера). Ничего реального на этом этапе не нашел.

Вот это вообще интересный вопрос... Тут у меня большой пробел.. Каких-то интересных плагинов для оптимизации работы файнридера, я так и не нашла...

Мефодий Касторский сказал(а):
Теоретически, можно попробовать сначала заверстать распознанный оригинал, потом через инкопи отправить текст на перевод и после уже обновить связи по тексту.

Сразу всегда макет восстанавливаю. Файнридер не всегда корректно бьет текст на сегменты. Иногда бывает такой треш, что распознавать все целиком, можно до второго пришествия. Проще 1 раз распознать повторяющиеся фрагменты (ну если такие есть, конечно), а потом собрать файл по кускам. Ну и в принципе мне при верстке как-то легче ориентироваться, когда текст в исходнике и в файле для перевода одинаковый. После перевода остается, в основном, картинки разъехавшиеся поправить, и страница в страницу с оригиналом подверстать, если надо.

Windmar · 22.03.2019

romyk сказал(а):
А насколько часто встречается подобная ситуация?

Ну, собственно, у меня в работе почти только такая ситуация и встречается

Отдельный класс задач - вполне живые на входе файлы с мертвыми картинками, которые оживить надо.
Еще бывают индизы уже от заказчика на подверстку после перевода. И верстка в двуязычку, но это не очень часто

Windmar · 22.03.2019

Мефодий Касторский сказал(а):
Вся техническая документация: сервис-мануалы, руководства летной эксплуатации, референсы и чек-листы приходят от буржуев в виде пдф. При этом состояние может радикально различаться. Где-то очень хорошо отформатировано и в пдфе уже текст, и тут же рядом просто сканы страниц (весьма потрепанного вида), которые выглядят (особенно на немецком) как "архивы третьего рейха".

Немецкий - это моя боль '))'

Вот почему он всегда именно, что как "архивы третьего рейха"?)) Хуже только распознавание и ручной набор корейского))

Мефодий Касторский · 22.03.2019

Windmar сказал(а):
. Хуже только распознавание и ручной набор корейского))

С азиатскими языками ни разу не приходилось работать. А вот арабский и иврит со всяких трофейных доков - это больно))

Windmar сказал(а):
Да ладно вам на ворд.... заказчику так больше нравится.

К счастью, в переводике, с которой я работал понятие "нравится-не нравится" было исключено полностью.

Windmar сказал(а):
Сразу всегда макет восстанавливаю. Файнридер не всегда корректно бьет текст на сегменты..

Согласен, в идеальной ситуации так и делаю. Но - "сроки-сроки, надо вчера", да еще разница часовых поясов бывает просто атомная. В общем получается "как обычно". Из файнридера в ворд, эксель, где-то тупо в текст (приходится бить сложные документы на части), отправка на перевод, и пока там товарищи работают - надо успеть подготовить форматирование и разметку для последующей заливки перевода.

Windmar · 22.03.2019

Мефодий Касторский сказал(а):
С азиатскими языками ни разу не приходилось работать. А вот арабский и иврит со всяких трофейных доков - это больно))

А арабский с ивритом мимо меня прошли

Почему-то мне такие заказы всегда падают, когда и так уже под завязку, и брать их некуда

JAW · 22.03.2019

Windmar сказал(а):
Файнридер не всегда корректно бьет текст на сегменты.

Естественно, поэтому я никогда не доверяю ему, возможно, кроме совсем простых случаев, разбивку страницы на блоки. Проще и дешевле для нервов сперва руками разметить где графика, где текст, а уже потом распознавать. И, что важно, текст в PDF распознавать как графику, а то он может попытаться его как текст выдернуть, и результат может оказаться странным.

Windmar · 22.03.2019

JAW сказал(а):
Естественно, поэтому я никогда не доверяю ему, возможно, кроме совсем простых случаев, разбивку страницы на блоки. Проще и дешевле для нервов сперва руками разметить где графика, где текст, а уже потом распознавать.

Это само собой

Я имела в виду внутри текстового блока разбивку на абзацы. Там тоже сюрпризы бывают, особенно если несколько заголовков подряд, например

JAW сказал(а):
И, что важно, текст в PDF распознавать как графику, а то он может попытаться его как текст выдернуть, и результат может оказаться странным.

А вот это не поняла про что вы?

Мефодий Касторский · 22.03.2019

Основной вопрос (который я так до конца и не решил) вот какой:
Если брать за основу поток pdf-распознавание-верстка-перевод-верстка-pdf,
то вроде идеальная схема это:
Файнридер (ФР)-индез+инкопи-экспорт в пдф.
И вот в передаче из ФР в индез и происходит основной затык: через что или как?
Экспорта в idml ФР не предлагает, через ворд+ексель+текст руками можно, но это уже не за 20р/страница. Про конвертер pdf-idml уже писал - дорого.

Windmar · 22.03.2019

Мефодий Касторский сказал(а):
Экспорта в idml ФР не предлагает, через ворд+ексель+текст руками можно, но это уже не за 20р/страница.

Я вот только так умею

не за 20р/стр, конечно.

Windmar · 22.03.2019

Мефодий Касторский сказал(а):
Про конвертер pdf-idml уже писал - дорого.

А вы результаты работы конвертера видели? Там что-то приличное на выходе получается или не особо?

JAW · 22.03.2019

Windmar сказал(а):
А вот это не поняла про что вы?

Текст в PDF может быть, хм, в виде тестового слоя.
Файнридер этот текст может не только разпознавать, но извлекать в виде этого текстового слоя.
Вот во втором случае могут быть сюрпризы, в частности, вполне возможно, что ваши проблемы с абзацами из за этого.
Как работать с PDF где то настраивается.

Windmar · 22.03.2019

JAW сказал(а):
Текст в PDF может быть, хм, в виде тестового слоя.
Файнридер этот текст может не только разпознавать, но извлекать в виде этого текстового слоя.
Вот во втором случае могут быть сюрпризы, в частности, вполне возможно, что ваши проблемы с абзацами из за этого.
Как работать с PDF где то настраивается.

Хм, пойду файнридер поковыряю) спасибо за информацию! 'thank'

Мефодий Касторский · 22.03.2019

Windmar сказал(а):
А вы результаты работы конвертера видели? Там что-то приличное на выходе получается или не особо?

Врать не буду - не видел. Производитель триальной версии не предлагает, а рекламные вирши - они к реальности никакого отношения не имеют.

Windmar · 22.03.2019

Так вот о чем и речь.. Если там приблизительно тот же уровень, что пдф-ворд, то толку от него особо нет, на простых файлах, если только... Долго окупать, короче '))'

Мефодий Касторский · 23.03.2019

Windmar сказал(а):
Если там приблизительно тот же уровень, что пдф-ворд, то толку от него особо нет .

Вот с вопросом пдф-ворд как раз проблем меньше всего. Когда требовался вордовский выходной формат, я всё равно отверстывался в индезе, а потом конвертил пдф в ворд. Больше всего по качеству конвертации понравился PowerPDF от NuanceCommunications. Гораздо лучше (точнее), чем SolidConverter и уж тем более родной акробатовский экспорт.
Еще есть прога InFix PDF Editor от Iceni Technology, вот там реально встроенная функция экспорта из пдф подвязанного тэгированного текста или xml, и последующий апдейт линка после перевода. Но, как обычно, срабатывает не всегда корректно.

Windmar · 23.03.2019

Мефодий Касторский сказал(а):
Когда требовался вордовский выходной формат, я всё равно отверстывался в индезе, а потом конвертил пдф в ворд.

Кто к чему привык)) у меня прямо обратная схема: если нужен индиз, быстренько в ворде все, что можно макросами, и довести до ума в индизайне это.

Поиск

Верстка переводов

romyk

Мефодий Касторский

Участник

Мефодий Касторский

Участник

Windmar

Участник

Windmar

Участник

Windmar

Участник

Мефодий Касторский

Участник

Windmar

Участник

JAW

Windmar

Участник

Мефодий Касторский

Участник

Windmar

Участник

Windmar

Участник

JAW

Windmar

Участник

Мефодий Касторский

Участник

Windmar

Участник

Мефодий Касторский

Участник

Windmar

Участник