Верстка переводов

  • Автор темы Автор темы Windmar
  • Дата начала Дата начала
То есть на входе басурманский пдф
А насколько часто встречается подобная ситуация?

Не по теме:
На моей практике (сам переводами не занимаюсь, но неоднократно помогал двум переводчикам, своим родителям) - не было ни разу
 
А насколько часто встречается подобная ситуация?

Не по теме:
На моей практике (сам переводами не занимаюсь, но неоднократно помогал двум переводчикам, своим родителям) - не было ни разу
Вся техническая документация: сервис-мануалы, руководства летной эксплуатации, референсы и чек-листы приходят от буржуев в виде пдф. При этом состояние может радикально различаться. Где-то очень хорошо отформатировано и в пдфе уже текст, и тут же рядом просто сканы страниц (весьма потрепанного вида), которые выглядят (особенно на немецком) как "архивы третьего рейха".
 
ворд - это днище, одни колонтитулы чего стоят.
Да ладно вам на ворд :) Зато корректоры-редакторы вносят правки в него самостоятельно, а не вам сначала вносить сотню правок к переводу, а потом половину назад откатывать, потому что заказчику так больше нравится. Аналогично с экселями, ппт и прочими: они все пригодны для дальнейшего самостоятельно использования заказчиком, при условии, что типографская печать ему в принципе не нужна.
То есть на входе басурманский пдф, распознаем через файнридер, и вот на этом этапе уже хочется выдернуть текстовую (распознанную) информацию для отправки на перевод, с целью ее последующей замены на переведенный текст (прямо внутри файнридера). Ничего реального на этом этапе не нашел.
Вот это вообще интересный вопрос... Тут у меня большой пробел.. Каких-то интересных плагинов для оптимизации работы файнридера, я так и не нашла...
Теоретически, можно попробовать сначала заверстать распознанный оригинал, потом через инкопи отправить текст на перевод и после уже обновить связи по тексту.
Сразу всегда макет восстанавливаю. Файнридер не всегда корректно бьет текст на сегменты. Иногда бывает такой треш, что распознавать все целиком, можно до второго пришествия. Проще 1 раз распознать повторяющиеся фрагменты (ну если такие есть, конечно), а потом собрать файл по кускам. Ну и в принципе мне при верстке как-то легче ориентироваться, когда текст в исходнике и в файле для перевода одинаковый. После перевода остается, в основном, картинки разъехавшиеся поправить, и страница в страницу с оригиналом подверстать, если надо.
 
А насколько часто встречается подобная ситуация?
Ну, собственно, у меня в работе почти только такая ситуация и встречается :)
Отдельный класс задач - вполне живые на входе файлы с мертвыми картинками, которые оживить надо.
Еще бывают индизы уже от заказчика на подверстку после перевода. И верстка в двуязычку, но это не очень часто
 
Вся техническая документация: сервис-мануалы, руководства летной эксплуатации, референсы и чек-листы приходят от буржуев в виде пдф. При этом состояние может радикально различаться. Где-то очень хорошо отформатировано и в пдфе уже текст, и тут же рядом просто сканы страниц (весьма потрепанного вида), которые выглядят (особенно на немецком) как "архивы третьего рейха".
Немецкий - это моя боль '))' Вот почему он всегда именно, что как "архивы третьего рейха"?)) Хуже только распознавание и ручной набор корейского))
 
. Хуже только распознавание и ручной набор корейского))
С азиатскими языками ни разу не приходилось работать. А вот арабский и иврит со всяких трофейных доков - это больно))

Да ладно вам на ворд.... заказчику так больше нравится.
К счастью, в переводике, с которой я работал понятие "нравится-не нравится" было исключено полностью.

Сразу всегда макет восстанавливаю. Файнридер не всегда корректно бьет текст на сегменты..
Согласен, в идеальной ситуации так и делаю. Но - "сроки-сроки, надо вчера", да еще разница часовых поясов бывает просто атомная. В общем получается "как обычно". Из файнридера в ворд, эксель, где-то тупо в текст (приходится бить сложные документы на части), отправка на перевод, и пока там товарищи работают - надо успеть подготовить форматирование и разметку для последующей заливки перевода.
 
С азиатскими языками ни разу не приходилось работать. А вот арабский и иврит со всяких трофейных доков - это больно))
А арабский с ивритом мимо меня прошли :) Почему-то мне такие заказы всегда падают, когда и так уже под завязку, и брать их некуда :)
 
Файнридер не всегда корректно бьет текст на сегменты.
Естественно, поэтому я никогда не доверяю ему, возможно, кроме совсем простых случаев, разбивку страницы на блоки. Проще и дешевле для нервов сперва руками разметить где графика, где текст, а уже потом распознавать. И, что важно, текст в PDF распознавать как графику, а то он может попытаться его как текст выдернуть, и результат может оказаться странным.
 
Естественно, поэтому я никогда не доверяю ему, возможно, кроме совсем простых случаев, разбивку страницы на блоки. Проще и дешевле для нервов сперва руками разметить где графика, где текст, а уже потом распознавать.
Это само собой :) Я имела в виду внутри текстового блока разбивку на абзацы. Там тоже сюрпризы бывают, особенно если несколько заголовков подряд, например
И, что важно, текст в PDF распознавать как графику, а то он может попытаться его как текст выдернуть, и результат может оказаться странным.
А вот это не поняла про что вы?
 
Основной вопрос (который я так до конца и не решил) вот какой:
Если брать за основу поток pdf-распознавание-верстка-перевод-верстка-pdf,
то вроде идеальная схема это:
Файнридер (ФР)-индез+инкопи-экспорт в пдф.
И вот в передаче из ФР в индез и происходит основной затык: через что или как?
Экспорта в idml ФР не предлагает, через ворд+ексель+текст руками можно, но это уже не за 20р/страница. Про конвертер pdf-idml уже писал - дорого.
 
А вот это не поняла про что вы?
Текст в PDF может быть, хм, в виде тестового слоя.
Файнридер этот текст может не только разпознавать, но извлекать в виде этого текстового слоя.
Вот во втором случае могут быть сюрпризы, в частности, вполне возможно, что ваши проблемы с абзацами из за этого.
Как работать с PDF где то настраивается.
 
Текст в PDF может быть, хм, в виде тестового слоя.
Файнридер этот текст может не только разпознавать, но извлекать в виде этого текстового слоя.
Вот во втором случае могут быть сюрпризы, в частности, вполне возможно, что ваши проблемы с абзацами из за этого.
Как работать с PDF где то настраивается.
Хм, пойду файнридер поковыряю) спасибо за информацию!'thank'
 
А вы результаты работы конвертера видели? Там что-то приличное на выходе получается или не особо?
Врать не буду - не видел. Производитель триальной версии не предлагает, а рекламные вирши - они к реальности никакого отношения не имеют.
 
Так вот о чем и речь.. Если там приблизительно тот же уровень, что пдф-ворд, то толку от него особо нет, на простых файлах, если только... Долго окупать, короче '))'
 
Если там приблизительно тот же уровень, что пдф-ворд, то толку от него особо нет .

Вот с вопросом пдф-ворд как раз проблем меньше всего. Когда требовался вордовский выходной формат, я всё равно отверстывался в индезе, а потом конвертил пдф в ворд. Больше всего по качеству конвертации понравился PowerPDF от NuanceCommunications. Гораздо лучше (точнее), чем SolidConverter и уж тем более родной акробатовский экспорт.
Еще есть прога InFix PDF Editor от Iceni Technology, вот там реально встроенная функция экспорта из пдф подвязанного тэгированного текста или xml, и последующий апдейт линка после перевода. Но, как обычно, срабатывает не всегда корректно.
 
Когда требовался вордовский выходной формат, я всё равно отверстывался в индезе, а потом конвертил пдф в ворд.
Кто к чему привык)) у меня прямо обратная схема: если нужен индиз, быстренько в ворде все, что можно макросами, и довести до ума в индизайне это.