vbatushev
20 лет на форуме
- Сообщения
- 2 242
- Реакции
- 1 227
Для Go есть такая библиотека gooxml · Baliance. То есть по идее можно считать DOCX, распарсить и преобразовать в некий другой формат, тот же Tagged Text.
Есть библиотека и для Python — python-docx. Как бы тоже самое можно замутить.
Минусы библиотеки gooxml — лицензирование для коммерческого использования.
Плюсы — не нужны никакие дополнительные установки вроде Python-а и зависимостей, после написания утилиты будет один-единственный исполняемый файл (можно на компилить и для виндоса, и для мака, и для линакса, скажем, чтобы на серваке крутилось).
Минусы библиотеки python-docx — нужно иметь Python и тянуть к себе саму библиотеку.
Плюсы — либеральная лицензия OSI Approved :: MIT License.
Для себя бы я делал на Go, ибо быстро и можно сделать многопоточным, чтобы перемалывать толпу файлов.
Есть библиотека и для Python — python-docx. Как бы тоже самое можно замутить.
Минусы библиотеки gooxml — лицензирование для коммерческого использования.
Плюсы — не нужны никакие дополнительные установки вроде Python-а и зависимостей, после написания утилиты будет один-единственный исполняемый файл (можно на компилить и для виндоса, и для мака, и для линакса, скажем, чтобы на серваке крутилось).
Минусы библиотеки python-docx — нужно иметь Python и тянуть к себе саму библиотеку.
Плюсы — либеральная лицензия OSI Approved :: MIT License.
Для себя бы я делал на Go, ибо быстро и можно сделать многопоточным, чтобы перемалывать толпу файлов.