[ID CC2021] Распознавание математических формул

mvlad123

Топикстартер
10 лет на форуме
Сообщения
167
Реакции
94
Добрый день!
Хочу представить новый сервис
который распознает текст и математические формулы любого уровня сложности.
Кириллический текст распознается только с печатного оригинала, латинские символы - как с печатного, так и с рукописного, то есть формулы очень уверенно распознаются с любого типа источника (так как в математических формулах на 90% идет латиница).
Необходимость такого сервиса возникла в связи с задачей оцифровки книг по физике в очень большом количестве. Перебирать - дорого и очень долго. Попытки использовать FineReader или же InftyReader не дали ничего.
И FineReader и InftyReader распознают только простые формулы в одну строку, в общем те, которые можно отнести просто к тексту, а многоэтажные, да еще интегралы от дробей и корней - увы, не выходит.
То, что получилось реализовать в сервисе распознает просто все. Иногда выдает ошибку лишь, когда в пределах интегрирования стоят многострочные выражения или же корни от дробей. Обычные же формулы даже на половину страницы распознаются очень хорошо.
В общем, лучший вариант определиться, работает ли это для Вас, если возникнет задача - попробовать на своих образцах. Пожалуйста, давайте запрос на указанный на сайте email и бесплатно протестируйте на своих образцах. Будет желание, пишите, что у Вас получилось, а что - нет.
Для моих задач пока подходит. Например, решебник по физике на английском в 400 страниц с 9000 формулами удалось набрать за 3 дня, из которых 2 часа работы с сервисом, а остальное время на правку текста и формул. Увы, идеала, так, чтобы нажал кнопку и получил готовый результат для печати, я еще не встречал.
В качестве примера привожу изображение-оригинал, а также распознанный текст (отбил ниже **************), который выдал сервис (не правил вообще ничего, просто скопировал с блока "Распознанный текст" и все). Скорируйте его в Word через буфер обмена, выделите весь текст в Word-е, а далее в Word в меню MathType выберите команду Toggle TeX и увидите, как распознались формулы.
Всем пользователям MT-Script в ближайшее время будут разосланы тестовые ключи.
Сервис находится в развитии. Я сам пользуюсь не только этим вариантом, но и самописной программкой, где я сам выделяю, какие формулы распознавать через сервис. Текст распознаю в FineReader, а затем на место, где должны быть формулы автоматом размещаю распознанные формулы. Дело в том, что FineReader все-таки лучше справляется с текстом, а сервис еще лучше, просто идеально распознает формулы, когда ему скармливаешь только формулу. В общем есть разные варианты. Будет интерес, всегда открыт к взаимовыгодному сотрудничеству и дальнейшему развитию.
А сервис представлен сейчас именно в варианте все включено, хотя мне самому объединение нейронки по распознаванию формул и технологии FineReader по работе с текстом кажется более эффективным, хотя и с большей ручной работой.
Спасибо, что прочитали этот текст!

*************СКОПИРУЙТЕ ЭТО И ВОССТАНОВИТЕ ФОРМУЛЫ************************

$\mathbf{1 9 1}$
2.14 We have, $\frac{d p}{d h}=-\rho g($ See 2.13 $)$
But, from $\quad p=C \rho^{n}($ where $C$ is, $a$ const $) \frac{d p}{d \rho}=C n \rho^{n-1}$
We have from gas low $p=\rho \frac{R}{M} T,$ so using (2)
$C \rho^{n}=\rho \frac{R}{M} \cdot T, \quad \text { or } \quad T=\frac{M}{R} C \rho^{n-1}$
Thus,
$\frac{d T}{d \rho}=\frac{M}{R} \cdot C(n-1) \rho^{n-2}$
But,
$\frac{d T}{d h}=\frac{d T}{d \rho} \cdot \frac{d \rho}{d p} \cdot \frac{d p}{d h}$
So, $\quad \frac{d T}{d h}=\frac{M}{R} C(n-1) \rho^{n-2} \frac{1}{C n \rho^{n-1}}(-\rho g)=\frac{-M g(n-1)}{n R}$
2.15 We have, $d p=-\rho g d h$ and from gas law $\rho=\frac{M}{R T} p$
Thus
$\frac{d p}{p}=-\frac{M g}{R T} d h$
Integrating, we get
or,
$\int_{p_{0}}^{p} \frac{d p}{p}=-\frac{M g}{R T} \int_{0}^{h} d h \text { or, } \ln \frac{p}{p_{0}}=-\frac{M g}{R T} h$
(where $p_{0}$ is the pressure at the surface of the Earth.)
$p=p_{0} e^{-M g h / R T}$
[Under standard condition, $p_{0}=1 \mathrm{~atm}, T=273 \mathrm{~K}$ Pressure at a height of $5 \mathrm{~atm}=1 \times e^{-28 \times 9.81 \times 5000 / 8314 \times 273}=0.5 \mathrm{~atm}$
Pressure in a mine at a depth of $5 \mathrm{~km}=1 \times e^{-28 \times 9.81 \times(-5000) 8314 \times 273}=2 \mathrm{~atm} .$ ]
2.16 We have $d p=-\rho g d h$ but from gas law $p=\frac{\rho}{M} R T$,
Thus $d p=\frac{d \rho}{M} R T$ at const. temperature
So,
$\frac{d \rho}{\rho}=\frac{g M}{R T} d h$
Integrating within limits $\int_{\rho_{n}}^{\rho} \frac{d \rho}{\rho}=\int_{0}^{h} \frac{g M}{R T} d h$

*************************************
 

Вложения

  • tests_Страница_1.jpg
    tests_Страница_1.jpg
    132.1 КБ · Просм.: 147

mvlad123

Топикстартер
10 лет на форуме
Сообщения
167
Реакции
94
Да, еще одно замечание. По этой же технологии можно будет восстанавливать формулы в Word-е, которые перестали открываться. По цене шоколадки восстановить сбившуюся работу при условии невозможности восстановить редактируемость формул иными способами, как мне кажется, очень полезная штука. Как Вы думаете?
Почему я спрашиваю? У меня таких проблем, слава Богу, не было, но встречались на сайтах такие вопросы. Просто то, что нужно лично мне в моих проектах, я реализую и предоставляю общественности... может быть, еще кому пригодится. О других потребностях хотелось бы услышать, чтобы сформировать так сказать "дорожную карту" развития сервиса, если это вообще кому-то нужно.
Если у Вас были какие-то проблемы, которые требовали перенабора формул и здесь бы здорово помог сервис уверенного распознавания формул, пожалуйста, напишите о них.

Кстати, набор текста с картинки в предыдущем моем сообщении занял 10 секунд.

Спасибо.
 
Последнее редактирование:

mvlad123

Топикстартер
10 лет на форуме
Сообщения
167
Реакции
94
1.
Расширен функционал распознавания формул. Добавлена программка MTRecognition.exe, в которой Вы на своем компьютере сами выбираете на изображении страницы, какую формулу распознать. Она распознается и сохраняется в отдельном текстовом файле в формате TXT, а на изображении появляется тег #112#, соответствующий номеру распознанной формулы. Таким образом на странице остается только текст с тегами. Такие страницы далее Вами собираются в PDF и успешно распознаются, например, в FineReader. При этом сохраняется оформление текста и таблиц. А на месте формул будут теги #112#. Остается лишь воспользоваться предоставленным на сервисе скриптом на Visual Basic (дан в виде простого текста), чтобы получить на месте #112# код формул в формате TeX.
Плюс такого метода - качественное распознавание формул ЛЮБОГО уровня сложности + качество распознавания текста от FineReader.
Минус - больше ручной работы по выбору того, что следует распознавать в качестве формул, а что оставить для FineReader.

2.
Также 2 апреля будет добавлена возможность распознавания формул, которые превратились просто в рисунки, прямо в Word-е. Для этого потребуется использовать прилагаемый скрипт на Visual Basic (с открытым кодом) и интерфейсную программу, которая передает данные на сервис. В результате формулы в Word-е можно восстановить за пару кликов.
Все это уже протестировано и работает, остается написать manual и выложить на сайт. (Уже пишу...)
В ближайшее время планирую записать видео документацию и выложить на YouTube (через пару-тройку дней).