ИИ переводит устные математические формулы в текст
«Решение позволяет человеку произнести формулу или целое предложение с математическими выражениями, а на выходе получить структурированный текст в формате LaTeX. Это стандарт, который широко используется в научных статьях, учебных материалах и цифровых редакторах, таких как Overleaf», — говорится в сообщении.
Модель ИИ была разработана специалистами Института AIRI, «Иннополиса», МТУСИ, НИУ ВШЭ и МГУ на базе созданного в России открытого набора данных, подготовленного с участием математиков-добровольцев. Он содержит в себе более 66 тыс. человеческих аудиозаписей и 571 тыс. синтетических, а также около 12 тыс. уникальных математических предложений и 10,7 тыс. отдельных уравнений на русском и английском языках.
«Наш набор данных может быть полезен сообществу далеко не только для “перевода” формул в текстовый формат LaTeX. Благодаря своему составу и качеству разметки он может использоваться в самых разных задачах, включая автоматическое распознавание речи, определение языка, голосовую биометрию, защиту от подделки голоса и другие направления, где важно анализировать аудиосигнал и речевые особенности», — пояснил научный сотрудник AIRI Дмитрий Корж, чьи слова приводит пресс-служба института.
Как отмечают ученые, ключевой проблемой в этой области долгое время было отсутствие качественных открытых данных для обучения ИИ-моделей. Для сбора данных использовалась платформа разметки: людей просили озвучивать формулы, а синтетические аудиозаписи помогли существенно расширить выборку. Такое сочетание живой и сгенерированной речи сделало модели более устойчивыми к разным голосам, акцентам и особенностям произношения.
Благодаря этому разработка российских ученых превзошла уже существующие системы ИИ в качестве «перевода» устных формул в текст более чем на 36%, что открывает перспективы по созданию специализированных помощников для математиков, которые упростят оформление математических исследований и публикаций.


