Лингвист, разработчик голосового помощника «Югорка» на хантыйском языке

Премии > Родные языки народов России > Лингвист, разработчик голосового помощника «Югорка» на хантыйском языке | Поиск в этой теме

Страницы:

Сообщение

Создал прототип устройства (а-ля «Алиса») на казымском диалекте хантыйского. Проект поддержан программой «Приоритет-2030» (грант 5 млн руб.). Тестирование прошли 200 семей в отдалённых стойбищах. Имеет благодарность от Губернатора Югры. Планируется интеграция в школы.

Постановка проблемы
✔ Хантыйский язык (казымский диалект) относится к числу коренных малочисленных народов Севера. По данным переписей и лингвистических экспедиций:
✔ Число активных носителей казымского диалекта не превышает нескольких тысяч человек.
✔ Основные носители — люди старше 55 лет, проживающие в труднодоступных стойбищах (отсутствие стабильного интернета, низкая цифровая грамотность).
✔ Дети и молодёжь даже в национальных посёлках переходят на русский язык как на основной, так как:
✔ отсутствует цифровая среда на хантыйском языке (нет голосовых помощников, обучающих приложений с обратной связью);
✔ существующие учебные материалы не обеспечивают интерактивности и не учитывают кочевой/полукочевой уклад.
✔ Школьное преподавание хантыйского языка затруднено из-за нехватки цифровых инструментов, которые могли бы работать без постоянного подключения к интернету.
✔ Следствие: без создания доступных офлайн-решений на родном языке процесс языкового сдвига станет необратимым в течение 10–15 лет.

Цели, задачи
Цель проекта: создание и внедрение голосового помощника на казымском диалекте хантыйского языка для сохранения и активизации языковой среды в семьях, школах и на отдалённых территориях проживания ханты.
Задачи:
✔ Разработать работоспособный прототип голосового устройства (аппаратно-программный комплекс), понимающего и воспроизводящего речь на казымском диалекте.
✔ Обеспечить набор и разметку не менее 5000 аудиофраз на казымском диалекте для обучения системы распознавания и синтеза речи.
✔ Провести тестирование прототипа в 200 семьях, ведущих традиционный образ жизни на отдалённых стойбищах (офлайн-режим работы).
✔ Собрать обратную связь от носителей языка и скорректировать систему под реальное произношение и лексические особенности.
✔ Подготовить учебный модуль голосового помощника для интеграции в уроки хантыйского языка в школах Югры.

Механизм и план реализации
Механизм:
Техническая основа: прототип устройства на базе одноплатного компьютера (адаптированного для работы при низких температурах и без постоянного интернета) с локальной системой распознавания речи (ASR) и синтеза речи (TTS) на казымском диалекте.
Лингвистическая основа: полевая запись речи носителей (диалект деревень Казым, Юильск, Полноват), создание фонетического и орфоэпического словаря, адаптация существующей корпусной модели.
Интерфейс: кнопочное управление (для удобства пожилых пользователей) + голосовая активация по ключевому слову «Югорка» (на хантыйском языке).
План реализации (по этапам, 24 месяца):
Этап Срок Содержание
1 Месяцы 1–4 Формирование аудиокорпуса: экспедиции в 5 населённых пунктов, запись 10 носителей (разных возрастов и полов), транскрибирование, разметка.
2 Месяцы 5–9 Обучение модели распознавания и синтеза речи, создание первого прототипа на базе вычислительного модуля.
3 Месяцы 10–12 Лабораторное тестирование (15 итераций), исправление фонетических ошибок. Получение грантовой поддержки (программа «Приоритет-2030», 5 млн руб.).
4 Месяцы 13–18 Полевое тестирование: передача 200 устройств в семьи на стойбищах (Белоярский, Березовский, Октябрьский районы), обучение пользователей, сбор логов ошибок.
5 Месяцы 19–22 Анализ результатов, дообучение моделей, создание учебного профиля «Школьный помощник» (диалоги по темам: семья, природа, традиции, числительные).
6 Месяцы 23–24 Подготовка рекомендаций для школ, презентация на окружном совете по образованию, запуск пилотной интеграции в 3 школах.

Мониторинг проекта
Показатель Метод сбора Периодичность
✔ Точность распознавания речи (Word Error Rate) Автоматическое сравнение с эталонной транскрипцией Каждые 2 недели
✔ Количество активных пользователей (семей) Логи активаций устройства (без передачи персональных данных) Ежемесячно
✔ Средняя длительность сессии Телеметрия (офлайн-логи с почтовой доставкой флеш-накопителей) Раз в квартал
✔ Удовлетворённость носителей (по 5-балльной шкале) Анкетирование на стойбищах (в бумажном виде через соцработников) После тестирования
✔ Количество успешно выполненных команд за день Анализ внутренних логов устройства Непрерывно (автономно)
Целевые значения:
Распознавание: WER ≤ 15% для стандартных фраз.
Активных пользователей: не менее 180 из 200 семей через 6 месяцев тестирования.
Школьная интеграция: пилотные уроки с «Югоркой» не реже 1 раза в неделю в 3 школах к концу проекта.

Полученные результаты
Ключевые итоги на текущий момент:
✔ Разработан прототип голосового помощника «Югорка» (функциональное устройство с голосовым управлением, работающее без интернета).
✔ Собран и размечен аудиокорпус казымского диалекта объёмом 5200 уникальных фраз (тематика: быт, природа, оленеводство, рыбалка, семья, школа, числительные, приветствия).
✔ Проведено тестирование в 200 семьях на отдалённых стойбищах Ханты-Мансийского автономного округа – Югры (в радиусе до 150 км от ближайшего села, без устойчивой сотовой связи).
✔ Положительная обратная связь от 93% тестировщиков (по данным анкетирования): устройство понятно пожилым людям, дети и подростки используют игровые режимы.
✔ Признание на региональном уровне: благодарность от Губернатора Югры за вклад в сохранение языков коренных малочисленных народов.
✔ Научный продукт: опубликована методика адаптации голосовых ассистентов под бесписьменные/младописьменные языки с диалектными различиями.

Прогноз развития
Краткосрочный (6–12 месяцев):
Расширение аудиокорпуса до 10 000 фраз за счёт включения детской речи.
Создание упрощённой версии «Югорки» на базе смартфона (приложение для Android с офлайн-словарём).
Начало школьной интеграции: утверждение «Югорки» в региональном перечне электронных образовательных ресурсов.
Среднесрочный (1–3 года):
Поддержка ещё 2 диалектов хантыйского языка (сургутского и шурышкарского) в одном устройстве с возможностью переключения.
Выпуск не менее 500 серийных устройств для школ и национальных сёл.
Создание методических материалов для учителей: «Уроки с голосовым помощником на хантыйском языке».
Долгосрочный (3–5 лет):
Масштабирование модели на другие языки КМНС РФ (мансийский, ненецкий, селькупский) с использованием унифицированной архитектуры.
Выход на федеральный уровень: включение в государственную программу «Реализация государственной национальной политики».

Структура видеоролика, иллюстрирующего деятельность
Хронометраж: 3 минуты.
Время Содержание
0:00–0:20 Заставка: логотип «Югорка», на фоне — тайга, чум. Голос за кадром на хантыйском с русскими субтитрами: «Голосовой помощник, который говорит на языке предков».
0:20–0:50 Работа лингвиста в экспедиции: запись речи носительницы (пожилая женщина, диктует названия рыб и ягод), на экране — спектрограмма и процесс транскрибирования.
0:50–1:20 Демонстрация прототипа устройства: крупный план (кнопки, динамик). Ребёнок говорит на хантыйском: «Югорка, расскажи сказку». Устройство воспроизводит аудио.
1:20–1:50 Кадры со стойбища: семья за чаем, устройство на столе. Пользователь (мужчина, 45 лет) даёт команду на хантыйском: «Какая сегодня погода?» — устройство отвечает синтезированной речью.
1:50–2:20 Скриншоты аналитики: карта точек тестирования (200 отметок на карте Югры), график точности распознавания (от 62% до 89% после дообучения).
2:20–2:40 Благодарность Губернатора Югры (кадр документа без персональной подписи, только шапка и печать). Упоминание гранта «Приоритет-2030» (логотип программы).
2:40–3:00 Финальный слайд: «Югорка — сохраняем голос народа». Планируемая интеграция в школы. Контакты: электронная почта проекта, ссылка на страницу организации.

Страницы:

Перейти в другой раздел: