«Внимание: все примеры решений заданий, разделов заявок являются авторскими разборами и носят обучающий характер. Перед сдачей настоятельно рекомендуем адаптировать текст под свой проект. Прямое копирование без изменений может быть распознано системой антиплагиата конкурса».
Лингвист, разработчик голосового помощника «Югорка» на хантыйском языке
Премии > Родные языки народов России > Лингвист, разработчик голосового помощника «Югорка» на хантыйском языке | Поиск в этой теме
Страницы: | 1 | 2 |
Сообщение
Создал прототип устройства (а-ля «Алиса») на казымском диалекте хантыйского. Проект поддержан программой «Приоритет-2030» (грант 5 млн руб.). Тестирование прошли 200 семей в отдалённых стойбищах. Имеет благодарность от Губернатора Югры. Планируется интеграция в школы.
Постановка проблемы
✔ Хантыйский язык (казымский диалект) относится к числу коренных малочисленных народов Севера. По данным переписей и лингвистических экспедиций:
✔ Число активных носителей казымского диалекта не превышает нескольких тысяч человек.
✔ Основные носители — люди старше 55 лет, проживающие в труднодоступных стойбищах (отсутствие стабильного интернета, низкая цифровая грамотность).
✔ Дети и молодёжь даже в национальных посёлках переходят на русский язык как на основной, так как:
✔ отсутствует цифровая среда на хантыйском языке (нет голосовых помощников, обучающих приложений с обратной связью);
✔ существующие учебные материалы не обеспечивают интерактивности и не учитывают кочевой/полукочевой уклад.
✔ Школьное преподавание хантыйского языка затруднено из-за нехватки цифровых инструментов, которые могли бы работать без постоянного подключения к интернету.
✔ Следствие: без создания доступных офлайн-решений на родном языке процесс языкового сдвига станет необратимым в течение 10–15 лет.
✔ Хантыйский язык (казымский диалект) относится к числу коренных малочисленных народов Севера. По данным переписей и лингвистических экспедиций:
✔ Число активных носителей казымского диалекта не превышает нескольких тысяч человек.
✔ Основные носители — люди старше 55 лет, проживающие в труднодоступных стойбищах (отсутствие стабильного интернета, низкая цифровая грамотность).
✔ Дети и молодёжь даже в национальных посёлках переходят на русский язык как на основной, так как:
✔ отсутствует цифровая среда на хантыйском языке (нет голосовых помощников, обучающих приложений с обратной связью);
✔ существующие учебные материалы не обеспечивают интерактивности и не учитывают кочевой/полукочевой уклад.
✔ Школьное преподавание хантыйского языка затруднено из-за нехватки цифровых инструментов, которые могли бы работать без постоянного подключения к интернету.
✔ Следствие: без создания доступных офлайн-решений на родном языке процесс языкового сдвига станет необратимым в течение 10–15 лет.
Цели, задачи
Цель проекта: создание и внедрение голосового помощника на казымском диалекте хантыйского языка для сохранения и активизации языковой среды в семьях, школах и на отдалённых территориях проживания ханты.
Задачи:
✔ Разработать работоспособный прототип голосового устройства (аппаратно-программный комплекс), понимающего и воспроизводящего речь на казымском диалекте.
✔ Обеспечить набор и разметку не менее 5000 аудиофраз на казымском диалекте для обучения системы распознавания и синтеза речи.
✔ Провести тестирование прототипа в 200 семьях, ведущих традиционный образ жизни на отдалённых стойбищах (офлайн-режим работы).
✔ Собрать обратную связь от носителей языка и скорректировать систему под реальное произношение и лексические особенности.
✔ Подготовить учебный модуль голосового помощника для интеграции в уроки хантыйского языка в школах Югры.
Цель проекта: создание и внедрение голосового помощника на казымском диалекте хантыйского языка для сохранения и активизации языковой среды в семьях, школах и на отдалённых территориях проживания ханты.
Задачи:
✔ Разработать работоспособный прототип голосового устройства (аппаратно-программный комплекс), понимающего и воспроизводящего речь на казымском диалекте.
✔ Обеспечить набор и разметку не менее 5000 аудиофраз на казымском диалекте для обучения системы распознавания и синтеза речи.
✔ Провести тестирование прототипа в 200 семьях, ведущих традиционный образ жизни на отдалённых стойбищах (офлайн-режим работы).
✔ Собрать обратную связь от носителей языка и скорректировать систему под реальное произношение и лексические особенности.
✔ Подготовить учебный модуль голосового помощника для интеграции в уроки хантыйского языка в школах Югры.
Механизм и план реализации
Механизм:
Техническая основа: прототип устройства на базе одноплатного компьютера (адаптированного для работы при низких температурах и без постоянного интернета) с локальной системой распознавания речи (ASR) и синтеза речи (TTS) на казымском диалекте.
Лингвистическая основа: полевая запись речи носителей (диалект деревень Казым, Юильск, Полноват), создание фонетического и орфоэпического словаря, адаптация существующей корпусной модели.
Интерфейс: кнопочное управление (для удобства пожилых пользователей) + голосовая активация по ключевому слову «Югорка» (на хантыйском языке).
План реализации (по этапам, 24 месяца):
Этап Срок Содержание
1 Месяцы 1–4 Формирование аудиокорпуса: экспедиции в 5 населённых пунктов, запись 10 носителей (разных возрастов и полов), транскрибирование, разметка.
2 Месяцы 5–9 Обучение модели распознавания и синтеза речи, создание первого прототипа на базе вычислительного модуля.
3 Месяцы 10–12 Лабораторное тестирование (15 итераций), исправление фонетических ошибок. Получение грантовой поддержки (программа «Приоритет-2030», 5 млн руб.).
4 Месяцы 13–18 Полевое тестирование: передача 200 устройств в семьи на стойбищах (Белоярский, Березовский, Октябрьский районы), обучение пользователей, сбор логов ошибок.
5 Месяцы 19–22 Анализ результатов, дообучение моделей, создание учебного профиля «Школьный помощник» (диалоги по темам: семья, природа, традиции, числительные).
6 Месяцы 23–24 Подготовка рекомендаций для школ, презентация на окружном совете по образованию, запуск пилотной интеграции в 3 школах.
Механизм:
Техническая основа: прототип устройства на базе одноплатного компьютера (адаптированного для работы при низких температурах и без постоянного интернета) с локальной системой распознавания речи (ASR) и синтеза речи (TTS) на казымском диалекте.
Лингвистическая основа: полевая запись речи носителей (диалект деревень Казым, Юильск, Полноват), создание фонетического и орфоэпического словаря, адаптация существующей корпусной модели.
Интерфейс: кнопочное управление (для удобства пожилых пользователей) + голосовая активация по ключевому слову «Югорка» (на хантыйском языке).
План реализации (по этапам, 24 месяца):
Этап Срок Содержание
1 Месяцы 1–4 Формирование аудиокорпуса: экспедиции в 5 населённых пунктов, запись 10 носителей (разных возрастов и полов), транскрибирование, разметка.
2 Месяцы 5–9 Обучение модели распознавания и синтеза речи, создание первого прототипа на базе вычислительного модуля.
3 Месяцы 10–12 Лабораторное тестирование (15 итераций), исправление фонетических ошибок. Получение грантовой поддержки (программа «Приоритет-2030», 5 млн руб.).
4 Месяцы 13–18 Полевое тестирование: передача 200 устройств в семьи на стойбищах (Белоярский, Березовский, Октябрьский районы), обучение пользователей, сбор логов ошибок.
5 Месяцы 19–22 Анализ результатов, дообучение моделей, создание учебного профиля «Школьный помощник» (диалоги по темам: семья, природа, традиции, числительные).
6 Месяцы 23–24 Подготовка рекомендаций для школ, презентация на окружном совете по образованию, запуск пилотной интеграции в 3 школах.
Мониторинг проекта
Показатель Метод сбора Периодичность
✔ Точность распознавания речи (Word Error Rate) Автоматическое сравнение с эталонной транскрипцией Каждые 2 недели
✔ Количество активных пользователей (семей) Логи активаций устройства (без передачи персональных данных) Ежемесячно
✔ Средняя длительность сессии Телеметрия (офлайн-логи с почтовой доставкой флеш-накопителей) Раз в квартал
✔ Удовлетворённость носителей (по 5-балльной шкале) Анкетирование на стойбищах (в бумажном виде через соцработников) После тестирования
✔ Количество успешно выполненных команд за день Анализ внутренних логов устройства Непрерывно (автономно)
Целевые значения:
Распознавание: WER ≤ 15% для стандартных фраз.
Активных пользователей: не менее 180 из 200 семей через 6 месяцев тестирования.
Школьная интеграция: пилотные уроки с «Югоркой» не реже 1 раза в неделю в 3 школах к концу проекта.
Показатель Метод сбора Периодичность
✔ Точность распознавания речи (Word Error Rate) Автоматическое сравнение с эталонной транскрипцией Каждые 2 недели
✔ Количество активных пользователей (семей) Логи активаций устройства (без передачи персональных данных) Ежемесячно
✔ Средняя длительность сессии Телеметрия (офлайн-логи с почтовой доставкой флеш-накопителей) Раз в квартал
✔ Удовлетворённость носителей (по 5-балльной шкале) Анкетирование на стойбищах (в бумажном виде через соцработников) После тестирования
✔ Количество успешно выполненных команд за день Анализ внутренних логов устройства Непрерывно (автономно)
Целевые значения:
Распознавание: WER ≤ 15% для стандартных фраз.
Активных пользователей: не менее 180 из 200 семей через 6 месяцев тестирования.
Школьная интеграция: пилотные уроки с «Югоркой» не реже 1 раза в неделю в 3 школах к концу проекта.
Полученные результаты
Ключевые итоги на текущий момент:
✔ Разработан прототип голосового помощника «Югорка» (функциональное устройство с голосовым управлением, работающее без интернета).
✔ Собран и размечен аудиокорпус казымского диалекта объёмом 5200 уникальных фраз (тематика: быт, природа, оленеводство, рыбалка, семья, школа, числительные, приветствия).
✔ Проведено тестирование в 200 семьях на отдалённых стойбищах Ханты-Мансийского автономного округа – Югры (в радиусе до 150 км от ближайшего села, без устойчивой сотовой связи).
✔ Положительная обратная связь от 93% тестировщиков (по данным анкетирования): устройство понятно пожилым людям, дети и подростки используют игровые режимы.
✔ Признание на региональном уровне: благодарность от Губернатора Югры за вклад в сохранение языков коренных малочисленных народов.
✔ Научный продукт: опубликована методика адаптации голосовых ассистентов под бесписьменные/младописьменные языки с диалектными различиями.
Ключевые итоги на текущий момент:
✔ Разработан прототип голосового помощника «Югорка» (функциональное устройство с голосовым управлением, работающее без интернета).
✔ Собран и размечен аудиокорпус казымского диалекта объёмом 5200 уникальных фраз (тематика: быт, природа, оленеводство, рыбалка, семья, школа, числительные, приветствия).
✔ Проведено тестирование в 200 семьях на отдалённых стойбищах Ханты-Мансийского автономного округа – Югры (в радиусе до 150 км от ближайшего села, без устойчивой сотовой связи).
✔ Положительная обратная связь от 93% тестировщиков (по данным анкетирования): устройство понятно пожилым людям, дети и подростки используют игровые режимы.
✔ Признание на региональном уровне: благодарность от Губернатора Югры за вклад в сохранение языков коренных малочисленных народов.
✔ Научный продукт: опубликована методика адаптации голосовых ассистентов под бесписьменные/младописьменные языки с диалектными различиями.
Прогноз развития
Краткосрочный (6–12 месяцев):
Расширение аудиокорпуса до 10 000 фраз за счёт включения детской речи.
Создание упрощённой версии «Югорки» на базе смартфона (приложение для Android с офлайн-словарём).
Начало школьной интеграции: утверждение «Югорки» в региональном перечне электронных образовательных ресурсов.
Среднесрочный (1–3 года):
Поддержка ещё 2 диалектов хантыйского языка (сургутского и шурышкарского) в одном устройстве с возможностью переключения.
Выпуск не менее 500 серийных устройств для школ и национальных сёл.
Создание методических материалов для учителей: «Уроки с голосовым помощником на хантыйском языке».
Долгосрочный (3–5 лет):
Масштабирование модели на другие языки КМНС РФ (мансийский, ненецкий, селькупский) с использованием унифицированной архитектуры.
Выход на федеральный уровень: включение в государственную программу «Реализация государственной национальной политики».
Краткосрочный (6–12 месяцев):
Расширение аудиокорпуса до 10 000 фраз за счёт включения детской речи.
Создание упрощённой версии «Югорки» на базе смартфона (приложение для Android с офлайн-словарём).
Начало школьной интеграции: утверждение «Югорки» в региональном перечне электронных образовательных ресурсов.
Среднесрочный (1–3 года):
Поддержка ещё 2 диалектов хантыйского языка (сургутского и шурышкарского) в одном устройстве с возможностью переключения.
Выпуск не менее 500 серийных устройств для школ и национальных сёл.
Создание методических материалов для учителей: «Уроки с голосовым помощником на хантыйском языке».
Долгосрочный (3–5 лет):
Масштабирование модели на другие языки КМНС РФ (мансийский, ненецкий, селькупский) с использованием унифицированной архитектуры.
Выход на федеральный уровень: включение в государственную программу «Реализация государственной национальной политики».
Структура видеоролика, иллюстрирующего деятельность
Хронометраж: 3 минуты.
Время Содержание
0:00–0:20 Заставка: логотип «Югорка», на фоне — тайга, чум. Голос за кадром на хантыйском с русскими субтитрами: «Голосовой помощник, который говорит на языке предков».
0:20–0:50 Работа лингвиста в экспедиции: запись речи носительницы (пожилая женщина, диктует названия рыб и ягод), на экране — спектрограмма и процесс транскрибирования.
0:50–1:20 Демонстрация прототипа устройства: крупный план (кнопки, динамик). Ребёнок говорит на хантыйском: «Югорка, расскажи сказку». Устройство воспроизводит аудио.
1:20–1:50 Кадры со стойбища: семья за чаем, устройство на столе. Пользователь (мужчина, 45 лет) даёт команду на хантыйском: «Какая сегодня погода?» — устройство отвечает синтезированной речью.
1:50–2:20 Скриншоты аналитики: карта точек тестирования (200 отметок на карте Югры), график точности распознавания (от 62% до 89% после дообучения).
2:20–2:40 Благодарность Губернатора Югры (кадр документа без персональной подписи, только шапка и печать). Упоминание гранта «Приоритет-2030» (логотип программы).
2:40–3:00 Финальный слайд: «Югорка — сохраняем голос народа». Планируемая интеграция в школы. Контакты: электронная почта проекта, ссылка на страницу организации.
Хронометраж: 3 минуты.
Время Содержание
0:00–0:20 Заставка: логотип «Югорка», на фоне — тайга, чум. Голос за кадром на хантыйском с русскими субтитрами: «Голосовой помощник, который говорит на языке предков».
0:20–0:50 Работа лингвиста в экспедиции: запись речи носительницы (пожилая женщина, диктует названия рыб и ягод), на экране — спектрограмма и процесс транскрибирования.
0:50–1:20 Демонстрация прототипа устройства: крупный план (кнопки, динамик). Ребёнок говорит на хантыйском: «Югорка, расскажи сказку». Устройство воспроизводит аудио.
1:20–1:50 Кадры со стойбища: семья за чаем, устройство на столе. Пользователь (мужчина, 45 лет) даёт команду на хантыйском: «Какая сегодня погода?» — устройство отвечает синтезированной речью.
1:50–2:20 Скриншоты аналитики: карта точек тестирования (200 отметок на карте Югры), график точности распознавания (от 62% до 89% после дообучения).
2:20–2:40 Благодарность Губернатора Югры (кадр документа без персональной подписи, только шапка и печать). Упоминание гранта «Приоритет-2030» (логотип программы).
2:40–3:00 Финальный слайд: «Югорка — сохраняем голос народа». Планируемая интеграция в школы. Контакты: электронная почта проекта, ссылка на страницу организации.
Страницы: | 1 | 2 |
Перейти в другой раздел:
