Российскую технологию распознавания речи признали лучшей в мире

Разработчики должны были предложить решение для так называемой проблемы коктейльной вечеринки — ситуации, при которой на речь нескольких говорящих накладывается шум окружающей обстановки

Технология сегментирования аудиопотока (диаризации) и распознавания речи, созданная группой компаний ЦРТ (входит в экосистему Сбербанка), признана лучшей на международном конкурсе CHiME Speech Separation and Recognition Challenge (CHiME-6). Об этом в четверг сообщила пресс-служба группы компаний ЦРТ.

”Целью участников CHiME-6 было создание системы распознавания речи, которая “прослушает” записи и выдаст полную расшифровку с наименьшим количеством ошибок. Российская технология получила высокое признание за распознавание английской речи с нескольких микрофонов в условиях естественной обстановки. Группа ЦРТ показала наилучшие результаты тестов при выполнении самой сложной задачи конкурса, значительно превзойдя конкурентов, и заняла первое место”, — говорится в сообщении.

Разработчики должны были предложить решение для так называемой проблемы коктейльной вечеринки (cocktail party problem) — ситуации, при которой на речь нескольких говорящих накладывается шум окружающей обстановки, как это происходит на типичной вечеринке. Такие условия мешают машинному интеллекту распознавать речь говорящих, что является барьером для развития технологий в этой области. К финалу соревнования конкурсанты должны были представить систему распознавания речи, способную выделять реплики каждого диктора из общего аудиопотока. Записи для конкурса были сделаны во время проведения двадцати ужинов на реальных вечеринках, где люди готовили, ели, мыли посуду и общались — на фрагментах записей одновременно говорили от двух до четырех человек, а их речь до 20% перекрывалась фоновым шумом.

”Качественное распознавание речи разных дикторов, перебиваемой шумами, позволяет выводить сервисы из разряда инновационных в повседневное применение, совершенствуя бизнес и упрощая нашу жизнь. Так, качественная обработка несегментированной речи позволит, к примеру, вести грамотное протоколирование совещаний, где говорят сразу несколько спикеров, а интеллектуальная речевая аналитика позволит автоматизировать работу контактных центров, <…> а значит - существенно оптимизировать работу современных контакт-центров ретейла, e-commerce и телекома. Признание группы ЦРТ в этом международном конкурсе не просто наша личная победа, но знаковое событие для всей индустрии, и мы рады выводить решение задач в области распознавания речи, над которыми работают сильнейшие команды со всего мира, на новый уровень, достойно представляя свои ключевые компетенции на глобальном рынке”, — считает генеральный директор группы компаний ЦРТ Дмитрий Дырмовский, чьи слова приводятся в сообщении.

Российские участники создали уникальный алгоритм выделения речевых сегментов для каждого говорящего человека и разработали комплекс из нескольких нейронных сетей разной архитектуры, которые различали разных дикторов с помощью бимформинга — эффекта нацеливания микрофонов на конкретного диктора. Кроме группы ЦРТ, в конкурсе участвовали научные команды со всего мира, среди которых команда компании Toshiba, а также представители лидирующих в разработке технологий распознавания речи университетов США, Китая, Чехии и других стран.

”Задача CHiME — обеспечить обмен опытом сильнейших команд со всего мира и продвинуть вперед решение глобальных задач в области распознавания речи. И мы приветствуем достижения группы компаний ЦРТ в этой области”, — цитирует пресс-служба участника организационного комитета CHiME Challenge Джона Баркера.

О разработчике

Группа компаний ЦРТ (входит в экосистему Сбербанка) — глобальный разработчик интеллектуальных речевых технологий, распознавания лиц. Выступает технологическим экспертом в области искусственного интеллекта и машинного обучения. Технологии выявления подделок голоса и распознавания речи от группы ЦРТ занимают лидирующие позиции в мировых рейтингах NIST, ASVspoof Challenge, VOiCES, CHiME Challenge.

Источник: tass.ru

Опубликовано 7 мая 2020 г.

Бибоева Нелли

Менеджер платформы дистанционного обучения EduTerra.PRO

Ваш комментарий