Два сервиса распознавания речи и перевода в текст онлайн. Обзор технологий распознавания голоса и способы его применения Распознавание голоса

Фонограммы, записанные с использованием цифровых диктофонов «Гном Р» и «Гном 2М» удовлетворяют требованиям, предъявляемым к фонограммам, поступающим для проведения фоноскопических экспертиз, и пригодны для идентификации личности по голосу и речи...

Первый заместитель начальника

Диктофон «Гном 2М» неоднократно применялся для записи конференций и семинаров в сложной акустической обстановке, записанные фонограммы отличаются высоким качеством. Встроенная функция шумоочистки позволяет улучшить качество воспроизведения фонограмм...

Ведущий инженер ИПК БНТУ

Институт повышения квалификации и переподготовки кадров БНТУ

За срок эксплуатации «Гном Р» зарекомендовал себя с положительной стороны. Высокое качество записи при минимальных габаритах, большая продолжительность звукозаписи, оперативная передача накопленной информации из встроенной памяти диктофона в ПЭВМ...

Старший офицер 3-го отдела седьмого управления

Генерального штаба Вооруженных Сил РБ

Фонограммы, записанные с использованием системы «Незабудка II», удовлетворяют требованиям, предъявляемым к многоканальным цифровым комплексам регистрации речевых сообщений по телефонным каналам связи, и пригодны для идентификации личности по голосу и речи...

Начальник центра

Государственный экспертно-криминалистический центр

Неограниченное количество оповещаемых абонентов, большое количество одновременно обрабатываемых заданий сделает «Рупор» незаменимым помощником в работе сотрудников кредитного отдела филиала № 524 ОАО «АСБ Беларусбанка...

Заместитель директора – начальник центра розничного бизнеса

Филиал № 524 ОАО «АСБ Беларусбанк»

Система автоматического оповещения «Рупор» работала по аналоговым телефонным линиям и опробовалась с целью оповещения личного состава. Система обслуживала 100 абонентов, работала стабильно и не требовала постоянного технического обслуживания...

Исполняющий обязанности военного комиссара

Военный комиссариат г. Минска

Система записи «Незабудка II» обеспечивает прием голосовых сообщений жильцов, качественную запись их на компьютер, возможность прослушивания записанных сообщений и занесения информации в текстовую базу данных. Система оповещения «Рупор» производит автоматическое оповещение должников...

Начальник отдела АСУ

УП «ЖРЭО Советского района г. Минска»

Система «Рупор» обеспечивает оповещение большого количества абонентов в сжатые сроки в соответствии с установленными параметрами с предоставлением отчёта по проведённому оповещению, работает надёжно, полностью соответствует предъявленным к ней требованиям...

Директор департамента розничного бизнеса

В мобильную систему записи и документирования речи «Протокол» входит цифровой диктофон «Гном 2М» и компьютерный транскрайбер «Цезарь». Диктофон «Гном 2М» позволяет получать качественную запись совещаний и заседаний, а транскрайбер «Цезарь» значительно увеличивает скорость работы по переводу звуковой информации в текстовый документ...

Ведущий специалист

Институт государства и права Академии наук РБ

Установление личности по голосу

В современном мире все больший интерес проявляется к биометрическим технологиям и биометрическим системам идентификации личности, и этот интерес вполне понятен.

Биометрическая идентификация основана на принципе распознавания и сравнения уникальных характеристик человеческого организма. Основными источниками биометрической характеристики человека являются отпечатки пальцев, радужная оболочка и сетчатка глаз, голос, лицо, подпись, походка и др. Эти биометрические идентификаторы принадлежат человеку и являются его неотъемлемой частью. Их нельзя где-то забыть, оставить, потерять.

Для биометрической идентификации можно применять различные характеристики и черты человека. В данной статье дается краткий обзор, как работают биометрические технологии на примере системы распознавания личности по голосу.

Ценность голосовых технологий для биометрики была неоднократно доказана. Однако только высокое качество реализации автоматических систем распознавания диктора способно реально внедрить такие технологии в практику. Подобные системы уже существуют. Они находят применение в системах безопасности, в банковских технологиях, электронной коммерции, правоохранительной практике.

Использование систем распознавания диктора является наиболее естественным и экономичным способом решения проблем неавторизованного доступа к компьютеру или системам передачи информации, а также проблем многоуровневого контроля доступа к сетевым или информационным ресурсам.

Системы распознавания диктора могут решать две задачи: определять личность из заданного, ограниченного списка людей (идентификация личности) или подтверждать личность говорящего (верификация личности). Идентификация и верификация личности по голосу являются направлениями развития технологии обработки речи.

Рис. 1 – Распознавание диктора

Речь – это сигнал, возникающий в результате преобразований, происходящих на нескольких различных уровнях: семантическом, лингвистическом, артикуляционном и акустическом. Как известно, источником речевого сигнала служит речевой тракт, который возбуждает звуковые волны в упругой воздушной среде. Под речевым трактом обычно подразумевается орган речеобразования, расположенный над голосовыми связками. Как видно из рисунка 2 речевой тракт состоит из гортаноглотки, ротоглотки, ротовой полости, носоглотки и носовой полости.


Рис. 2 – Строение речевого тракта человека

Голос человека возникает при прохождении воздуха из легких через трахею в гортань, мимо голосовых связок, и, далее в глотку и рот и носовую полость. Когда звуковая волна проходит через речевой тракт, ее частотный спектр изменяется под действием колебаний речевого тракта. Колебания речевого тракта называются формантами. Системы верификации диктора обычно распознают отличительные признаки речевого сигнала, которые отражают индивидуальную особенность мышечной активности речевого тракта личности.

Рассмотрим более подробно систему верификации диктора. Верификация личности по голосу – это определение, является ли говорящий тем, кем он представляется. Пользователь, ранее зарегистрированный в системе, произносит свой идентификатор, который представляет собой регистрационный номер, парольное слово или фразу. При текстозависимом распознавании парольное слово известно системе, и она «просит» пользователя произнести его. Парольное слово отображается на экране, и человек произносит его в микрофон. При текстонезависимом распознавании произносимое пользователем парольное слово не совпадает с эталонным, т.е. в качестве пароля пользователь может произносить произвольное слово или фразу. Система верификации принимает речевой сигнал, обрабатывает его и решает, принять или отклонить предъявляемый пользователем идентификатор. Система может сообщить пользователю о недостаточной степени совпадения его голоса с имеющимся эталоном и попросить произнести дополнительную информацию, чтобы принять окончательное решение.


Рис. 3 – Взаимодействие человека с системой

Схема взаимодействия человека с системой верификации личности по голосу изображена на рисунке 3. Пользователь произносит в микрофон предлагаемый ему системой номер для того, чтобы система проверила, соответствует ли его голос эталону, хранящемуся в базе данных системы. Как правило, существует компромисс между точностью распознавания голоса и размером речевого образца, т.е. чем длиннее речевой образец, тем выше точность распознавания. Помимо голоса в микрофон могут попадать эхо и посторонние шумы.

Существует ряд факторов, которые могут способствовать возникновению ошибок верификации и идентификации, например:

  • неправильное произнесение или прочтение парольного слова или фразы;
  • эмоциональное состояние диктора (стресс, произнесение парольной фразы под принуждением и пр.);
  • сложная акустическая обстановка (шум, помехи, радиоволны и пр.);
  • разные каналы связи (использование разных микрофонов во время регистрации диктора и верификации);
  • простудные заболевания;
  • естественные изменения голоса.

Некоторые из них могут быть устранены, например, путем использования более качественных микрофонов.

Процесс верификации личности по голосу состоит из 5 этапов: прием речевого сигнала, параметризация, или выделение отличительных признаков голоса, сравнение полученного образца голоса с ранее установленным эталоном, принятие решения «допуск/отказ», обучение, или обновление эталонной модели. Схема верификации представлена на рисунке 4.


Рис. 4 – Схема верификации

Во время регистрации новый пользователь вводит свой идентификатор, а затем произносит несколько раз ключевое слово или фразу, таким образом создаются эталоны. Число повторов ключевой фразы может варьироваться для каждого пользователя, а может быть постоянным для всех.

Для того чтобы компьютер мог обработать речевой сигнал, звуковая волна преобразовывается в аналоговый, а затем в цифровой сигнал.

На этапе выделения признаков голоса речевой сигнал разбивается на отдельные звуковые кадры, которые впоследствии преобразуются в цифровую модель. Эти модели называют «голосовыми отпечатками». Вновь полученный «голосовой отпечаток» сравнивается с ранее установленным эталоном. Для распознавания личности говорящего самыми важными являются наиболее яркие отличительные признаки голоса, которые позволили бы системе с высокой точностью распознавать голос каждого конкретного пользователя.

Наконец, система принимает решение допустить или отказать пользователю в допуске в зависимости от совпадения или несовпадения его голоса с установленным эталоном. Если система неверно сопоставила предъявленный ей голос с эталоном, то возникает ошибка «ложный допуск» (FA). Если же система не опознала биометрический признак, который соответствует имеющемуся в ней эталону, то говорят об ошибке «ложный отказ» (FR). Ошибка ложного допуска создает брешь в системе безопасности, а ошибка ложного отказа приводит к уменьшению удобства пользования системой, которая иногда не распознаёт человека с первого раза. Попытка снизить вероятность возникновения одной ошибки приводит к более частому возникновению другой, поэтому в зависимости от требований к системе выбирается определённый компромисс, т.е. устанавливается порог принятия решения.

Заключение

Методы голосовой идентификации применяют и на практике. Технология идентификации по голосу компании позволяет организовать регламентированный доступ пользователей по заданной парольной фразе к ресурсам предприятия, телефонным и WEB-сервисам. Использование технологии позволяет существенно повысить защищенность систем и, в то же время, упростить процесс идентификации пользователя. Технология Voice Key обеспечит высокую надежность и стабильность работы системы, а также поможет повысить качество обслуживания клиентов.

Все материалы, размещенные на даннном сайте, разрешены к публикации и печати на других ресурсах и печатных издания только при наличии письменного разрешения компании ООО "Речевые Технологии"

В нашем современном, насыщенном событиями мире, скорость работы с информацией является одним из краеугольных камней достижения успеха. От того как насколько быстро мы получаем, создаём, перерабатываем информацию зависит наша рабочая производительность и продуктивность, а значит и наш непосредственный материальный достаток. Среди инструментов, способных повысить наши рабочие возможности, важное место занимают программы для перевода речи в текст, позволяющие существенно увеличить скорость набора нужных нам текстов. В данном материале я расскажу, какие существуют популярные программы для перевода аудио голоса в текст, и каковы их особенности.

Приложение для перевода аудио голоса в текст – требования к системе

Большинство ныне существующих программ для перевода голоса в текст имеют платный характер, предъявляя ряд требований к микрофону (в случае, когда программа предназначена для компьютера). Крайне не рекомендуется работать с микрофоном, встроенным в веб-камеру, а также размещённым в корпусе стандартного ноутбука (качество распознавания речи с таких устройств находится на довольно низком уровне). Кроме того, довольно важно иметь тихую окружающую обстановку, без лишних шумов, способных напрямую повлиять на уровень распознавания вашей речи.

При этом большинство таких программ способны не только трансформировать речь в текст на экране компьютера, но и использовать голосовые команды для управления вашим компьютером (запуск программ и их закрытие, приём и отправление электронной почты, открытие и закрытие сайтов и так далее).

Программа преобразования речи в текст

Перейдём к непосредственному описанию программ, способных помочь в переводе речи в текст.

Программа «Laitis»

Бесплатная русскоязычная программа для распознавания голоса «Laitis » обладает хорошим качеством понимания речи, и, по мнению её создателей, способна практически полностью заменить пользователю привычную клавиатуру. Программа хорошо работает и с голосовыми командами, позволяя с их помощью выполнять множество действий по управлению компьютером.

Для своей работы программа требует обязательного наличия на ПК скоростного интернета (в работе программы используются сетевые сервисы распознавания голоса от «Google» и «Yandex»). Возможности программы позволяют, также, управлять с помощью голосовых команд и вашим браузером, для чего необходима установка на веб-навигатор специального расширения от «Laitis» (Chrome, Mozilla, Opera).

«Dragon Professional» — расшифровка аудиозаписей в текст

На момент написания данного материала цифровой англоязычный продукт « Dragon Professional Individual » является одним из мировых лидеров по качеству распознаваемых текстов. Программа понимает семь языков (с русским пока работает лишь мобильное приложение «Dragon Anywhere» на и ), обладает высоким качеством распознавания голоса, умеет выполнять ряд голосовых команд. При этом данный продукт имеет исключительно платный характер (цена за основную программу составляет 300 долларов США, а за «домашнюю» версия продукта «Dragon Home » покупателю придётся выложить 75 американских долларов).

Для своей работы данный продукт от «Nuance Communications» требует создания своего профиля, который призван адаптировать возможности программы под специфику вашего голоса. Кроме непосредственной диктовки текста, вы можете обучить программу выполнять ряд команд, тем самым делая своё взаимодействие с компьютером ещё более конгруэнтным и удобным.

«RealSpeaker» — сверхточный распознаватель речи

Программа для трансформации голоса в текст «RealSpeaker » кроме стандартных для программ такого рода функций, позволяет задействовать возможности веб-камеры вашего ПК. Теперь программа не только считывает аудио составляющую звука, но и фиксирует движение уголков губ говорящего, тем самым более корректно распознавая выговариваемые им слова.


«RealSpeaker» считывает не только аудио, но и визуальную составляющую процесса речи

Приложение поддерживает более десяти языков (в том числе и русский), позволяет распознавать речь с учётом акцентов и диалектов, позволяет транскрибировать аудио и видео, даёт доступ к облаку и многое другое. Программа условно бесплатна, за платную версию придётся заплатить вполне реальные деньги.

«Voco» — программа быстро переведёт голос в текстовый документ

Ещё один преобразователь голоса в текст – это платный цифровой продукт «Voco », цена «домашней» версии которого ныне составляет около 1700 рублей. Более продвинутые и дорогие варианты данной программы – «Voco.Professional» и «Voco.Enterprise» имеют ряд дополнительных возможностей, одной из которых является распознавание речи из имеющихся у пользователя аудиозаписей.

Среди особенностей «Voco» отмечу возможность дополнения словарного запаса программы (ныне словарный запас программы включает более 85 тысяч слов), а также её автономную работу от сети, позволяющую не зависеть от вашего подключения к Интернету.


Среди плюсов «Voco» — высокая обучаемость программы

Приложение включается довольно просто — достаточно дважды нажать на клавишу «Ctrl». Для активации голосового ввода в «Gboard» достаточно нажать и удерживать пробел

Приложение абсолютно бесплатно, поддерживает несколько десятков языков, среди которых и русский.

Заключение

Выше мной были перечислены программы для перевода вашей аудио записи голоса в текст, описан их общий функционал и характерные особенности. Большинство подобных продуктов обычно имеет платный характер, при этом ассортимент и качество русскоязычных программ качественно уступает англоязычным аналогам. Особое внимание при работе с подобными приложениями рекомендую уделить вашему микрофону и его настройкам – это имеет важное значение в процессе распознавания речи, ведь плохой микрофон может свести на нет даже самый качественный софт рассмотренного мной типа.


Вы знали, что технологии распознавания голоса существуют уже 50 лет? Полвека эту задачу решают ученые и только в последние несколько десятилетий к ее решению подключились IT-компании. Результатом последнего года работы стал новый уровень точности распознавания и массовое использование технологии в повседневной и профессиональной жизни.

Технология в жизни

Каждый день мы пользуемся поисковыми системами. Мы ищем, где пообедать, как добраться до нужного места или пытаемся найти значение неизвестного термина. Технология распознавания голоса, которую используют, например, Google или Яндекс.Навигатор помогает нам тратить на поиск минимум времени. Это просто и удобно.

В профессиональной среде технология помогает упростить работу в несколько раз. Например, в медицине речь врача преобразуется в текст истории болезни и рецепт сразу на приеме. Это экономит время на занесение информации о пациенте в документы. Встроенная в бортовой компьютер автомобиля система реагирует на запросы водителя, например, помогает найти ближайшую заправку. Для людей с ограниченными возможностями актуально внедрение систем в программное обеспечение бытовых приборов для управления ими с помощью голоса.

Развитие систем распознавания голоса

Идея распознавания речи выглядела многообещающе во все времена. Но уже на этапе распознавания чисел и самых простых слов исследователи столкнулись с проблемой. Суть распознавания сводилась к построению акустической модели, когда речь представлялась как статистическая модель, которая сравнивалась с готовыми шаблонами. Если модель соответствовала шаблону, то система принимала решение о том, что команда или число распознано. Рост словарей, которые могла распознать система, требовал увеличения мощностей вычислительных систем.

Г рафики роста производительности компьютеров и снижения ошибки распознавания в системах распознавания голоса англоязычной речи
Источники:
Herb Sutter. The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software
https://minghsiehee.usc.edu/2017/04/the-machines-are-coming/



Сегодня алгоритмы распознавания дополнились языковыми моделями, которые описывают структуру языка, например, типичную последовательность слов. Обучение системы происходит на реальном речевом материале.

Новым этапом в развитии технологии стало применение нейронных сетей. Система распознавания устроена таким образом, что каждое новое распознавание влияет на точность распознавания в будущем. Система становится обучаемой.


Качество систем распознавания голоса

Положение дел в развитии технологии сегодня выражается целью: от распознавания речи к пониманию. Для этой цели выбран и ключевой показатель – процент ошибок в распознавании. Стоит сказать, что такой показатель применяется и в распознавании речи одного человека другим. Мы пропускаем часть слов, принимая во внимания другие факторы, например, контекст. Это позволяет нам понимать речь даже без понимания значений отдельных слов. Для человека показатель ошибки распознавания равен 5,1%.

Другими сложностями в обучении системы распознавания речи пониманию языка будут эмоции, неожиданная смена темы разговора, использование сленга и индивидуальные особенности говорящего: темп речи, тембр, произношение звуков.


Мировые игроки рынка

Несколько мировых игроков рынка платформ распознавания голоса хорошо известны. Это Apple, Google, Microsoft, IBM. Эти компании обладают достаточными ресурсами для исследований и обширной базой для обучения собственных систем. Например, Google использует для обучения миллионы поисковых запросов, которые пользователи с удовольствием задают сами. С одной стороны, это повышает точность распознавания, а с другой – накладывает ограничения: система распознает речь отрезками по 15 секунд и рассчитывает на «вопрос широкого профиля». Ошибка распознавания системы Google – 4,9 %. У IBM этот показатель равен 5,5 %, а у Microsoft – 6,3 % на конец 2016 года.

Платформу для применения в профессиональных областях разрабатывает американская компания Nuance. Среди областей применения: медицина, юриспруденция, финансы, журналистика, строительство, безопасность, автомобильная сфера.

В России Центр речевых технологий – крупнейший производитель профессиональных средств распознавания голоса и синтезирования речи. Решения компании внедрены в 67 странах мира. Основные направления работы: голосовая биометрия – идентификация по голосу; речевые системы самообслуживания – IVR, применяемые в колл-центрах; синтезаторы речи. В США российская компания работает под брендом SpeechPro и проводит исследования по распознаванию англоязычной речи. Результаты распознавания входят в ТОП-5 результатов по величине ошибки.


Ценность распознавания голоса в маркетинге

Цель маркетинга – изучение потребностей рынка и организация бизнеса в соответствии с ними для увеличения прибыльности и эффективности. Голос интересует маркетологов в двух случаях: если говорит клиент и если говорит сотрудник. Поэтому объект изучения для маркетологов и сфера применения технологии – телефонные звонки.

Сегодня аналитика телефонных переговоров развита плохо. Звонки не только нужно записывать, но и прослушивать, оценивать и только потом анализировать. Если организовать запись несложно – это может любая виртуальная АТС или сервис коллтрекинга, – то организовать прослушивание звонков сложнее. Эту задачу решает или отдельный человек в компании, или руководитель колл-центра. Прослушивание звонков также отдают на аутсорсинг. В любом случае погрешность в оценке звонков – проблема, которая ставит под сомнение результаты аналитики и принятые на их основе решения.

Представляем четыре способа преобразовать речь в текст, используя бесплатные программы и приложения.

Преобразование речи в текст непосредственно в Word

С помощью Microsoft Dictate вы можете диктовать и даже переводить текст прямо в Word.

  • Скачайте и установите бесплатную программу Microsoft Dictate .
  • Затем откройте – в нем появится вкладка Dictation. Кликнув на нее, вы увидите значок микрофона с командой Start.
  • Рядом находится выбор языка. Выберите русский язык и начните запись. Старайтесь произносить слова максимально четко, и они появятся прямо в документе.

Превращаем речь в текст с помощью Speak a Message

Бесплатная программа Speak A Message записывает произнесенный текст, а затем расшифровывает его. Основные языки программы - английский, немецкий, испанский и французский, но есть и мультиязычная версия.

  • Установите программу и нажмите кнопку «Запись». Произнесите весь текст, а затем кликните «Стоп».
  • Под кнопкой записи рядом с записанными файлами вы найдете функцию «Транскрипция» - «Речь в текст».
  • Скопируйте готовый текст и вставьте его в нужный текстовый редактор. Но не забудьте проверить то, что записала программа — иногда она допускает ошибки.

Преобразуем речь в текст без специальных программ

В операционной системе Windows 8 и 10 вам не требуется дополнительное программное обеспечение для преобразования голоса в текст.

  • Нажмите на клавишу Windows и введите «Распознавание речи». Затем откройте совпадающий с запросом результат и следуйте указаниям программы.
  • После завершения настройки запустите приложения и диктуйте прямо в документе Word. Для этого просто нажмите на кнопку микрофона и начните говорить.

Преобразование речи в текст через приложение

Если вы хотите диктовать тексты и получать их в напечатанном виде прямо на ходу, используйте специальные приложения.

  • Android и iOS уже интегрировали в свои системы функцию распознавания речи. Когда вы открываете приложение для создания заметок и начинаете набирать текст, используйте значок микрофона, чтобы запустить распознавание голоса.
  • Есть и другие приложения для аналогичной цели, например Dragon Dictation, доступное для Android и iOS.