Сергей Мельников: Точность распознавания речи доходит до 90%
Марина Мякишева
Что происходит на довольно закрытом рынке СРР, для кого разрабатываются технологии будущего, как происходит "конверсия" речевых решений и когда человек сможет поговорить с компьютером на равных, корреспонденту CNews рассказал советник директора компании "Стэл - компьютерные системы", руководитель управления перспективных технологий Сергей Мельников.
CNews: Как развивается рынок современных речевых технологий в России? Когда можно будет говорить о его зрелости?
Сергей Мельников: Пока российский рынок систем распознавания речи и других высокотехнологичных решений в речевой области невелик. Мы пробовали его оценить. Так, по нашим данным, его объем составляет порядка 10 млн долларов в год. Но рост совершенно очевиден. Динамика составляет порядка 15-20%. Мировой рынок растет, конечно, быстрее: в прошлом году его объем составил примерно 3 млрд долларов, а темпы роста приблизились к 25%.
CNews: Что вы можете сказать о структуре рынка СРР в России?
Сергей Мельников: Практически все предлагаемые на рынке технологии имеют двойное назначение. То есть задачи, которые решаются в речевой области, имеют "открытое" применение - рыночное, и "закрытое" - для тех или иных силовых ведомств.
Это особенность не только российского, но и мирового рынка. Так, например, значительная доля научных исследований по речевой тематике в США финансируется Министерством обороны.
Чтобы упорядочить и как-то улучшить взаимодействие между основными игроками на отечественном рынке несколько лет назад был создан консорциум "Российские речевые технологии". К сожалению, в таком виде, как сейчас, он уже не может решать задачи, стоящие перед сообществом разработчиков речевых технологий. В ближайшее время мы планируем провести мероприятия по реорганизации консорциума. Грамотная работа этой организации поможет консолидировать, упорядочить разработки и избежать ненужного параллелизма, когда разные компании занимаются дублирующими разработками для различных ведомств. Кроме того, реорганизованный консорциум "Российские речевые технологии" поможет более четко и прозрачно распределять государственные средства, выделяемые на разработки в области речевых технологий.
CNews: Какие задачи в области СРР сейчас наиболее востребованы?
Сергей Мельников: Как правило, все задачи СРР делят на два направления - анализ и синтез речи. Если задачи синтеза в той или иной степени можно считать почти решенными, то аналитическое направление имеет очень широкое поле для дальнейшего развития. К аналитическим задачам относят проблемы идентификации, шумоочистки, распознавания языков, оценки психофизического состояния человека. Но самая главная задача СРР - распознавание слитной речи.
Сергей Мельников: Во многих сферах бизнеса конкурентов у нас просто нет
Так, например, задача шумоочистки - одна из известнейших, классических задач. Наилучшие результаты, по нашему мнению, здесь у "Центра речевых технологий" из Санкт-Петербурга. Именно их специалисты занимались восстановлением записей действий экипажа с затонувшей подлодки "Курск". В области шумоочистки много работ, связанных именно с военной тематикой. В танке, в самолете речь всегда сопровождается большими шумами - имеющиеся решения позволяют очистить от них речь и сделать ее более понятной.
Очень важной и интересной по-прежнему остается задача идентификации дикторов. И здесь можно говорить о двояком использовании этой технологии. К примеру, наш комплекс "Голос" позволяет автоматически идентифицировать дикторов как в открытом потоке сообщений, так и по записям. Это нужно силовым ведомствам для поиска сообщений террористов или других потенциально опасных лиц. Гражданское применение это технология находит в системах контроля доступа в помещение, компьютерную сеть и так далее.
В области речевых технологий существует и противоположная задача: когда голос диктора нужно не распознать, а наоборот - исказить таким образом, чтобы максимально затруднить идентификацию. С этой целью компания "Стэл" разработала продукт "Голос-аноним", который в перспективе может использоваться в судах для защиты свидетелей. То есть эта разработка предназначена исключительно для ведомственных структур. Мы планируем выпускать его как аппаратное решение. Мировых аналогов этого продукта множество, но большая их часть - обычные "игрушки", говорить о высоком качестве в этом случае не приходится. Определить, изменен ли голос, достаточно просто даже на слух. Нашей задачей было не только полное изменение голоса диктора, но и придание ему максимально естественного звучания. И эту задачу мы решили.
Задача оценки психофизиологического состояния говорящего равно интересна как для гражданских, так и для военных структур. С помощью этой технологии можно выявить потенциально опасного человека. Она также позволяет осуществлять дистанционный контроль, например, за состоянием водителя на транспортных линиях.
Очень важной для открытого рынка можно назвать задачу улучшения и измерения качества голоса. Здесь у нашей компании тоже есть решение "Голос-качество". Мы все имеем дело с IP-телефонией, качество передаваемого голоса там, безусловно, плавает, и не только от звонка к звонку, но даже в пределах одной сессии. Сейчас качество измеряется, по сути, на слух, мы же можем определить качество переданной информации на уровне формант и фонем в голосе, что позволит отделить оценку качества каналов связи от человеческого фактора. Таким образом, оценка качества голоса приобретет большую объективность, что позволит операторам работать эффективнее.
В группе идентификации можно также выделить задачу идентификации языка, на котором произносятся фразы. Тут тоже можно говорить о военном и открытом применении этого решения. Для силовых ведомств продукт может использоваться для языкового анализа сообщений. Открытая сторона вопроса тут ясна: существуют большие международные call-центры, куда поступают звонки о заказе билетов, продуктов и так далее на всевозможных языках. Разумно было бы вместо оператора поставить некое железное устройство, которое распознавало бы язык звонящего, переадресовывая его именно тому оператору, который этим языком владеет. К новому году мы собираемся выпустить подобный продукт. Он будет называться "Голос-полиглот". Продукт уже практически готов, мы провели предварительные испытания, сейчас ему предстоит массовое тестирование.
CNews: Это первый продукт такого рода на российском рынке?
Сергей Мельников: Не совсем, есть конкурентное решение от одной из компаний, но оно основано на других принципах. У нас другая, можно сказать, значительно более современная технология, позволяющая, к примеру, достаточно просто добавлять в систему новый язык. Сейчас в нашу систему заведено порядка десяти языков - европейских и азиатских. Потенциальным потребителям, естественно, хотелось бы добавлять новые языки. И наш способ включения их в систему крайне прост. Владельцу продукта нужны лишь примерно сто часов записей на этом языке. Их не нужно размечать, не нужно делать никакого лингвистического анализа, подбирать тексты, достаточно лишь загрузить записи в систему, и через несколько часов новый язык будет добавлен. Это безусловное конкурентное преимущество нашего продукта.
CNews: Вы планируете выводить его на международный рынок?
Сергей Мельников: Да, мы будем вести работу по продвижению этого устройства за рубеж. Это задача не очень простая, поскольку нужно учитывать интересы наших силовых ведомств, ведь мы связаны лицензионными ограничениями. Но мы понимаем, что наш продукт будет весьма конкурентоспособен на мировом рынке. Нам известны всего лишь несколько продуктов на мировом рынке, которые можно назвать конкурентными. И по некоторым параметрам наша разработка их превосходит, так что перспективы у "Голоса-полиглота" очень хорошие.
CNews: Что вы можете сказать о решении глобальной задачи СРР - созданию полноценного продукта по распознаванию речи. Как сейчас с этим обстоят дела?
Сергей Мельников: Как вы знаете, задача по распознаванию отдельно произносимых слов уже практически решена. Но распознавание слитной речи по-прежнему представляется крайне сложным.
По самым лучшим оценкам, которые сейчас получены в мире, процент распознавания достигает 80% - это для структурированных языков, вроде английского или испанского. Для русского языка задача представляется еще более трудной, поскольку в нем нет фиксированного порядка слов, он менее формализован. Поэтому пока о полном распознавании речи можно говорить как о цели на данном этапе недостижимой. Однако уже сейчас существуют системы распознавания, которые "заточены" под конкретные профессиональные области, там точность распознавания может достигать 90%.
CNews: Разработки в сфере речевых технологий по-прежнему являются приоритетными для вашей компании? В каких еще областях лежат ваши интересы?
Сергей Мельников: В целом, да, можно сказать, что СРР остаются для нас одним из самых важных направлений. Мы тесно сотрудничаем в области речевых разработок с Московским Лингвистическим Университетом и с Вычислительным центром Академии наук. Силами наших сотрудников читается курс "Современные речевые технологии" в МИРЭА.
О компании
Российская компания "Стэл - Компьютерные Системы" основана в 1991 году. Основную часть коллектива компании составляют специалисты различных отраслей оборонного комплекса нашей страны.
Компания специализируется в области разработки и применения передовых информационных технологий для широкого класса задач. Она является ведущим российским поставщиком технологий и решений для построения систем видеоконференцсвязи. Также компанией "Стэл - Компьютерные Системы" разработаны концепции региональных сетей телемедицины и типовые проекты телемедицинских центров. Компания предлагает комплекс программ STELLUS и программно-аппаратный комплекс на базе видеотерминалов STEL GV/PV в качестве набора инструментальных средств для задач дистанционного обучения
С 1995 года компания "Стэл - Компьютерные Системы" в сотрудничестве со специалистами МГЛУ и ВЦ РАН занимается задачами в области современных речевых технологий, такими как распознавание речи, идентификация дикторов и языков, а также примыкающими к этой проблематике задачами.
Компания входит в Ассоциацию Документальной Электросвязи и в Ассоциацию Защиты Информации.
Второе важное направление нашей работы - системы дистанционного обучения STELLUS. Скоро должна выйти седьмая версия этого продукта, которая будет соответствовать стандарту SCORM, который был разработан при участии Министерства обороны США и используется для подготовки военнослужащих. Для нас это имеет принципиальное значение, поскольку мы ведем проект по построению системы дистанционного обучения в интересах министерства внутренних дел. Основой системы является программная разработка нашей компании. Система объединит около 90 учебных заведений МВД. Процесс развертывания системы для силового ведомства имеет свою специфику, в первую очередь связанную с тем, что на этапе подготовки продукт подвергается многократным проверкам на соответствие требованиям к информационной безопасности. STELLUS представляет собой не коробочное решение, что является его преимуществом. При помощи системы осуществляется не только обучение, но и проводятся занятия по повышению квалификации, переподготовки по каким-то актуальным вопросам. Помимо учебных заведений МВД эту программу используют и гражданские вузы. Она установлена и работает во Всесоюзном заочном финансово-экономическом институте, в Казахском университете путей сообщения и многих других.
CNews: Ваша компания давно занимается видеоконференцсвязью, используются ли наработанные технологии в системах дистанционного обучения?
Сергей Мельников: Да, это одно из наших конкурентных преимуществ - возможность совместного использования дистанционного обучения и видеоконференцсвязи. Обычно мы сразу предлагаем заказчикам совместное решение: система обучения плюс видеоконференцсвязь. Такое решение стоит во Всесоюзном заочном финансово-экономическом институте. Конечно, тут есть некоторые сложные моменты. Дело в том, что видеоконференция в каналах интернета живет не очень устойчиво: канал свободен - все прекрасно, занят - начинаются потери. Регулировать это весьма затруднительно. Но в рамках локальной сети видеоконференция "живет" отлично. Поэтому любую лекцию можно просто записать, сжать и выложить на сервер. Студент может зайти туда, скачать и посмотреть, если возможность он-лайн просмотра у него отсутствует. То есть дистанционная форма обучения через сеть обладает дополнительными преимуществами: учащийся может получать знания не только в обычной текстовой форме, но и видеоматериалы, пользоваться возможностями видеокоференцсвязи.
CNews: Как вы считаете, разработки в сфере речевых технологий смогут найти применение в системах дистанционного обучения?
Сергей Мельников: меется. К примеру, с помощью речевых технологий можно определить сдает экзамен именно этот студент или другой. Достаточно попросить его что-то сказать и сравнить с высказыванием, хранящимся в базе. Это у нас пока не реализовано, идея на начальном этапе. Но, именно благодаря тому, что все разработки компании "Стэл" могут дополнять друг друга, обеспечивая синергетический эффект, мы видим, что во многих сферах конкурентов у нас просто нет.
|