Выполнил студент группы 10-ОЗИ
Комков Н.Ю.

«Распознавание и синтез речи в компьютерных системах»

ВВЕДЕНИЕ

С появлением компьютеров перед человеком встал целый ряд новых проблем, связанных с передачей и хранением информации. Ввод данных всегда требовал значительных затрат времени и сил, а стремление свести эти затраты к минимуму заставляет постоянно работать над способами перевода знаковой системы, которой пользуется человек, на тот язык, ко¬торый понятен машине. Перфокарты, а потом клавиатура не до конца реши¬ли эту проблему, так как эти способы передачи информации не являются естественными для человека, а пото¬му они неэффективны, неэкономичны и, кроме того, требуют длительного освоения.
При современных масштабах рас¬пространения ПК работать с ними при¬ходится не только специалистам, вла¬деющим быстрым набором с клавиату¬ры, но и малоподготовленным пользо¬вателям, для которых ввод информа¬ции выливается в отдельную пробле¬му. Любой поработавший с современ¬ным графическим пакетом согласится, что около десятка движений мышью при создании какого-либо эффекта порой можно заменить одним словом. Таким образом, задача состоит в том, чтобы научить компьютер понимать без посредника тот язык, на котором говорят люди между собой, то есть придумать алгоритм распознавания звукового образа.
На уровне письменного текста ука¬занная проблема уже частично реше¬на: такие программы, как FineReader или CuneiForm, позволяют вводить че¬рез сканер любой напечатанный текст. Однако в данном случае мы имеем дело с уже готовым текстом, а ввод информации в процессе его со¬здания представляет определенную сложность. Пока человек не научится телепатически передавать свои мысли, единственным инструментом, слу¬жащим ему для этого, является речь, и потому каждому пользователю ПК очень хотелось бы, чтобы его помощ¬ник слышал, а главное, понимал сво¬его хозяина.

1. ИСТОРИЯ СОЗДАНИЯ И РАЗРАБОТКИ СИСТЕМ


Соединенные Штаты Америки, конец 60-х годов XX века: «Три», — сказал Валтер Кронкит (Walter Cronkite), веду¬щий научно-популярной программы «XXI век», во время демонстрации но¬вейших разработок в области распоз¬навания речи. Компьютер распознал это слово как «четыре». «Идиот», -пробормотал Валтер. «Этого слова нет в словаре», — ответил компьютер.
Хотя первые разработки в области распознавания речи относятся еще к 1920-м годам, первая система была создана только в 1952 году компанией Bell Laboratories (сегодня она входит в состав Lucent Technologies). А первая коммерческая система была создана еще позже: в 1960 году IBM объявила о разработке такой системы, но на ры¬нок программа так и не вышла.
Затем, в 1970-х годах, авиакомпания Eastern Airlines в США установила дикторозависимую систему отправки бага¬жа: оператор называл пункт назначе¬ния — и багаж отправлялся в путь. Од¬нако из-за количества допущенных ошибок система так и не прошла испы¬тательный срок.
После этого разработки в данной об¬ласти если и велись, то достаточно вяло. Даже в 1980-х годах реальных коммерческих приложений с использо¬ванием систем распознавания речи было довольно мало.

2. ОПИСАНИЕ СОВРЕМЕННОГО СОСТОЯНИЯ ВОПРОСА

Как хорошо было раньше! Позвонив в справочную, можно было по¬беседовать с девушкой-оператором и даже назначить ей свидание. Теперь же на том конце провода слышится приятный, но неживой женский голос, предлагающий набрать 1 для получения такой-то информации, 2 — для связи с тем-то, 3 — для выхода в меню и т.д. Все чаще доступ к информации контролируется системой, а не че¬ловеком. В этом есть своя логика: однообразная, неинтересная ра¬бота выполняется не человеком, а машиной. И для пользователя про¬цедура получения информации упрощается: назвал определенный набор цифр — получил нужную информацию.
Существующие технологии распознавания речи не имеют пока достаточных возможностей для их широкого использования, но на данном этапе исследований проводится интенсивный поиск возможностей употребления коротких многозначных слов (процедур) для облегчения понимания. Распознавание речи в настоящее время нашло реальное применение в жизни, пожалуй, только в тех случаях, когда используемый словарь сокращен до 10 знаков, например при обработке номеров кредитных карт и прочих кодов доступа в базирующихся на компьютерах системах, обрабатывающих передаваемые по телефону данные. Так что насущная задача - распознавание по крайней мере 20 тысяч слов естественного языка - остается пока недостижимой. Эти возможности пока недоступны для широкого коммерческого использования. Однако ряд компаний своими силами пытается использовать уже существующие в данной области науки знания.
Существующие сегодня системы распознавания речи основываются на сборе всей доступной (порой даже избыточной) информации, необходимой для распознавания слов. Исследователи считают, что таким образом задача распознавания образца речи, основанная на качестве сигнала, подверженного изменениям, будет достаточной для распознавания, но тем не менее в настоящее время даже при распознавании небольших сообщений нормальной речи, пока невозможно после получения разнообразных реальных сигналов осуществить прямую трансформацию в лингвистические символы, что является желаемым результатом.
Сегодня в этом направлении работа¬ют уже не десятки, а сотни исследова¬тельских коллективов в научных и учебных заведениях, а также в крупных корпорациях. Об этом можно судить по таким международным форумам уче¬ных и специалистов в области речевых технологий, как ICASSP, EuroSpeech, ICPHS и др. Результаты работы, на ко-торую, как у нас образно говорят, «на¬валились всем миром», трудно пере¬оценить.
Уже в течение нескольких лет голо¬совые навигаторы, или системы рас¬познавания команд, успешно применя¬ются в различных областях деятельно¬сти. Например, call-центр OmniTouch поставленный Ватикану компанией Alcatel, использовался для обслужива¬ния мероприятий, проходивших в рам¬ках празднования 2000-летия Христа. Паломник, звонивший в call-центр, из¬лагал свой вопрос, и система автома¬тического распознавания речи «выслу¬шивала» его. Если система определя¬ла, что вопрос задан по часто встреча¬ющейся теме, например о расписании мероприятий или адресах гостиниц, то включалась предварительно сделанная запись. При необходимости уточнить вопрос предлагалось речевое меню, в котором голосом надо было указать один из пунктов. Если же система рас¬познавания определяла, что предвари¬тельно записанного ответа на задан-ный вопрос нет, то происходило соеди¬нение паломника с оператором-челове¬ком.
В Швеции не так давно была откры¬та автоматическая телефонная спра¬вочная служба, использующая про¬грамму распознавания речи компании Philips. За первый месяц работы служ¬бы Autosvar, которая начала действо¬вать без официального объявления, ее услугами воспользовались 200 тыс. клиентов. Человек должен набрать оп¬ределенный номер и после ответа ав¬томатического секретаря назвать инте¬ресующий его раздел информационно¬го справочника.
Новая услуга предназначена в основ¬ном для частных клиентов, которые предпочтут ее из-за значительно мень¬шей стоимости услуг. Служба Autosvar является первой системой такого рода в Европе (в США испытания аналогич¬ной службы в компании AT&T были на¬чаты в декабре 2002 года).
Вот несколько примеров использова¬ния этой технологии в США.
Риэлтеры часто обращаются к услу¬гам компании Newport Wireless. Когда риэлтер проезжает на машине по ули¬це и видит возле какого-нибудь дома табличку «Продается», он звонит в Newport Wireless и запрашивает све¬дения о доме с таким-то номером, на¬ходящемся на такой-то улице. Автоот¬ветчик приятным женским голосом рас¬сказывает ему о метраже дома, дате постройки и владельцах. Вся эта ин¬формация находится в базе данных Newport Wireless. Риэлтерам остается только выдать сообщение клиенту. Абонентская плата — около 30 долл. в месяц.
Джули, виртуальный агент компании Amtrak, обслуживает железнодорожных пассажиров с октября 2001 года. Она по телефону сообщает о расписании поездов, об их прибытии и отправле¬нии, а также производит бронирование билетов. Джули — это продукт компа¬нии SpeechWorks Software и Intervoice Hardware. Она уже увеличила показа¬тель удовлетворенности пассажиров на 45%; 13 из 50 клиентов получают всю нужную информацию из «уст» Джули. Раньше компания Amtrak использовала тоновую систему справки, однако пока¬затель удовлетворенности тогда был меньше: всего 9 клиентов из 50.
В Amtrak признаются, что свою цену (4 млн. долл.) Джули окупила за 12-18 месяцев. Она позволила не нани¬мать на работу целую команду служа¬щих. A British Airways экономит 1,5 млн. долл. в год, используя технологию от Nuance Communications, которая тоже автоматизирует справочную службу.
Недавно Sony Computer Entertainment America представила Socom — первую видеоигру, в которой игроки могут от¬давать устные приказы бойцам из «Deploy grenades». В игре стоимостью 60 долл. применена технология ScanSoft. В прошлом году было прода¬но 450 тыс. таких игр, что сделало Socom безусловным лидером продаж компании.
Даже в медицине технология распоз¬навания голоса нашла свое место. Уже разработаны аппараты осмотра желуд¬ка, послушные голосу врача. Правда, эти аппараты, по словам специалистов, пока еще несовершенны: у них замед¬ленная реакция на приказы врача. Но все еще впереди. В Мемфисе VA Medical Center вложил 277 тыс. долл. в программу Dragon, позволяющую вра¬чам и медсестрам надиктовывать ин¬формацию в базу данных компьютера. Вероятно, скоро не нужно будет мучить¬ся, чтобы разобрать в медицинской кар¬те почерк врача.
Уже сотни крупных компаний исполь¬зуют технологию распознавания голо¬са в своей продукции или в услугах; в их числе — AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines и Verizo. По оценкам экспертов, рынок голосовой технологии достиг в 2002 го¬ду порядка 695 млн. долл., что на 10% выше, чем в 2001 году.
Авиакомпания United Airways внедри¬ла автоматическую справочную служ¬бу еще в 1999 году. Автоматические си¬стемы обработки телефонных звонков эксплуатируются такими компаниями, как инвестиционный банк Charles Schwab & Со, розничная сеть Sears, сеть супермаркетов Roebuck. Амери¬канские операторы беспроводной свя¬зи (AT&T Wireless и Sprint PCS) уже больше года используют подобные про¬граммы и предоставляют услуги голо-сового набора. И хотя сейчас лидером по количеству call-центров такого типа является Америка, в последнее время выгоду от систем распознавания речи начали осознавать и в Европе. Напри¬мер, швейцарская служба железных дорог уже предоставляет своим немец-коязычным пассажирам услуги, анало¬гичные тем, что предлагает United Airways.

3. КАК ПРОИСХОДИТ РАСПОЗНАВАНИЕ РЕЧИ

Процесс распознавания речи может быть разделен на две основные фазы: оцифровка и декодирование. На первой фазе входной аудиосигнал записывается и разбивается на фрагменты. На фазе декодирования полученная информация анализируется на основе ис¬пользования различных моделей и алгоритмов
Алгоритмы декодирования могут опираться на образцы как целых слов, так и отдельных частей слов. Самой малой частью слова является фонема, и любому языку обычно доста¬точно 40-60 фонем, чтобы описать произношение всех слов.
Наиболее точными с точки зрения распознавания являются модели, основанные на рас-познавании слов целиком. Однако они могут использоваться лишь в системах со словаря¬ми небольшого объема
Модели, основанные на фонемной структуре, являются гораздо более универсальными и в значительной мере решают проблему объема словаря.
В основу предлагаемого подхода, и это является его главной отличительной чертой, положено сложное (иерархическое и многоярусное) представление пространства акустико-фонетических признаков и фонетических единиц, задействованных в про¬цессе распознавания. Ниже в самом общем виде описываются основные этапы проце¬дуры формирования такого представления и способ его использования непосредст¬венно в процессе распознавания.
 Первоначально для речевого сигнала, который будет использоваться в процессе обучения распознающей системы, составляется детальная сегментная транскрипция. Сегменты – аллофоны фонем – описываются посредством двух основных классов стандартных фонетических признаков – автономных и иерархических. Автономные признаки (такие как назализация, напряженность, лабиализация и др.) определяют «многоярусный» характер представления акустико-фонетического пространства; они обладают относительной независимостью, поскольку их наличие или отсутствие никак не предопределяется и не ограничивается реализацией других признаков, и могут использоваться для описания фонетических единиц любого уровня иерархии. Иерархический признак, напротив, характеризуется обязательной соотнесенностью с другими классификационными признаками. Так, например, только согласный звук может быть взрывным, и только взрывной, в свою очередь, может быть реализован с носовым взрывом. В целом для подробного фонетического описания используется приблизительно 40 фонетических признаков, автономных и иерархических. Все аллофоны, затранскрибированные с помощью описанного выше набора признаков, далее используются в процессе обучения системы распознавания речи. Процесс сегментации и транскрибирования речевого сигнала может выполняться как вручную (экспертом-фонетистом), так и в (полу-)автоматическом режиме (особенно в случае использования больших объемов речевого материала), с последующей экспертной коррекцией.
 Составляется словарь системы распознавания речи, при этом каждое слово получает транскрипционное представление. За основу принимается стандартное (полностильное) произнесение, определяемое как исходная транскрипция слова (ИТС). В дальнейшем, в процессе распознавания, каждое слово будет соотноситься с имеющимися в словаре ИТС.
 Далее, в рамках разработки расширенного пространства слова, осуществляется генерация всех теоретически возможных вариантов реализации данного слова - т.н. «аллофонных сетей». При генерации аллофонных сетей используются фонетические правила модификации, которые позволяют для любой русской фонемы в любом контексте спрогнозировать все возможные модификационные сценарии. Данные модификационные правила формулировались на основе сведений, содержащихся в литературе например, 4, исследовательского опыта и лингвистических знаний экспертов, с поправкой на реальные произносительные статистики, полученные в процессе обработки имеющегося речевого материала. Модификационные правила дополняются факторами влияния, наличие или отсутствие которых в конкретной ре¬чевой реализации определяет относительные вероятности типов и степеней моди¬фикационных изменений фонетической единицы, предписанной в ИТС. Подробнее о формулировании и применении модификационных правил см. в следующем разделе.
 Как уже говорилось выше, аллофонные сети, являясь необходимым элементом фонетического описания, сами по себе не способны эффективно моделировать произносительную вариативность в рамках задачи автоматического распознавания речи. Проблема решается посредством последующей иерархизации пространства произносительной вариативности слова за счет введения определенного количества обобщающих уровней описания. Обобщение осуществляется лингвистами (экспертами-фонетистами) на основе наблюдений за звучащей речью. При использовании достаточно больших баз речевых данных возможно применение авто¬матической процедуры для обобщения аллофонных транскрипций. Обобщения могут затрагивать как один, так и несколько уровней иерархии. Не только каждая эле¬ментарная единица (фонема или один из ее аллофонов), но и практически любая обобщенная мета-единица (исключая самый верхний уровень иерархии) может в по¬тенциале входить в любое число других мета-единиц более высоких уровней, так что мета-единицы имеют различный размер, в зависимости от количества элементарных исходных единиц, входящих в их состав, и/или их обобщающей силы. При объединении фонетических единиц в мета-классы основным фактором является адекватность в отражении произносительной реальности, которая не всегда соответствует традиционным фонологическими принципам классификации фонетических единиц и признаков. Так, например, среди выделенных нами мета-единиц есть не только традиционные широкие фонетические классы, такие как “гласный”, “согласный”, “закрытый”, “мягкий” и т.д., но и некоторые нетрадиционные объединения, например, “передний” (включает гласные переднего ряда, мягкие и переднея¬зычные согласные), “губной” (лабиализованные гласные и губные согласные), “полугласный/полусогласный” и др. Кроме того, допустимыми являются мета-единицы, включающие аллофоны различных фонем и не сводимые к простой комбинации соответствующих фонем (это означало бы, что все их аллофоны входят в данную мета-единицу, а это не всегда имеет место). Аллофоны группируются также на основе контекстов их реализации, что позволяет учитывать различные типы систематической аллофонической вариативности, наблюдаемой в связной речи. В результате объединения детализованных (аллофонных), промежуточных (фонемных и аллофонных) и обобщенных (мета-фонемных) транскрипционных представлений для каждого слова генерируется иерархическая многоярусная сеть (ИМС), которая обеспечивает полноценный учет и эффективную организацию всех допустимых произносительных вариантов слова в различной степени подробности.
 Иерархическая многоярусная сеть (ИМС), в которую организованы все единицы и мета-единицы, представляет собой односвязное многоярусное дерево. На заданном уровне дерева каждая пара единиц или мета-единиц может быть либо независимой (автономной), либо иерархически связанной с высшим уровнем (иерархической). Такое структурированное представление позволяет установить меру близости для любой заданной пары звуков. На каждом узле ИМС имеется иерархическая весовая функция (ИВФ), описывающая относительную значимость добавления /отрицания данного фонетического признака для распознавания конкретной фонемы в данном слове. Весовые функции первоначально отражают статистическую информацию о влиянии чисто фонетического уровня реализации звуков (выводимую на основе фонетических модификационных правил) и имеют поправки за счет общелингвистических факторов влияния – уровня (фонетического) слова (позиция, контекст и др.), уровня лексикона (частотность слова, омонимия и т.п.), уровня произнесения (темп, стиль). Такая структура признакового описания единиц и мета-единиц позволяет достаточно просто и стандартизовано определять меру сходства между собой различных вариантов аллофонной реализации слова с учетом многих лингвистических и экстралингвистических факторов.
 В процессе обучения системы для каждой единицы и мета-единицы, включенной в ИМС, создается шаблон. Для простых единиц такие шаблоны полу¬чаются стандартным способом (например, с помощью СММ). Шаблоны для мета-единиц имеют иерархическую структуру и составляются из шаблонов простых единиц, входящих в состав данной мета-единицы. Также существует возможность создания дополнительных шаблонов непосредственно для мета-единиц.
 В процессе распознавания происходит сравнение входных данных и имеющихся ИТС. При этом с учетом значений иерархической весовой функции устанавливается мера сходства между найденной текущей реализацией распознаваемого слова и ИМС, построенной по исходной транскрипции сравниваемого слова (ИТС). Чем выше значение меры близости сравниваемых транскрипций с учетом ИВФ, тем более вероятным является распознанный вариант слова.

4. АНАЛИЗ ОСНОВНЫХ ПРОБЛЕМ


На первый взгляд все очень просто: если печатный текст распознается, то и речь тоже можно распознать, ведь компьютеру все равно, что обрабаты¬вать — звук или рисунок. Казалось бы, нужно только разделить получен¬ное изображение или звуковой поток на повторяющиеся стандартные обра¬зы, сопоставить их с используемыми нами знаками и дать им определен¬ные числовые значения, по которым их будет узнавать машина. Все бы так и было, если бы печатный текст и речь были действительно аналогич¬ными методами передачи информа¬ции, но в действительности они очень непохожи, и дело здесь вовсе не в типе носителя информации. Челове¬ческую речь скорее можно сравнить с рукописным текстом, который, как и человеческая речь, очень зависит от индивидуальных характеристик каж¬дого человека. Почерк и тембр голо¬са уникальны и практически неповто¬римы, и эти непредсказуемые в каж¬дом случае параметры серьезно за¬трудняют вычленение и систематиза¬цию знаковых образов.
Несмотря на перечисленные трудно¬сти, системы распознавания речи со-вершенствуются довольно быстро и по¬степенно начинают конкурировать с клавиатурным вводом. При этом необ¬ходимо подчеркнуть, что пока компью¬тер еще весьма далек от человека, улавливающего интонации и настрое¬ние собеседника.
Обычно человек, впервые услышав о технологии распознавании речи, по¬лагает, что для надиктовывания тек¬ста системе, распознающей речь, не требуется особых навыков, однако это не так. В отличие от клавиатурного, речевой ввод помимо основной ин¬формации несет и данные о поле го¬ворящего, о его возрасте, состоянии здоровья, настроении, отношении к передаваемой информации, а также много других дополнительных сведе¬ний. Для распознавания речи абсо¬лютное большинство этих данных - не помощь, а помеха, то есть как для разговора по телефону, так и для на-диктовывания текста системе распо¬знавания от человека требуется так или иначе приспосабливать речь к этим устройствам.
Сегодня нам кажется, что для того, чтобы эффективно пользоваться теле¬фоном, не нужны никакие навыки. Это связано с тем, что обучение происходит исподволь: с раннего возраста дети наблюдают, как взрослые разговарива¬ют по телефону, и незаметно для себя приобретают определенные умения. В подтверждение этому приведем не-большую цитату из «Почтово-телеграфного журнала» за 1902 год:
«Человек, редко прибегающий к по¬средству телефона, будет говорить или слишком громко, или слишком тихо, и лишь после некоторого навы¬ка можно научиться приспособить свою речь таким образом, чтобы она внятно передавалась телефоном. При этом, однако, не безразлично, на ка¬ком языке происходит разговор, так как некоторые языки к этому более пригодны, чем другие. Такое разли¬чие особенно ясно сказалось со вре¬мени открытия телефонного сообще¬ния между Германией и Францией. Самым неудобным из европейских языков для телефонной передачи оказывается английский язык, изоби¬лующий шипящими звуками и пред¬ставляющий при телефонировании большие затруднения, так как их очень легко смешать с обычным ме¬шающим шумом в аппаратах».
Итак, речевой ввод информации предъявляет следующие требования:
• говорить следует не слишком гром¬ко и не слишком тихо. Лучше все¬го — обычным спокойным голосом.
Повышенные интонации несут много побочных данных, вследствие чего процент распознавания падает;
• произносить слова нужно монотон¬но, но четко. Не должны проглаты¬ваться окончания, так как в отличие от человека компьютер пока не мо¬жет следить за контекстом и доду-мывать окончания;
• чем меньше посторонних шумов, тем лучше;
• надо стараться поддерживать посто¬янное расстояние до микрофона;
• в микрофон не должно попадать придыхание, поэтому микрофон нужно держать не прямо напротив рта, а приблизительно на сантиметр вправо и на сантиметр ниже.
Плохое аппаратное обеспечение тоже является источником проблем для распознавания речи, поэтому ка¬чественный микрофон и хорошая зву¬ковая плата со встроенным фильтром шумов могут значительно улучшить работу системы распознавания речи. Но когда все трудности решены, пе¬ред пользователем программы рас¬познавания звучащей речи открыва¬ются совершенно новые возможнос¬ти. Во-первых, скорость ввода любо¬го текста увеличивается в несколько раз по сравнению с вводом с клавиа¬туры; при этом затраты необходимых усилий уменьшаются, а обучение во¬обще не нужно, так как говорить мы все умеем. Во-вторых, такая програм¬ма позволяет управлять другими при¬ложениями и операционной системой в целом с помощью голосовых ко-манд, что очень облегчает и ускоря¬ет работу за компьютером.
Наша страна преподносит раз¬работчикам систем распознавания рус¬ской речи еще один сюрприз — диалек¬ты и говоры: необходимо также учиты¬вать различия в произношении в раз¬ных регионах России. Как правило, по¬добные проблемы решаются с помо¬щью предварительной настройки. А технологии, разработанные специали¬стами фирмы VoiceLock, позволяют на¬страивать программу всего за несколь¬ко минут.
Главная проблема, возникающая при разработке САРР (системы автоматического распознавания речи), заключается в вари¬ативном произношении одного и того же слова как разными людьми, так и одним и тем же человеком в различных ситуациях. Человека это не смутит, а вот компьютер — может. Кроме того, на входящий сигнал влияют многочис¬ленные факторы, такие как окружаю¬щий шум, отражение, эхо и помехи в канале. Осложняется это и тем, что шум и искажения заранее неизвестны, то есть система не может быть под¬строена под них до начала работы.
Однако более чем полувековая рабо¬та над различными САРР дала свои плоды. Практически любая современ¬ная система может работать в несколь¬ких режимах. Во-первых, она может быть зависимой или независимой от диктора. Зависимая от диктора систе¬ма требует специального обучения под конкретного пользователя, чтобы точ¬но распознавать то, что он говорит. Для обучения системы пользователю надо произнести несколько определенных слов или фраз, которые система про¬анализирует и запомнит результаты. Этот режим обычно используется в си¬стемах диктовки, когда с системой ра¬ботает один пользователь.
Дикторонезависимая система может быть использована любым пользовате¬лем без обучающей процедуры. Этот режим обычно применяется там, где процедура обучения невозможна, на¬пример в телефонных приложениях. Очевидно, что точность распознавания дикторозависимой системы выше, чем у дикторонезависимой. Однако независимая от диктора система удобнее в ис¬пользовании, например она может ра¬ботать с неограниченным кругом пользователей и не требует обучения.
Во-вторых, системы делятся на рабо¬тающие только с изолированными ко¬мандами и на способные распознавать связную речь. Распознавание речи яв¬ляется значительно более сложной за¬дачей, чем распознавание отдельно произносимых слов. Например, при пе-реходе от распознавания изолирован¬ных слов к распознаванию речи при словаре в 1000 слов процент ошибок увеличивается с 3,1 до 8,7, кроме того, для обработки речи требуется в три раза больше времени.
Режим изолированного произнесе¬ния команд наиболее простой и наиме¬нее ресурсоемкий. При работе в этом режиме после каждого слова пользова¬тель делает паузу, то есть четко обо¬значает границы слов. Системе не тре¬буется самой искать начало и конец слова в фразе. Затем система сравни¬вает распознанное слово с образцами в словаре, и наиболее вероятная мо¬дель принимается системой. Этот тип распознавания широко используется в телефонии вместо обычных DTMF-методов1.
Режим слитного произнесения бо¬лее натурален и близок пользователю. При этом предполагается, что система сама различит границы слов во фра¬зе. Однако этот режим требует гораз¬до больше системных ресурсов и па¬мяти, а точность распознавания ниже, чем в предыдущем режиме. Почему это так? Причин несколько. Во-пер¬вых, при слитной речи произнесение слов менее аккуратно, чем в «режиме PIN-кода», то есть когда каждое слово произносится отдельно. Во-вторых, скорость речи даже у одного челове¬ка разная. Он может задуматься, за¬сомневаться, забыть слово. В разго¬ворной речи часто встречаются слова-паразиты: «ну», «а», «вот». Кроме того, границы слов часто смазывают¬ся, произносятся нечетко, что затруд¬няет работу системы.
Дополнительные вариации в речи возникают также из-за произвольных интонаций, ударений, нестрогой струк¬туры фраз, пауз, повторов и т.д.
На стыке слитного и раздельного произнесения слов возник режим по¬иска ключевых слов. В этом режиме САРР находит заранее определенное слово или группу слов в общем пото¬ке речи. Где это может быть исполь¬зовано? Например, в подслушиваю¬щих устройствах, которые включают¬ся и начинают запись при появлении в речи определенных слов, или в электронных справочных. Получив запрос в произвольной форме, систе¬ма выделяет смысловые слова и, рас¬познав их, выдает необходимую ин¬формацию.
Размер используемого словаря - важная составляющая САРР. Очевид¬но, что чем больше словарь, тем выше вероятность того, что система ошибет¬ся. Во многих современных системах есть возможность или дополнять сло¬вари по мере необходимости новыми словами, или подгружать новые слова¬ри. Обычный уровень ошибок для дикторонезависимой системы с изолиро¬ванным произнесением команд — око¬ло 1% для словаря в 100 слов, 3% -для словаря в 600 слов и 10% — для словаря в 8000 слов.







1 Многочастотный код 2 из 8 (или DTMF — Dual Tone Multiple Frequency) в настоящее время является все более широко распрос¬траняющимся телефонным стандартом. Дан-ный стандарт вытесняет устаревшие импуль¬сные сигналы. Помимо набора номера дан-ный метод сигнализации находит множество других применений, таких как передача дан¬ных с небольшой скоростью по обычному те¬лефонному каналу. Примером такого ис-пользования служит дистанционное управле¬ние домашним автоответчиком или иной тех¬никой с другого телефона или использова¬ние дополнительных услуг в телефонной сети.
Кодек DTMF состоит из кодера (передат¬чика), который переводит нажатия клавиш (на телефонной клавиатуре) или цифровую информацию в двухтональные сигналы, а декодер, соответственно, определяет при¬сутствие и информационное содержание двухтональной посылки во входящем сиг¬нале.

4.1 МЕТОДЫ И МОДЕЛИ

Для успешного распознавания речи следует решить следующие задачи:
 обработку словаря (фонемный состав),
 обработку синтаксиса,
 сокращение речи (включая возможное использование жестких сценариев),
 выбор диктора (включая возраст, пол, родной язык и диалект),
 тренировку дикторов,
 выбор особенного вида микрофона (принимая во внимание направленность и местоположение микрофона),
 условия работы системы и получения результата с указанием ошибок.

Проводится процесс, первым шагом которого является первоначальное трансформирование вводимой информации для сокращения обрабатываемого объема так, чтобы ее можно было бы подвергнуть компьютерному анализу. Примером является «техника сопоставления отрезков», позволяющая сократить вводимую информацию с 50'000 до 800 битов в секунду. Следующим этапом является спектральное представление речи, получившееся путем преобразования Фурье. Результат преобразования Фурье позволяет не только сжать информацию, но и дает возможность сконцентрироваться на важных аспектах речи, которые интенсивно изучались в сфере экспериментальной фонетики. Пример такого представления см на рис. Спектральное представление достигнуто путем использования широко-частотного анализа записи.
Хотя спектральное представление речи очень полезно, необходимо помнить, что изучаемый сигнал весьма разнообразен. Разнообразие возникает по многим причинам, включая:
 различия человеческих голосов;
 уровень речи говорящего;
 вариации в произношении;
 нормальное варьирование движения артикуляторов (языка, губ, челюсти, нёба).
Для устранения негативного эффекта влияния варьирования голосового тракта на процесс распознавания речи было использовано множество методов. Первым делом рассматривалась характеристика пространства траектории артикуляторных органов, включая гласные, используемые говорящим. Наиболее удачные формы трансформации, использованной для сокращения различий, были впервые представлены Сакоя & Чибо и назывались динамичными искажениями (dynamic time warping). Техника динамичного искажения используется для временного вытягивания и сокращения расстояния между искаженным спектральным представлением и шаблоном для говорящего. Использование данной техники дало улучшении точного распознавания (~20-30%). Метод динамичного искажения используют практически все коммерчески доступные системы распознавания, показывающие высокую точность сообщения при использовании. Техника динамичного искажения представлена на рис.2. Вначале сигнал преобразовывается в спектральное представление, где определяется немногочисленный, но высокоинформативный набор параметров. Затем определяются конечные выходные параметры для варьирования голоса(следует отметить, что данная задача не является тривиальной) и производится нормализация для составления шкалы параметров, а также для определения ситуационного уровня речи. Вышеописанные измененные параметры используются затем для создания шаблона. Шаблон включается в словарь, который характеризует произнесение звуков при передаче информации говорящим, использующим эту систему. Далее в процессе распознавания новых речевых образцов (уже подвергшихся нормализации и получивших свои параметры), эти образцы сравниваются с шаблонами, уже имеющимися в словаре, используя динамичное искажение и похожие метрические измерения. В настоящее время этот метод изучается и дополняется.
Очевидно, что спектральное представление речи позволяет характеризовать особенности голосового тракта человека и способ использования его говорящим. Самый обычный способ моделирования специфических эффектов "модель-источник" - использование фильтров. Речевой аппарат моделируется с использованием источников, вызывающих резонанс, ведущий к пиковым точкам интенсивности звука в соседстве с отдельными частотами, называемыми формантами. При произнесении звуков вибрация голосовых связок является источником возбуждения, и эти короткие импульсы вызывают резонанс между голосовыми связками и губами. Так как язык, челюсть, губы, зубы и альвеолярный аппарат двигаются, размер и место этих резонансов меняются, давая возможность воспроизведения особых параметров звуков.
Возможно построить очень точную модель, также прямо смоделировать движения артикуляторов физиологически реальным путем. Использование этих моделей привели к пониманию пути, в котором происходит речевой сигнал. Но так как наблюдение над артикуляторами затруднено, остаются недостатки. Хотя природа вокального тракта очень сильно влияет на выходной сигнал речи, это не единственное ограничение, которое необходимо принимать во внимание, так как контроль над мускулами звукового тракта обусловлен сигналами моторного кортэкса мозга. Возможно все аспекты влияния акустической структуры контролируют сигналы и форму звукового выхода речи (хотя это не может быть доказано с систематической точки зрения).
Аспекты влияния акустической структуры включает в себя:
 природу сегментов индивидуального звука (гласные/согласные),
 структуру слога,
 структуру морфем (приставки, корни, суффиксы),
 лексикон,
 уровень синтаксиса фраз и предложений и
 долгосрочные ограничения речи (long-term discourse constraints) .
Ниже рассматривается влияние ограничений и способ их воздействия производство сигнала речи. Необходимо также принять во внимание тот факт, что человеческий аппарат восприятия также должен быть смоделирован, он сам по себе накладывает на процесс восприятия дополнительные ограничения. Недавно процесс восприятия был изучен с помощью метода сигнального подавления барабанных перепонок через возбуждение нервных клеток, которые образовывают примерно 30 тысяч нервных окончаний слухового нерва. Но изучение нервных окончаний способно только прояснить формирование простых синтетических гласных. Перед исследователями встало новое главное направление в области изучения воспроизводства речи, связанное с интеграцией всей физиологии восприятия человека. В настоящий момент появляются некоторые модели явлений, происходящих в ухе, и не без оснований можно ожидать дальнейшего улучшения понимания процесса распознавания речи из-за более полного понимания характеристик этого влияния.
Что касается уровня артикуляторного контроля, первым уровнем является индивидуальный фонетический сегмент, иначе говоря, - фонема. Во многих естественных языках их примерно 40. Но их набор существенно различатется. Поэтому, например, английские гласные могут быть носовыми, даже ненамеренно, в то время как во французском носализация гласных является фонетическим контрастом, и поэтому влияют на значение произносимого. Во французском языке носовая коартикуляция доминирует в гласных и существенно влияет на восприятие фонем и следовательно на главный смысл значения. Хотя все говорящие имеют одинаковый голосовой аппарат, использование его разное. Так например, использование кончика языка или прищелкивание, как в некоторых африканских языках. Ясно, что природа артикуляционных движений имеет сильное влияние на метод воспроизведения речи. Эти ограничения всегда активно используются в практических системах.
На следующем уровне лингвистической структуры фонетические сегменты сгруппированы в согласные/гласные, а следовательно и в слоги. Далее, в зависимости от роли фонетического сегмента внутри этих слогов их реализация может быть сильно изменена. Так например, начальный согласный в слоге может быть реализован как абсолютно отличный от конечной позиции. Согласные очень крепко связываются между собой, что опять же влияет на последующие ограничения. Например, в английском если начальная группа согласных состоит из трех фонем, первая фонема должна быть /s/, следующей фонемой должен быть непроизносимый согласный, третьей или /r/ или /l/, как например, в слове /scrape/ или /split/. Говорящие на родном языке избегают этих ограничений или могут активно их использовать во время процесса восприятия. Из выше приведенных примеров очевидно, что хотя и существуют сильные ограничения, влияющие на слушателя, но их сила не является решающей во время произнесения речи. То есть любое моделирование процесса восприятия может быть активным и может оказать большую помощь в понимании главного смысла.
Другой пример, показывающий необходимость применения сфокусированного поиска, может быть представлен в восприятии конечного согласного. Среди многих ключевых слов для распознавания конечного согласного существует спектральная природа шума, воспроизводимого при освобождении конечной перемычки и перехода резонанса второй форманты в гласный, следующий за этой перемычкой. Многие исследователи изучали эти влияния, и результаты их исследований показали, что ограничивающее влияние обоих вышеописанных характеристик на восприятие варьируется природой следующего гласного, и следовательно, мощная стратегия распознавания должна иметь некоторые знания о твердой позиции гласного перед конечным согласным перед тем, как будет сделано само распознавание конечного согласного. Конечные согласные дают яркий пример весьма интересного комплекса фонетики, используемого для лингвистической окраски. Например, при рассмотрении слов rapid и rabid обнаруживается 16 фонетический различий.
Кроме сегментного и слогового уровней существуют ограниченные влияния из-за структуры морфем, которые являются минимальными синтаксическими единицами языка. Они включают в себя приставки, корни, суффиксы. Можно себе представить, что это синтаксис на слоговом и на морфемном уровнях, также как и нормально распознанный синтаксис, характеризующийся способом, в котором английские слова объединяются во фразы и предложения. Возможно представить данные ограничения как последствия рассмотрения грамматики вне контекста. В этом виде ограничений много “шумных” вариаций сегментов речи, которые так же относятся и к иерархическим синтаксическим ограничениям.
Дополнительные ограничения на природе входа новой лексики в язык могут являться уровнем слова. Многие исследования обнаружили, что характеристика слов при введении разбиения на 5 жестких классов фонетических сегментов может быть сокращена до минимума, часто имея единственное в своем роде распознавание. Далее слишком усиливается эффект порядка двух букв и фонетических сегментов с тех пор как в изучении английских и французских словарей было обнаружено, что более 90% слов имели единственное значение и только 0,5% имели 2 и больше альтернатив. На фонемном уровне было обнаружено, что все слова в английском словаре из 20 тысяч слов имели одно значение из-за беспорядочных фонемных пар. Этот пример помогает показать, что все еще существует ограничивающее влияние на лексическом уровне, которое еще не определено в современных системах распознавания речи. Естественно, что исследования в этой области продолжаются.
Кроме уровня слов синтаксис имеет дополнительное ограничительное влияние. Его влияние на последовательный порядок слов часто характеризуется в системах фактором, который в свою очередь характеризует количество возможных слов, которые могут следовать за предыдущим словом в процессе произнесения. Синтаксис также имеет ограничительные влияния на просодические элементы, такие как ударение, например в случае, когда ударение слов в incline и survey варьируется в зависимости от части речи. Возможно для того, чтобы охарактеризовать ударение в слове, нужно принять во внимание не только индивидуальное слово, но вышеприведенные дополнительные ограничения синтаксиса.
Далее, кроме синтаксического уровня ограничения доминируют над семантикой, прагматикой и речью, что плохо осознается людьми, однако имеет очень важное значение для процесса распознавания.
Несмотря на сложность описания характеристик источников различных ограничений, немаловажную роль играют современные системы влияния, которые представлены всеми возможными вариантами произнесения звуков. Например, система HARPI университета Сarnegie-Mellon University является системой, в которой звуковоспроизведение описывается как путь через комплексную сеть. В этом способе ограничения структуры слога, слова и синтаксиса связаны одной структурой. Структура контроля, используемая для поиска, является адаптацией динамичной программной техники. Более сильный подход был предложен моделями использования цепей Маркова. Эти модели использовались как единая структура, где возможности могут быть точно изучены экспериментальным путем. Закодированные представления спектральной трансформации воспроизводства речи используются для нахождения самого правильного пути через сеть, и недавно были получены очень хорошие результаты. Очень важно подчеркнуть использование такого формально- структурного подхода, который способствует автоматичному определению классов символов через структурирование и параметризацию.
При другом подходе базы данных и связанные с ними процессы обработки используются структурой контроля. Этот подход был изучен системой HEARSAJ 2, которая была разработана в институте Сarnegie-Mellon University, и системой HWIM (hear what I mean). В этих системах комплексная структура данных, которая содержит всю информацию о воспроизведении звуков, изучается с точки зрения конкретных ограничений. Но как выше указано, каждое из этих ограничений имеет особую внутреннюю модель, и полный анализ не может быть произведен. Для проведения анализа в целом структура данных должна иметь взаимодействие между разными процессами, а также средства для интеграции. Несмотря на то, что структура включает в себя несколько весьма различных источников знаний и ее вклад в понимание речи очень общий, она также имеет большое количество степеней свободы, которые могут быть использованы для тщательного системного воспроизведения. В отличие от этого, техника, основанная на цепях Маркова, имеет математическую поддержку. Чтобы иметь возможность сфокусированного исследования ограничений взаимодействия и интеграции в контексте, необходимо применять обе системы. Те системы, которые описывают ограничение взаимодействия, сфокусированы во многом на воспроизведении знаний, и они относительно слабо контролируемы, а системам с математической поддержкой, которые в свою очередь имеют великолепную технику для установления параметров и оптимизации изучения, не достает использования комплексной структуры данных, необходимых для характеристики ограничений высокого уровня, таких как синтаксис. Оба направления в настоящий момент находятся в процессе развития.
В заключение следует сделать акцент на влияние производственной технологии на эти системы. Технология интеграции не является большой проблемой для систем распознавания речи, наоборот, это является архитектурой этих систем, включая способ представления ограничений. Необходимо провести грандиозные эксперименты и найти новые способы, которые необходимы для ограничительного влияния взаимодействия.
Во многих способах распознавание речи имеет типичный пример стремительно развивающегося класса высоко интегрированных комплексных систем, которые должны использовать лучшую компьютерную технику и самые последние достижения современного математического обеспечения.

4.2 ПРОБЛЕМЫ СОЗДАНИЯ МНОГОУРОВНЕВОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ



В современных компьютерных системах все больше внимания уделяют построению интерфейса естественным вводом-выводом информации (распознавание рукописного текста, речевой диалог).
Наиболее перспективными на сегодняшний день являются системы речевого ввода. Задачу распознавания речевой информации можно разделить на две большие подзадачи:
1. Непосредственное распознавание отдельных слов.
2. Распознание смысловой нагрузки слов.
Непосредственное распознавание отдельных слов осложняется рядом факторов: различием языков, спецификой произношения, шумами, акцентами, ударениями и т. п.
В настоящее время можно выделить два основных направления при построении систем распознавания речи:
1. Эталонный - данный метод основан на сравнении некоторых характеристик речи (энергетических, спектральных и т.п.). В качестве эталонов в большинстве случаев используют целые слове. Данный метод удобен для использования в системах с ограниченным словарем (например, для ввода небольшого набора команд).
2. Фонемно-ориентированный метод. Основан на выделении фонем из потока речи. Фонема это единица речи представляющая собой единицу речи, Подобно тому, как слово состоит из букв, так и речь состоит из фонем. Для каждого языка имеется свой конечный набор фонем.
Сравнивая распознавание речевого потока методом распознавания целых слов и распознавание фонем можно сделать вывод: при небольшом количестве слов, используемых оператором более высокую надежность и скорость можно ожидать от распознавания целых слов, но при увеличении словаря скорость резко падает. Предположительно, размер словаря системы распознавания уже в сотню слов делает переход на уровень более низкий, чем распознавание слов в целом, актуальным.
Рассмотрим модель построения системы распознавания речи построенной на фонемно-ориектированном методе (Рис.1).
Image
Рис. 1 Построение системы распознавания речи
Из списка фонем распознанных с определенной точностью, составляется шаблон, который передается на следующий уровень, где по нему происходит подбор наиболее подходящего слова, передача информации о выборе на более высокий уровень для дальнейшего анализа и на нижний, для подстройки системы на конкретного пользователя. Достоинством этой схемы является высокая адаптивность, дающая возможность динамической самоподстройки системы на оператора, и многоуровневая система проверок, повышающая точность работы.
Проанализируем возможные механизмы распознавания фонем. Звуки, участвующие в формировании речи, имеют две основных классификации: по артикуляционным признакам и по акустическим признакам.
Классификация звуков по артикуляционным признакам является крайне важным при использовании методов генерации и распознавания речи с помощью моделирования носоглотки, но для решения задач деления на фонемы более интересно рассмотрение акустических различий звуков. По акустическим признакам звуки подразделяются:
Тональные звуки - образуются голосом при почти полном отсутствии шумов, что обеспечивает хорошую
слышимость звуков:
гласные а, э, и, о, у, ы.
Сонорные (звучные) - чье качество определяется характером звучания голоса, который играет главную роль в их образовании, а шум участвует в минимальной степени:
согласные м, м', н, н', л, л', р, р'.
Шумные - их качество определяется характером шума:
звонкие шумные длительные: в, в, з, з, ж;
звонкие шумные мгновенные: б, бТ, д, д', г, г';
глухие шумные длительные: ф, ф', с, с', ш, х, х';
глухие шумные мгновенные: п, п', т, т', к, к'.
Заметим, что гласные и сонорные звуки состоят из участков затухания импульсов от основных (не обертонных) колебаний истинных голосовых связок. Для упрощения, будем называть эти участки доменами.
Использование домен при распознавании речи вполне очевидно. По сути, домен (вспомним, что пока домен рассматривается в приложении только к сонорным и гласным звукам) содержит в себе информацию достаточную для распознавания звука. Если взглянуть на образ протяженно произнесенной гласной (или сонорного звука), то за исключением небольших по длине участков в начале и конце образа звук состоит из домен с высокой степенью идентичностью, даже для различных людей многие характеристики, а соответственно и общий вид домен во многом схожи, что придает особую универсальность методам распознавания при выделении и распознавании фонем через домены. Еще одним достоинством домен является относительная простота их выделения. По определению, домен начинается с максимального значения в определенном диапазоне, после которого идет затухающий по некоторому закону колебательный процесс. Как дополнительные условия, которые можно использовать при расчленении речи на домены, можно перечислить:
• стабильную (в диапазоне) длину домен;
• постоянную, с некоторой точностью, величину максимумов, по которым происходило вычленение домен.
Дополнительно будем рассматривать шумные длительные звуки как один домен. Это позволит легко выделять корень этих звуков из общего потока и облегчит их анализ.

Анализ образов шумных мгновенных (взрывных) звуков показывает наличие участков по структуре схожих с определенным для гласных и сонорных звуков понятием домена. Но наряду с совокупностью общих признаков прослеживается различие: для вышесказанных участков в шумных мгновенных звуках отсутствует та строгая идентичность домен между собой. Во всех мгновенных звуках присутствует момент, сильно облегчающий их выделение из речи - перед произнесением таких звуков наблюдается непродолжительная по меркам восприятия, но весьма значительная, в масштабах длительностей домен, пауза. Эго помогает выделению домен. Поэтому в зависимости от различных алгоритмов выделения может быть удобно, разбивать такого рода звуки на несколько домен, или же воспринимать их целиком как один.
При разбиении потока речи на домены мы получаем еще один уровень в распознавании. В общей иерархии он находится еще ниже, чем уровень распознавания фонем . Рассмотрим функционирование такой системы (Рис.2).
Image
Рис. 2 Использование доменов в системе распознавания речи

Первоначально производится деление потока речи на домены, используя такие свойства доменов как, стабильная длинна на протяжении одной фонемы и большую амплитуду первого колебания в домене.
В дальнейшем происходит первичный анализ домена для определения методов его дальнейшей обработки. Эти методы различны для тональных, сонорных и шумных звуков. На втором этапе также производится выделение отдельных слов слитной речи.
Подробнее остановимся на методах анализа домен. Целесообразно производить такой анализ в несколько этапов с постепенным уточнением результата:
1. Простейшими методами определяем диапазон возможных значений.
2. Более сложными методами анализа определяем вероятность принадлежности данного домена к различным фонемам из ранее определенного диапазона.
Для этой цели были разработаны несколько методов.
Метод нечеткого сопоставления образов при разработке данного метода была использована теория нечеткой логики. Суть метода состоит в следующем: на основе статистических данных составляется двоичный образ доменов для каждой фонемы 1.
Двоичный образ представляет сбой карту локальных выбросов в домене по амплитуде. При этом учитывается лишь местоположение выброса на временном диапазоне, величина амплитуды значения не имеет.
Image
Рис.3 Использование функции принадлежности
Используя функцию принадлежности можно получить вероятность идентичности анализируемого домена и двоичного образа.
Анализ доменов на основе интерполяции вершин. Вид кривой проведенной по вершинам доменов аналогичен для всех доменов данной фонемы и мало различается для различных людей, а также для разных условий произнесения 2. Первый этап - построение интерполяционного многочлена Тейлора по вершинам домена включает в себя:
1. выборку вершин, т.е. положительных экстремумов домена;
2. расчет коэффициентов;
3. построение многочлена.
Порядок многочлена задается числом вершин данного домена. Получив функцию, записанную в виде многочлена Тейлора, приступаем к ее анализу (Рис.4).
Image
Рис.4 Интерполяция вершин.

Анализ по соотношениям значений функции относительно первого максимума данного домена совместно с анализом по знакам первых производных в наборе точек позволяет оценить общий вид функции и является универсальным, сочетая в себе надежность и гибкость.
Используя комбинацию данных методов можно с высокой точностью определить набор фонем для передачи на следующий уровень системы. С каждой фонемой на верхний уровень передается вероятность ее правильного определения.
Используя эти данные, формируется набор слов для последующей передачи на уровень смыслового анализа.
Предложенная система была частично реализована в опытном программном продукте для анализа свойств доменов и показала свою жизнеспособность. Использование доменов позволит создавать не ресурсоемкие универсальные системы распознавания речи.

5. ПЕРСПЕКТИВЫ ИСПОЛЬЗОВАНИЯ


Возможности голосового управле¬ния открывают перед пользователями огромные перспективы. Если учесть, что сегодня во многих офисах компь¬ютер управляет принтером, модемом, факсом, а с появлением DVD стало возможно подключать к домашнему компьютеру аудиоцентры и домашние кинотеатры, то можно себе предста-вить следующую картину из нашего недалекого будущего. Вы сидите на мягком диване и говорите; «Телеви¬зор», потом — «МузТВ» — включает¬ся цепочка «микрофон — звуковая карта — компьютер — телевизор», и вы видите на экране телевизора свой любимый клип. Или вы произносите; «Отправить факс», «номер...», дикту¬ете текст сообщения, потом — «Гото¬во», и через несколько секунд услы¬шите в ответ: «Факс отправлен». И все это вполне реально и осуществи¬мо. Теперь добавьте к этому возмож-ность голосовой навигации по Интер¬нету, распознавание голоса, записан¬ного на любой аудионоситель или в звуковой файл. В общем, пора уже наконец задуматься о приобретении системы распознавания звучащей речи, ведь не за горами тот день, ког¬да вам надо будет только произнести слово!

6. АВТОМОБИЛИ, КОТОРЫМ НЕ НУЖЕН ШОФЁР

Как пожаловался недавно один бывший британский чиновник, самым горьким напоминанием о расставании с должностью служит тот факт, что машина не трогается с места, когда он беззаботно плюхается на заднее сидение.
По мнению самых оптимистичных специалистов по автотранспортным технологиям, неприятности такого рода могут через некоторое время сойти на нет. Пройдет десяток - другой лет, и автомобилисты 21-го века будут с уютом располагаться на задних сидениях машин и небрежно отдавать приказ: "Домой!".
Многие технологии, позволяющие автомобилю управлять своим движением, появляются уже сейчас. Системы спутниковой навигации уже присутствуют на рынке. Средства избежания столкновений, с компьютерным управлением мотором, тормозами и рулевой частью, скоро увидят свет.
Еще три года назад гоночные машины Формула-1 наделялись средствами автоматического передвижения по трассе, но такая "электронная" гонка была запрещена спортивными регулирующими органами. Препятствия на пути реализации идеи самоуправляющегося автомобиля лежат как в технологической области, так и в сфере закона.
Возможность давать автомобилю указания о маршруте станет, в конечном итоге, закономерным результатом развития и внедрения систем распознавания речи. Пока они все в большей степени используются для менее глобальных нужд, в том числе для контроля водителя за отдельными элементами машины.
Технология распознавания речи все еще находится на одном из начальных этапов развития. Тем не менее ведущие производители автомобилей и их компонентов очень высоко оценивают ее потенциал и значимость.
Если ранее эта технология рассматривалась лишь как средство указания номера сотовому телефону без использования рук, то теперь речевые команды расширили сферу своего влияния и на другие устройства.
Так, система распознавания речи CD-VC50 производства компании Pioneer, подключенная к автомобильному проигрывателю компакт-дисков, позволяет водителю, нажав кнопку, назвать имя певца, которого он хочет послушать. Эта система, содержащая скрытый интерфейсный блок, блок дистанционного управления и небольшой микрофон, продается в Великобритании примерно за 400 дол. или за 800 дол. - в комплекте с проигрывателем Pioneer CDX-P5000.
Другие производители аппаратуры также намерены использовать технологию распознавания речи. Она привлекает и потребителей, и изготовителей тем, что повышает безопасность движения, освобождая руки водителей для более полного контроля за рулем.
Этими же соображениями руководствовались сотрудники Visteon, отделения компании Ford, создавшие систему распознавания речи, предназначенную для выполнения целого ряда функций в автомобилях Ford и других фирм. Система Visteon VACS (voice-activated control system) должна появиться в промышленных вариантах автомобилей в следующем году.
Водителей, оценивших преимущества систем спутниковой навигации, VACS избавит от необходимости перед поездкой вручную вводить информацию о пункте назначения. Чтобы убедить водителя в правильности интерпретации его слов, VACS "вслух" сообщает о получении тех или иных инструкций с помощью синтезатора речи.
VACS не требуется "изучать" особенности речи пользователя. По сведениям создателей, она полностью "независима от говорящего" и воспринимает множество языков и диалектов.
В этом году появятся первые BMW с речевым управлением аудио- и телефонной аппаратурой. Но это только начало. За три года инженеры BMW намерены научить системы распознавания и воспроизведения речи автомобильных компьютеров "обсуждать" с водителем варианты маршрута. При этом будет использоваться спутниковая навигационная система CARIN. Когда компьютер не будет занят распознаванием диктуемого текста, чтением сообщений электронной почты или факсов, он сможет передавать или получать информацию по модему, установленному в автомашине. BMW сообщает, что не все возможности автоматического управления будут непременно реализованы. Машину можно научить реагировать на отдельные речевые команды, например, "Левый поворот", создав систему дублирования рулевого управления. Представители фирмы считают, что недостатки идеи не сводятся к возможным проблемам правового характера в случае сбоев таких систем или их неправильного использования: "Главное, мы потеряем удовольствие от вождения."
Компания Ford уже заключила с Intel и Microsoft соглашения об интеграции подобных функций в автомобильные мультимедиа-системы ICES (information, communication, entertainment, safety and security) на базе Windows.
General Motors оснастила некоторые свои модели системой OnStar, с помощью которой водители могут обращаться в центры службы поддержки движения, используя речевой интерфейс.
В дорогих автомобилях типа Infinity и Jaguar уже несколько лет использу¬ется устный контроль за панелью уп¬равления: радио, температурный ре¬жим и навигационная система пони¬мают голос владельца машины и бес¬прекословно слушаются хозяина. Но сейчас технология распознавания го¬лоса начинает применяться и в ма¬шинах среднего класса. Так, с 2003-года Honda Accord имеет встроенный голосовой определитель от IBM. Он называется ViaVoice и является час¬тью навигационной системы за 2000 долл. По сообщению компании-по¬ставщика, одна пятая часть покупате¬лей Honda Accord сделала выбор в пользу модели с голосовой системой навигации.

ЗАКЛЮЧЕНИЕ


Технологии распознавания речи считаются одними из наиболее перспективных в мире. Так, по прогно¬зам американской исследовательской компании Cahners In-Stat, мировой ры¬нок ПО распознавания речи к 2005 году увеличится с 200 млн. до 2,7 млрд. долл. По мнению же фирмы Datamonitor, объем рынка голосовых технологий будет расти в среднем на 43% в год: с 650 млн. долл. в 2000 году до 5,6 млрд. долл. в 2006-м (рис. 5). Эксперты, сотрудничающие с медиа-корпорацией CNN, отнесли распозна¬вание речи к одной из восьми наиболее перспективных технологий нынешнего года. А аналитики из IDC заявляют, что к 2005 году распознавание речи вооб¬ще вытеснит с рынка все остальные речевые технологии (рис. 6).
По мере развития компьютерных систем становится все более очевидным, что использование этих систем намного расширится, если станет возможным использование человеческой речи при работе непосредственно с компьютером, и в частности станет возможным управление машиной обычным голосом в реальном времени, а также ввод и вывод информации в виде обычной человеческой речи.


Image

2000 2001 2002 2003 2004 2005
Годы



Рис. 5. Рост рынка речевых технологий, по данным IDC и Datamonitor (верхняя кривая)
3.1% —озвучивание текстовой информации
0,7% — идентификация по голосу
96.2% — авотоматическое распознавание речи
Image
Рис. 6. Структура рынка речевых технологии к 2005 году (по данным IDC)

Список использованной литературы:


1. http://app.rol.ru/it/news/98/04/20_412.htm
2. http://www.dialog-21.ru/archive_article.asp?param=7341&y=2002&vol=6077
3. http://alife-soft.narod.ru/note/s_recognize/recognize.html
4. http://www.agentura.ru

Яндекс.Метрика