Здесь можно найти учебные материалы, которые помогут вам в написании курсовых работ, дипломов, контрольных работ и рефератов. Так же вы мажете самостоятельно повысить уникальность своей работы для прохождения проверки на плагиат всего за несколько минут.
Предлагаем нашим посетителям воспользоваться бесплатным программным обеспечением «StudentHelp», которое позволит вам всего за несколько минут, выполнить повышение оригинальности любого файла в формате MS Word. После такого повышения оригинальности, ваша работа легко пройдете проверку в системах антиплагиат вуз, antiplagiat.ru, РУКОНТЕКСТ, etxt.ru. Программа «StudentHelp» работает по уникальной технологии так, что на внешний вид, файл с повышенной оригинальностью не отличается от исходного.
Результат поиска
Наименование:
курсовая работа Голосовой интерфейс
Информация:
Тип работы: курсовая работа.
Добавлен: 06.06.13.
Год: 2012.
Страниц: 12.
Уникальность по antiplagiat.ru: < 30%
Описание (план):
Введение
Под
речевыми технологиями в компьютерном
мире подразумевают целый конгломерат
программных и аппаратных средств, позволяющих
осуществлять прежде всего синтез и распознавание
человеческой речи, а также разрабатывать
средства, позволяющие создавать системы
обработки речи. Создание и разработка
речевого интерфейса на сегодняшний момент
времени является одной из самых сложных
и противоречивых задач. С одной стороны,
тема абсолютно не нова, с другой - активное
развитие и применение этой технологии
только начинается. С одной стороны, успели
сформироваться устойчивые стереотипы
и предубеждения, с другой - несмотря на
почти полвека настойчивых усилий не нашли
разрешения вопросы, стоявшие еще перед
родоначальниками речевого ввода. Как
бы то ни было, продолжатся поиски такого
интерфейса, который устроил бы всех. Собственно
говоря, это как раз то, к чему человечество
всегда стремилось в общении с компьютером.
С
70-х годов отмечается большой
интерес к решению проблемы речевого
диалога пользователя со средствами
вычислительной техники. Это объясняется
рядом особенностей речевого ввода –
вывода информации в ЭВМ:
наибольшей
естественностью
общения и повышения
вследствие этого
степени сосредоточенности
на выполняемой работе повышением
скорости и надежности
ввода информации освобождением
тактильного и зрительного
каналов для выполнения
других операций возможностью
работы в затемненном
помещении и при произвольном
положении оператора
или его перемещении обеспечением
связи с ЭВМ с помощью
устройств (телефон)
Исследователи
недалеко продвинулись за прошедшие десятки
лет, что заставляет некоторых специалистов
крайне скептически относиться к самой
возможности реализации речевого интерфейса
в ближайшем будущем. Другие же считают,
что задача практически решена. Впрочем,
все зависит от того, что следует считать
решением этой задачи.
Так
Билл Гейтс, являющий собой в некотором
смысле идеал прагматизма, оказался не
свободен от исторически сложившихся
стереотипов. Начав в 95-96 году с разработки
собственной универсальной системы распознавания
речи, он в 97-м провозгласил очередную
эру повсеместного внедрения речевого
интерфейса. Средства речевого ввода планировались
включить в стандартную поставку новой
версии Windows NT - чисто офисной операционной
системы. Для того, чтобы оценить проделанную
ими работу, достаточно установить какой-либо
звуковой «движок» взаимодействующий
непосредственно с Microsoft SAPI, интегрированным
в вашу систему.
Все,
кто хоть как-то связан с разработкой
речевых технологий, сталкиваются со
следующими вопросами: первый - и, пожалуй,
основной - касается области применения.
Поиск приложений, где распознавание речи
могло бы продемонстрировать все свои
достоинства, вопреки устоявшемуся мнению,
является задачей далеко не тривиальной.
Сложившаяся практика применения компьютеров
вовсе не способствует широкому внедрению
речевого интерфейса. Для подачи команд,
связанных с позиционированием в пространстве,
человек всегда пользовался и будет пользоваться
жестами, то есть системой «руки- глаза».
На этом принципе построен современный
графический интерфейс. Перспектива замены
клавиатуры и мыши блоком распознавания
речи абсолютно отпадает. При этом выигрыш
от возложения на него части функций управления
настолько мал, что не смог предоставить
достаточных оснований даже для пробного
внедрения в массовых компьютерах на протяжении
уже более тридцати лет. Именно таким сроком
оценивается существование коммерчески
применимых систем распознавания речи.
Для
сравнения: спонтанная речь произносится
со средней скоростью 2,5 слов в секунду,
профессиональная машинопись - 2 слова
в секунду, непрофессиональная - 0,4. Таким
образом, на первый взгляд, речевой ввод
имеет значительное превосходство по
производительности. Однако оценка средней
скорости диктовки в реальных условиях
снижается до 0,5-0,8 слова в секунду в связи
с необходимостью четкого произнесения
слов при речевом вводе и достаточно высоким
процентом ошибок распознавания, нуждающихся
в корректировке.
Речевой
интерфейс естественен для человека
и обеспечивает дополнительное удобство
при наборе текстов. Однако даже профессионального
диктора может не обрадовать перспектива
в течение нескольких часов диктовать
«малопонятливому» компьютеру. Кроме
того, имеющийся опыт эксплуатации подобных
систем свидетельствует о высокой вероятности
заболевания голосовых связок
операторов, что связано с неизбежной
при диктовке компьютеру монотонностью
речи.
Часто
к достоинствам речевого ввода текста
относят отсутствие необходимости
в предварительном обучении. Однако одно
из самых слабых мест современных систем
распознавания речи - чувствительность
к четкости произношения - приводит к потере
этого, казалось бы, очевидного преимущества.
Печатать на клавиатуре оператор
учится в среднем 1-2 месяца. Постановка
правильного произношения может занять
несколько лет.
Существует
и еще одно неприятное ограничение
применимости: оператор, взаимодействующий
с компьютером через речевой интерфейс,
вынужден работать в звука изолированном
отдельном помещении либо пользоваться
звукоизолирующим шлемом. Иначе он будет
мешать работе своих соседей по офису,
которые, в свою очередь, создавая дополнительный
шумовой фон, будут значительно затруднять
работу речевого распознавателя. Таким
образом, речевой интерфейс вступает в
явное противоречие с современной организационной
структурой предприятий, ориентированных
на коллективный труд. Ситуация несколько
смягчается с развитием удаленных форм
трудовой деятельности, однако еще достаточно
долго самая естественная для человека
производительная и потенциально массовая
форма пользовательского интерфейса обречена
на узкий круг применения.
Ограничения
применимости систем распознавания
речи в рамках наиболее популярных
традиционных приложений заставляют сделать
вывод о необходимости поиска потенциально
перспективных для внедрения речевого
интерфейса приложений за пределами традиционной
офисной сферы, что подтверждается коммерческими
успехами узкоспециализированны речевых
систем. Самый успешный на сегодня проект
коммерческого применения распознавания
речи - телефонная сеть фирмы АТ&Т.
Клиент может запросить одну из пяти категорий
услуг, используя любые слова. Он говорит
до тех пор, пока в его высказывании не
встретится одно из пяти ключевых слов.
Эта система в настоящее время обслуживает
около миллиарда звонков в год.
Несмотря
на то, что одним из наиболее перспективных
направлений для внедрений систем распознавания
речи может стать сфера компьютерных игр,
узкоспециализирован ых реабилитационных
программ для инвалидов, телефонных
и информационных систем, ведущие разработчики
речевого распознавания наращивают усилия
по достижению универсализации и увеличения
объемов словаря даже в ущерб сокращению
процедуры предварительной настройки
на диктора.
Будущее
речевого интерфейса в не меньшей степени
зависит от умения современных исследователей
и разработчиков не только создать технологическую
основу речевого ввода, но и гармонично
слить технологические находки в единую
логически завершенную систему взаимодействия
«человек-компьютер» Основная работа
еще впереди.
Глава
1
1.1.Общая концепция речевого
интерфейса
Начнем
с главного термина. Что есть речь?
Говоря о речи, мы должны различать
такие понятия, как «речь», «звуковая речь»,
«звуковой сигнал», «сообщение», «текст».
В нашем случае, в приложении к задаче
распознавания такие понятия, как «речь»
и «звуковая речь» означают одно и то же
- некое генерируемое человеком звуковое
сообщение, которое может быть объективно
зарегистрировано, измерено, сохранено,
обработано и, что важно, воспроизведено
при помощи приборов и алгоритмов. То есть
речь может быть представлена в виде некоего
речевого сигнала, который в свою очередь
может использоваться для обратного воспроизведения
речи. То есть можно поставить
знак эквивалентности между звуковой
речью и ее представлением в виде речевого
сигнала. При этом под понятием
«сообщение»может скрываться любая
полезная для получателя информация, а
не только текст. Например, если интересоваться
не словами а интонациями, то сообщением
будут просодические нюансы речи.
Что же касается распознавания речи, то
в нашем случае задача сводится к извлечению
из речи текста.
Но
здесь мы сталкиваемся с одним противоречием.
Текст, как известно, состоит из букв, слов,
предложений, - то есть он дискретен. Речь
же в нормальных условиях звучит слитно.
Человеческая речь, в отличие от текста,
вовсе не состоит из букв. Если
мы запишем на магнитофонную ленту или
на диск компьютера звучание каждой отдельной
буквы, а потом попробуем скомпоновать
из этих звуков речь, у нас ничего не получится.
Люди уже довольно
давно догадались о том, что элементарные
звуки, из которых состоит речь, не эквивалентны
буквам. Поэтому придумали понятие
фонемы для обозначения элементарных
звуков речи. Хотя до сих пор специалисты
никак не могут решить - сколько же всего
различных фонем существует. Есть даже
такой раздел лингвистики - фонетика. Большинство
авторов даже для одного и того же языкового
диалекта приводят разное количество
фонем. В русском языке по одним данным
43 фонемы, по другим - 64, по третьим - более
сотни... Но так уж повелось, что есть миф
о незыблемости понятия фонемы. И о том,
что речевой сигнал состоит непосредственно
из кусочков сигнала, каждый из которых
является фонемой. К сожалению, все далеко
не так просто.
Поначалу
ученые рассматривали речевой сигнал
как набор неких универсалий,
расположенных друг за другом на временной
оси, и считали этими универсалиями фонемы.
Однако дальнейшие исследования речевых
сигналов никаких фонем не обнаружили.
Тогда одни исследователи справедливо
решили, что при генерации речевых сигналов
наблюдается коартикуляция, то
есть взаимопроникновение соседних звуков
(мышцы лица, язык и челюсти обладают разной
инерцией). Значит, речевой сигнал должен
состоять не из фонем, а из аллофонов -
комбинаций «слипшихся» фонем.
Другие
исследователи, подобно физикам, атаковали
идею элементарности фонем и стали утверждать,
что фонемы надо поделить на еще более
короткие кусочки или даже вообще отказаться
от этого понятия и «расчленять» речевой
сигнал как-то иначе. Так родились
фоноиды и еще масса авторских названий
элементарных звуков.
Каждый
принялся рассматривать речевой
сигнал со своей позиции, сообщай
об успехах весьма туманно. Последнее,
весьма вероятно, можно объяснить желанием
сохранить ноу-хау.
Главной
трудностью фонемного подхода является
то, что темп речи варьируется в широких
пределах, часто в несколько раз. При этом
различные звуки речи растягиваются или
сжимаются не пропорционально. Например,
гласные изменяются значительно сильнее,
чем полугласные и особенно смычные согласные.
Для так называемых щелевых звуков есть
свои закономерности. (Полугласные - это
звуки при генерации которых необходимо
участие голосовых связок, как и для гласных
звуков, но сами они в обиходе считаются
согласными. Например, так обычно звучат
«м», «н», «л» и «р». Смычные звуки образуются
при резком смыкании и размыкании
органов артикуляции. Например «б», «л»,
«д», «т». Образование щелевых звуков связано
с шипением и прочими эффектами турбулентности
в органах артикуляции. Можно назвать
«в», «ж», «с», а также «ш» и другие шипящие.
Эта свойство называется временной
нестационарностью образцов речевого
сигнала. Произнося одно и то же слово
или фразу в разное время, под влиянием
различных факторов (настроения, состояния
здоровья и др.), мы генерируем заметно
не совпадающие спектрально-временные
распределения энергии. Это справедливо
даже для дважды подряд произнесенного
слова. Намного сильнее этот эффект проявляется
при сравнении спектрограмм одной и той
же фразы, произнесенной разными людьми.
Обычно этот эффект называют спектральной
нестационарной сетью образцов речевого
сигнала. Изменение темпа речи и четкости
произношения является причиной коартикуляционной
нестационарности, означающей изменение
взаимовлияния соседних звуков от образца
к образцу. Так же следует выделить проблему
кластеризации слитной речи. Из непрерывного
речевого потока довольно непросто выделить
какие-либо речевые единицы. Многие звуки
«слипаются» либо имеют нечеткие границы.
Большой
интерес для ученых, работающих в области
распознавания речи, представляют различные
разделы лингвистики, науки о
языках. Возможно, удачный синтез достижений
этих наук и теории обработки речевых
сигналов приведут к успешному созданию
систем распознавания.
Построение
речевого интерфейса распадается на три
составляющие. Первая задача состоит в
том, чтобы компьютер мог «понять» то,
что ему говорит человек, то есть он доложен
уметь извлекать из речи человека полезную
информацию. Пока что, на нынешнем этапе,
эта задача сводится к тому, чтобы извлечь
из речи смысловую ее часть, текст (понимание
таких составляющих, как скажем, интонация,
пока не рассматривается). То есть эта
задача сводится к замене клавиатуры микрофоном.
Вторая задача состоит в том, чтобы
компьютер воспринял смысл сказанного.
Пока речевое сообщение состоит из некоего
стандартного набора понятных компьютеру
команд (скажем, дублирующих пункты меню),
ничего сложного в ее реализации нет. Однако
вряд ли такой подход будет удобнее, чем
ввод этих же команд с клавиатуры или при
помощи мыши. В идеале компьютер должен
четко «осмысливать» естественную речь
человека и понимать, что, к примеру, слова
«Хватит!» и «Кончай работу!» означают
в одной ситуации разные понятия, а в другой
- одно и то же.
Третья
задача состоит в том, чтобы компьютер
мог преобразовать информацию, с которой
он оперирует, в речевое сообщение, понятное
человеку. Так вот, из этих трех задач
достаточно ясное и окончательное решение
существует только для третьей. По сути,
синтез речи - это чисто математическая
задача, которая в настоящее время решена
на довольно хорошем уровне. И в ближайшее
время, скорее всего, будет совершенствоваться
только ее техническая реализация.
Препятствием для
окончательного решения
первой задачи служит то, что никто до
сих пор толком не знает, каким образом
можно расчленить нашу речь, чтобы извлечь
из нее те составляющие, в которых содержится
смысл. В том звуковом потоке, который
мы выдаем при разговоре, нельзя различить
ни отдельных букв, ни слогов. Но, несмотря
на это, после предварительной тренировки
современные системы распознавания
речи работают довольно сносно и делают
ошибок не больше, чем делали оптические
системы распознавания печатных символов
лет десять назад.
Что
касается второй задачи, то она, по мнению
большинства специалистов, не может
быть решена без помощи систем искусственного
интеллекта. Последние, как известно, пока
не созданы, хотя большие надежды возлагаются
на появление так называемых квантовых
ИИ. Если же подобные устройства появятся,
это будет означать качественный переворот
в вычислительных технологиях, и тогда,
как знать, может быть, многие
теперешние подходы к речевому интерфейсу
вообще окажутся ненужными.
Поэтому
пока удел речевого интерфейса - всего
лишь дублирование голосом команд, которые
могут быть введены с клавиатуры или при
помощи мыши. А здесь его преимущества
весьма сомнительны. Впрочем, есть
одна область, которая для многих может
оказаться очень привлекательной. Это
речевой ввод текстов в компьютер. Действительно,
чем стучать по клавиатуре, гораздо удобнее
продиктовать все компьютеру,
чтобы он записал услышанное в текстовый
файл. Здесь вовсе не требуется, чтобы
компьютер «осмысливал» услышанное, а
задача перевода речи в текст более или
менее решена. Недаром большинство выпускаемых
ныне программ «речевого интерфейса»
ориентированы именно на ввод речи.
1.2.
Ввод речевых сообщений
Традиционно
процесс распознавания речи подразделяется
на несколько этапов. На первом - производится
дискретизация непрерывного речевого
сигнала, преобразованного в электрическую
форму. Обычно частота дискретизации
составляет 10-11 кГц, разрядность- 8 бит,
что считается оптимальным для работы
со словарями небольшого объема (10-1000 слов)
и соответствует качеству передачи речи
телефонного канала (ЗГц- 3.4кГц).
понятно что увеличение объема активного
словаря должно сопровождаться повышением
частоты оцифровки н в некоторых случаях
- поднятием разрядности.
На
втором этапе дискретный речевой
сигнал подвергается очистке от шумов
и преобразуется в более компактную
форму. Сжатие производится посредством
вычисления через каждые 10 мс некоторого
набора числовых параметров (обычно не
более 16) с минимальными потерями информации,
описывающей данный речевой сигнал. Состав
набора зависит от особенностей реализации
системы. Начиная с 70-х годов наиболее
популярным методом (практически стандартом)
построения сжатого параметрического
описания стало линейно - предикативное
кодирование (ЛПК), в основе которого лежит
достаточно совершенная линейная модель
голосового тракта. На втором месте по
популярности находится, вероятно, спектральное
описание, полученное с помощью дискретного
преобразования Фурье.
Очень
хорошие результаты, однако, могут быть
достигнуты и при использовании других
методов, часто менее требовательных к
вычислительным ресурсам, например клипирования.
В этом случае регистрируется количество
изменений знака амплитуды речевого сигнала
и временные интервалы между ними. Получаемая
в результате последовательность значений,
представляющих собой оценку длительностей
периодов сохранения знака амплитудой,
несмотря на кажущуюся примитивность
метода, достаточно полно представляет
различия между произносимыми звуками.
На таком методе предобработки основана,
в частности, система распознавания речи,
разработанная в конце 80-х в НИИ счетного
машиностроения (Москва).
Временной
(10 мс) интервал вычисления был определен
и обоснован экспериментально еще на
заре развития технологии автоматического
распознавания речи. На этом интервале
дискретный случайный процесс, представляющий
оцифрованный речевой сигнал считается
стационарным, то есть на таком временном
интервале параметры голосового тракта
значительно не изменяются.
Следующий
этап- распознавание. Хранимые в памяти
компьютера эталоны произношения по очереди
сравниваются с текущим участком последовательности
десяти миллисекундных векторов, описывающих
входной речевой сигнал. В зависимости
от степени совпадения выбирается лучший
вариант и формируется гипотеза о содержании
высказывания. Здесь мы сталкиваемся с
очень существенной проблемой - необходимостью
нормализации сигнала по времени. Темп
речи, длительность произношения отдельных
слов и звуков даже для одного диктора
варьируется в очень широких пределах.
Таким образом, возможны значительные
расхождения между отдельными участками
хранимого эталона и теоретически совпадающим
с ним входным сигналом за счет их временного
рассогласования. Достаточно эффективно
решать данную проблему позволяет разработанный
в 70-х годах алгоритм динамического
программирования и его разновидности
(алгоритм Витерби). Особенностью таких
алгоритмов является возможность динамического
сжатия и растяжения сигнала по временной
оси непосредственно в процессе сравнения
с эталоном. С начала 80-х все более широкое
применение находят Марковские модели,
позволяющие на основе многоуровневого
вероятностного подхода к описанию сигнала
производить временную нормализацию и
прогнозирование продолжений, что ускоряет
процесс перебора эталонов и повышает
надежность распознавания.
В
основе действия любых систем ввода
речевых сообщений лежит принцип
распознавания образов. Система выделяет
из поступающего речевого сигнала набор
некоторых признаков, составляющих его
“описание”, затем сравнивает полученное
описание с эталонными, хранящимися в
памяти системы ввода, т.е. вычисляет меры
сходства. Если значение меры сходства
превышает некоторый установленный уровень,
то система “распознает” сигнал, присваивая
ему значение соответствующего эталона.
Помимо распознавания элементарных составляющих
речевых сигналов, система должна интерпретировать
речевые сообщения, т.е. находить соответствующие
им орфографические текстовые последовательности,
интерпретировать и выполнять команды,
запоминать и заносить в память данные
и т.п.
Базовым
фонологическим элементом для большинства
систем распознавания и интерпретирования
речевых сообщений является слово; произнесенным
словом может быть однозначно поставлен
в соответствии их орфографическое представление.
В
связи с этим все системы ввода
речи принято делить по следующим критериям:
способности
распознавать слитную речь или отдельно
произносимые слова;
объему словаря
распознаваемых слов (словари существующих
систем содержат до 500 слов);
ориентированности
на одного говорящего или на произвольное
число говорящих.
Большинство
современных систем и устройств
ввода речи предназначены для
персональных и управляющих микро ЭВМ,
следовательно, одним из основных требований,
предъявляемых к таким системам ввода,
является их низкая стоимость, которая
достигается за счет ограничения словаря
отдельно произносимых слов и упрощения
алгоритмов обработки при ориентации
системы на одного говорящего.
Обобщенная
структурная схема такой системы
речевого ввода:
Акустический
речевой сигнал воспринимается микрофоном
(М) и в виде аналогового электрического
сигнала передается на высокочастотный
фильтр (ФВЧ и АЦП). Цифровые отсчеты с
выхода АЦП направляютя в препроцессор
(ПП). Задача ПП состоит в том, чтобы уменьшить
объем (а следовательно и скорость) передаваемых
данных при сохранении существенной для
распознавания речевых информации. В зависимости
от принятого набора признаков, составляющих
описание сигнала, ПП может представлять
собой спектроанализатор, детектор форматных
частот, анализатор ЛПК и т.п. Полученные
в результате предварительной обработки
сокращенное описание речевого сигнала
передается п процессор выделения признаков
(ПВП) и затем в систему принятия решений,
включающую в себя блок классификатора
(БК), память эталонных описаний (ПЭО) и
блок настройки (БН). Система принятия
решений работает в двух режимах – ввода
и обучения.
В
режиме ввода описание входного речевого
сигнала подается в БК, который вычисляет
меры сходства этого описания с эталонами,
хранящимися в ПЗУ. В результате вычисления
мер сходства для всей совокупности эталонов
может быть найдена максимальная мера
и принято решение о соответствии входного
сигнала одному из эталонов. Входному
речевому сигналу приписывается имя –
идентификатор этого эталона. Затем найденный
идентификатор передается прикладной
программе или в центральную ЭВМ через
блок сопряжения УС.
В
режиме обучения описания входных речевых
сигналов подаются в блок настройки. В
этот же блок обычно с помощью клавиатуры
Кл заносится имя – идентификатор речевого
сигнала. БН находит “усредненное” описание
для несколько раз повторенных слов или
словосочетаний одним говорящим, затем
приписывает это “усредненное” описание
идентификатору, т.е. формирует эталон.
Все
системы ввода речевых сигналов,
как и системы распознавания
образов вообще, принято характеризовать
вероятностью правильного распознавания,
вероятностью (частотой) отказов от распознавания,
вероятностью (частотой) ошибок при распознавании.
Численные значения этих характеристик
зависят от объема словаря и используемых
алгоритмов распознавания. Для словарей
объемом 200-300 слов и словосочетаний вероятность
правильного распознавания составляет
95-98 % .
В
системах речевого ввода для повышения
достоверности обычно предусматривают
визуальную обратную связь. На рис. 3 эта
связь показана в виде индикатора И, на
экран которого выдается символьное представление
произнесенного слова; непосредственный
ввод этого представления в ЭВМ осуществляется
только после подтверждения правильности
распознавания, осуществляемого нажатием
клавиши. При неправильном распознавании
может быть подана устная команда отмены
и ввод слова повторяется. Несмотря но
то, что такая визуальная обратная связь
лишает систему речевого ввода многих
преимуществ, высокая достоверность ввода
оправдывает ее применение во многих областях,
в частности при подготовки данных. Рассматриваемая
система обеспечивает более высокую скорость
ввода по сравнению со скоростью ввода
с клавиатуры.
1.3.
Многообразие видов
Существующие
системы распознавания речи можно классифицировать
по разным признакам.
По
назначению:
командные
системы
системы диктовки
текста.
По
потребительским качествам:
диктороориентированные
(тренируемые на конкретного диктора)
дикторонезависимые
(рискую предложить термин «омнивойс»)
распознающие
отдельные слова
распознающие
слитную речь.
По механизмам функционирования:
простейшие
(корреляционные) детекторы
экспертные
системы с различным способом формирования
и обработки базы знаний
вероятностно-сетевые
модели принятия решения, в том числе нейронные
сети.
Довольно
трудно выбрать удобный показатель
качества работы системы распознавания
речи. Наиболее просто такой показатель
качества вводится для командных систем.
При тестировании в случайном порядке
произносятся все возможные команды достаточно
большое число раз. Подсчитывается количество
правильно распознанных команд и делится
на общее количество произнесенных команд.
В результате получается оценка вероятности
правильного распознавания команды в
заданной при эксперименте акустической
обстановке. Для систем диктовки похожий
показатель качества может вычисляться
при диктовке некоторого тестового текста.
Очевидно, что это не всегда удобный показатель
качества. В действительности мы сталкиваемся
с самыми различными акустическими обстановками.
Но как быть со сменой дикторов и сопутствующей
ей тренировкой системы?
В
качестве примера разрешите взять
на рассмотрение вариант простейшей командной
системы распознавания речи. Функционирование
системы основано на гипотезе о том, что
спектрально-временны характеристики
команд-слов для отдельно взятого диктора
изменяются слабо. Акустическая модель
такой системы представляет собой преобразователь
из речевого сигналов спектрально-временную
матрицу и может служить типичным примером
изобретательского подхода. В самом простом
случае команда локализуется во времени
по паузам в речевом сигнале. Лингвистический
блок способен обнаружить ограниченное
число команд плюс еще одну, которая означает
все остальные неизвестные системе слова.
Как правило, лингвистическая модель строится
как алгоритм поиска максимума функционала
от входного образца и образцов всего
«словарного запаса» системы. Часто это
обычный двумерный коррелятор.
Хотя выбор размерности пространства
описания и его метрики может широко варьироваться
разработчиком.
Уже
исходя из «конструкции» описанной
системы понятно, что она представляет
собой скорее игрушку, нежели полезный
инструмент. В настоящее время на рынке
представлено множество коммерческих
систем распознавания речи с гораздо большими
возможностями:
Voice Type Dictation
, Voice Pilot , ViaVoice от IBM
Voice Assist
Creative от Techonology
Listen for Windows
от Verbex и многие другие.
Некоторые
из них (например, ViaVoice) способны, как заявляют
разработчики, вводить слитную речь.
Лингвистические
блоки современных систем реализуют
сложную модель естественного языка. Иногда
она основана на математическом аппарате
скрытых цепей Маркова, иногда использует
последние достижения технологии нейронных
сетей либо других ноу-хау. Устройство
же акустических блоков подобных систем
держится в строгом секрете. По некоторым
признакам можно догадаться, что акустический
блок некоторых систем пытается моделировать
естественный слуховой аппарат.
1.3.
Программные синтезаторы
речи
Распознавание
речи само по себе не представляет ничего
нового. Системы диктования для отдельных
профессий таких, как радиология, известны
уже давно. Но они сами по себе очень дороги
и требуют дорогих компьютеров. Менее
дорогие программы более широкого применения
предполагают специфическую манеру речи
с паузами после каждого слова.
Компания
Dragon Systems, выпустив NaturallySpeaking, заложила
краеугольный камень в истории развития
систем распознавания речи - это была первая
программа, позволяющая диктовать текст
естественным образом. Вскоре IBM предложил
ViaVoice, аналогичную программу, стоившую
на сотни долларов меньше конкурента.
Главным
фактором, ускорившим развитие программ
распознавания речи, было совершенствование
компьютеров.
Программы распознавания речи требуют
наличия довольно мощной звуковой карты,
поскольку они выполняют сложную работу.
Сначала произносимые вами слова захватываются
микрофоном и обрабатываются звуковой
картой.
Затем
программа анализирует звук, чтобы
отличить низкочастотные гласные от
высокочастотных согласных. После
этого результаты сравниваются с
фонемами (частями слов), группами фонем
и словами, чтобы подобрать наиболее
точный эквивалент.
Этот
алгоритм должен быть не только аккуратным
и быстрым, но пластичным, чтобы учитывать
особенности произношения, модуляции
голоса, скорость речи. После подбора наиболее
точного слова программа анализирует
контекст, что предугадать следующее слово.
Это позволяет различить слова-омонимы,
например, коса (вид прически), коса
(береговая отмель), коса (сельско-хозяйственны
инструмент).
NaturallySpeaking
и ViaVoice могут работать сразу
после того, как вы прочтете
несколько предложений. Чтобы добиться
лучших результатов следует, однако, произвести
30-минутную тренировку. Чтобы еще лучше
подготовить программу следует прочитать
текст или импортировать документы, содержащие
наиболее часто употребляемые вами слова.
Хотя
результаты несколько противоречивы,
понятно, что пользователи могут добиться
большего, посвятив большее время тренировке
программ. Это может занять от часа до
месяца постоянной работы прежде, чем
вы получите реальные результаты. Профессионалам,
нуждающимся в диктовке, энтузиазм новой
технологии наверняка позволит добиться
больших результатов.
1.4.
Речевой вывод
данных
В
области синтеза речи основными
направлениями являются синтез по правилам
и синтез по образцам – компилятивный
синтез.
Процесс
преобразования символьного представления
информации в сигнал речевого сообщения
состоит из двух основных этапов конструирования
речевого сообщения и собственно синтеза
речевого сигнала. Конструирование речевого
сообщения заключается в выработке некоторой
последовательности команд управления
аппаратными средствами собственного
синтезатора, в соответствии с которой
на выходе синтезатора формируется речевой
сигнал. Конструирование речевого сообщения
может выполняться программным путем
с использованием аппаратуры ЦП- или МП-
средств, встроенных в УВыв речи. Синтез
речевого сигнала выполняется аппаратурой
ПУ. Действия, выполняемые на каждом из
шагов, определяются принятым в данном
ПУ способом формирования речевого сигнала.
При
синтезе по правилам речевой сигнал
образуется только по хранящимся в памяти
устройства правилам без обращения к какому-либо
виду речи, произносимой человеком.
При
компилятивном синтезе имеется
словарь речевых единиц, специально
подготовленных из реальных элементов
речевого материала, наговоренного определенным
диктором.
Наиболее
перспективное направление- синтез
по правилам- позволяет преобразовать
произвольный орфографический текст в
соответствующий речевой сигнал по схеме:
текст-фонема –речь. Но при практически
неограниченном словаре такое преобразование
пока не обеспечивает хорошего качества
синтезированной речи. Поэтому наиболее
распространенным остается компилятивный
синтез, где при ограниченном словаре
(из-за большого объема памяти и сложности
программ составления речевых сообщений)
достигается хорошее качество речи.
Самая
простая система синтеза речи
получается при компиляции слов. Именно
такие системы первыми начали использоваться
в практике. Основу компилятивной системы
составляют ЗУ речевых единиц. Объем ЗУ
зависит как от количества слов в нем,
так и от формы представления речи в запоминающей
среде. и т.д.................