Реферат по нирс на тему "Распознавание человеческой речи"



Скачать 27.66 Kb.
Дата07.04.2017
Размер27.66 Kb.
Просмотров711
Скачиваний3
ТипРеферат

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

МАРИЙСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

Факультет Информатики и Вычислительной Техники


Реферат по НИРС


На тему

“Распознавание человеческой речи”



Выполнил: Викторов Н.Г.
Проверила: Кудрина И. Н.

Йошкар-Ола

2009 г.

Распознавание человеческого голоса (также известное как распознавание речи) - это процесс преобразования акустического сигнала в некую абстрактную форму разговорного языка. Он состоит из этапа преобразования голоса в текст и из этапа автоматической интерпретации семантики речи. Иногда под распознаванием голоса подразумевают лишь задачу идентификации говорящего. Но часто эта задача неотделима от проблемы распознавания речи, так как эти процессы связаны и вместе обеспечивают дружественность интерфейса к пользователю.



Эта технология применима во всех случаях, когда между машиной и человеком возникает необходимость взаимодействия, когда нужно подать команду или осуществить управление. В этих областях достигнут значительный прогресс, и век речевого взаимодействия между человеком и машиной уже наступил.

Десятилетиями ученые и инженеры искали способы, которые позволили бы людям общаться с компьютером так же, как они общаются между собой, а не заставлять пользователей приспосабливаться к языку, который понятен машине. Понятно, что речь — это самое прямое, непосредственное и интуитивное средство общения между людьми, которое могло бы быть мостом между человеком и машиной. Одной из основных целей машинного автоматического распознавания голоса (речи) является создание ориентированного на человека интерфейса компьютерных систем.

Распознавание голоса происходит следующим образом: при помощи воспринимающих (микрофона) и оцифровывающих (дискретизирующих) устройств и машинной обработки фиксируется акустический (речевой) сигнал и преобразуется в цифровую форму. Затем цифровой сигнал разбивается на неделимые интервалы, называемые фонемами. Фонемы представляют собой элементарные единицы звука. Последовательность фонем составляет слоги, слоги составляют слова, слова составляют предложения, которые уже представляют сообщения, идеи и команды. В общем, фонема — это звук, образованный одной или несколькими буквами в их сочетании с другими буквами. Если целью процесса обработки является лишь опознавание говорящего (что и означает термин «распознавание голоса»), то нет необходимости разбивать сигнал на фонемы. Можно также распознать слова и предложения, минуя все эти этапы.

После преобразования акустического сигнала в слова и предложения начинается этап обработки естественного языка. В процессе обработки лингвистической информации последовательности слов на основании контекста, шаблонов речи и, возможно, априорных знаний о предмете разговора разбиваются на логические единицы — фразы. Затем эти логические единицы анализируются и переводятся в действительные команды или сообщения, которые понятны компьютерной системе или конкретному приложению.

Уже многие годы голосовые команды являются одной из возможных опций программного обеспечения персональных компьютеров — это типичный пример использования техники распознавания голоса. Включение функций распознавания голоса в некоторые системы и текстовые процессоры — уже давно не новость на рынке программных продуктов. Многие коммерческие программы распознавания голоса хорошо работают в системах речевых услуг, от справочных столов до записи медицинских процедур. Эта технология повысила эффективность работы телефонных центров обработки заказов и позволила многим компаниям увеличить объемы сделок и расширить свой бизнес. Рынок систем распознавания голоса рос и продолжает увеличиваться с впечатляющей скоростью. Одна из причин такого бурного роста — потребность в этой технологии обычных пользователей современных компьютеров. Росту также способствуют значительное увеличение вычислительной мощности и доступные объемы памяти среднего настольного персонального компьютера. Теперь нет никаких проблем с техническим обеспечением, необходимым для работы систем распознавания голоса. А увеличение количества поставщиков этой технологии и конкуренция снизили цены разработок до вполне приемлемого уровня.

Следует отметить ряд технологических моментов, характерных для систем распознавания голоса:

1. Независимость от диктора — способность системы распознавать слова без персональной настройки компьютера путем повторения одного и того же речевого сигнала.

2. Непрерывная речь — возможность, позволяющая пользователям говорить естественно (непрерывно), не делая паузы между словами (дискретный ввод речи).

3. Большие словари — способность обрабатывать большое количество слов как общей, так и специальной категории из технических и предметных областей знаний с целью увеличения мощности и эффективности систем распознавания голоса.

Сегодня существуют два основных вида технологий распознавания голоса. Один из них — это распознавание речи. зависящее от диктора, т. е. пользователь должен сначала научить систему распознавать его голос, и только после этого система может функционировать. Второй — это распознавание речи не зависящее от диктора, т. е. система способна распознать любую речь, независимо от того, кто говорит. Системы распознавания речи, зависящие от диктора (голосозависимые), предназначены для одного конкретного пользователя. Такие системы обычно проще разрабатывать, они дешевле и работают более точно, но они не столь гибки, как голосонезависимые программы. Голосонезависимые системы разрабатываются для любого пользователя конкретного типа (например, американский английский). Это самые сложные в разработке и самые дорогие системы, а точность распознавания у них ниже. Однако эти системы более гибки. Адаптивные системы приспосабливаются к характеристикам нового диктора. Уровень их сложности лежит где-то посередине между голосонезависимыми и голосозависимыми системами. Системы распознавания изолированных слов работают с дискретными словами — в этом случае требуется пауза между словами. Это самая простая форма распознавания, так как в этом случае легко определяется конец речевого сигнала, а произношение слова не затрагивает другие слова. Поскольку в этих системах количество слов постоянно, то их легче проектировать. Системы распознавания непрерывного речевого сигнала работают с речевым потоком, в котором слова сливаются, т. е. не разделены паузой. Непрерывную речь обрабатывать гораздо сложней по целому ряду причин, во-первых, трудно определить начало и конец слова. Вторая проблема — это коартикуляция. На звучание каждой фонемы влияет звучание соседних фонем, а на начало и конец слов влияют предыдущие и последующие слова. Распознавание непрерывной речи зависит также от скорости речи; с быстрой речью работать сложнее, чем с медленной.

Размер словаря системы распознавания голоса влияет на степень сложности, требования к процедурам обработки и точность системы. Одним системам для работы необходимо всего несколько слов (например, только числа), а другие работают с очень большими словарями (например, диктофонные машины). Четких градаций объемов словарей нет. Но обычно словари классифицируются на:

1. маленькие словари — это десятки слов

2. средние — сотни слов

3. большие словари — тысячи слов

4. очень большие словари — это десятки тысяч слов

Есть еще две проблемы, тесно связанные с объемом словарей. Одна из них касается разработки и обеспечения доступа к специальным базам данных (словарям) необходимо обеспечить ведение такой базы и возможность обновления данных для специальных групп пользователей различных профессий, например в медицинской или правовой сфере. Вторая проблема — это проверка грамматики ведь программы разрабатываются не только для записи продиктованных слов, но и включают функции проверки и исправления структур предложений.

Из вышесказанного следует, что системы распознавания голоса требуют огромных ресурсов, включая вычислительную мощность, память и сетевые возможности. С распознаванием голоса тесно связаны две технологии:

a. цифровая обработка сигнала

b. распознавание образов

Методы цифровой обработки сигнала обычно осуществляют преобразование, очистку и трансформацию акустического сигнала в цифровой формат данных и другие представления, которые могут непосредственно обрабатываться системой распознавания речи. Эти задачи включают фильтрацию шумовых сигналов, которые примешиваются к звуку при передаче акустических сигналов от воспринимающих устройств (микрофонов) или по сети. Методы распознавания образов используются при выделении и распознавании отдельных слов или предложений речевого потока или в некоторых случаях для идентификации говорящего. Кроме этого, понадобится лингвистическая теория — в ней заложены фундаментальные концепции и принципы распознавания речи и понимания языка. Далее мы обсудим историю и основные области применения систем распознавания голоса, а также методы, обычно используемые в процессах распознавания голоса, и перспективы будущего развития таких систем.



2. Исторический обзор и основные применения.

Уже многие годы компьютеры умеют «слушать» людей и расшифровывать их слова. В 1960-х ученые стали «учить» машины говорить с людьми. Продвижение, правда медленное, началось в 1970-х В 1980-х специализированные программы распознавания голоса привлекли внимание представителей некоторых профессий, в частности врачей и юристов. Вначале такие системы работали с небольшими словарями, требовали голосовой настройки и неестественных пауз между словами. После нескольких десятилетий кропотливых исследований мощные технологии распознавания голоса буквально выплеснулись на рынок. Этот феномен подогревается снижением стоимости вычислительной обработки и безумной конкуренцией среди исследователей систем речевого общения. В 1990-х значительные успехи в разработке продуктов, работающих с большими словарями, и появление распознавателей непрерывной речи снова «подстегнули» развитие рынка речевых систем. В это же время быстро развиваются технологии естественного языка. Разработаны мощные программы, которые с 95% точностью «понимают», что было сказано. Эти программы преобразуют произнесенные предложения в текст, выводят его на экран компьютера и позволяют запускать другие программы голосовой командой. Сложности распознавания связаны с разницей в произношении, манере говорить и шаблонах речи, но эти проблемы стали менее значимыми с увеличением мощности и удешевлением компьютеров.



Вот типичные области применения систем распознавания голоса:

1. Интерфейс между человеком и компьютером: по мере проникновения компьютеров во все слои общества становится очевидным, что многие люди испытывают трудности в общении с машиной. Пользователи не могут просто сформулировать, чего они хотят, им приходится заучивать устаревшие команды или далеко не интуитивные процедуры. Более того, в процессе такого общения приходится использовать медленные и непростые устройства, такие как мышь или клавиатура. Ясно, что необходим новый способ общения с компьютером — простой, быстрый, интуитивный. Системы распознавания голоса заставляют машину приспосабливаться к человеку, а не наоборот. Огромное преимущество систем распознавания голоса еще и в том, что они намного быстрее любых других типов интерфейсов. Например, голосовая программа электронной почты позволяет включить компьютер, продиктовать и послать сообщения, даже не прикасаясь к мыши или клавиатуре. А что еще более важно, так это то, что люди с физическими недостатками смогут более эффективно взаимодействовать с компьютером. С системой распознавания голоса слепые или те, кто по каким-либо причинам не может пользоваться клавиатурой, могут общаться с компьютером не хуже остальных.

2. Оперативные информационные услуги. Компьютеры все глубже проникают в нашу жизнь и потребности в оперативной информации растут с огромной скоростью. Все большее число пользователей обращается к услугам Интернета в поисках последних новостей, спортивных известий и прогнозов погоды, для получения информации о ценных бумагах, заказа авиабилетов, проведения исследований или чтобы узнать, что идет в ближайшем кинотеатре. Речь — это идеальный инструмент для получения информации. И речь позволяет наладить взаимодействие с компьютером. При помощи систем разговорного языка пользователь и машина могут вступить в непосредственный диалог, постепенно, шаг за шагом, приближаясь к искомой информации. Например, разработаны системы распознавания голоса для обеспечения доступа к базам данных, содержащим оцифрованные клипы новостей телерадиовещания. При заказе авиабилетов системы распознавания голоса позволяют получить информацию и заказать билеты. Контролируемые голосом wеb-браузеры избавляют пользователя от медленных ручных операций (ввода с клавиатуры).

3. Бизнес и профессиональная поддержка. Уже многие годы голосовые диктофонные системы, предназначенные для представителей определенных профессий, например врачей и юристов, можно найти на рынке программных продуктов. Многие представители этих профессий используют системы распознавания речи в повседневной работе. Стали популярны активируемые голосом домашние приборы и приспособления. Технология распознавания голоса быстро изменила рынок телефонных услуг. Системы, распознающие разговорную речь, работают в информационных телефонных центрах и, кажется, меняют саму природу настольного компьютера. Эта технология практически превращает телефон в удаленное периферийное устройство, обеспечивающее доступ к компьютерной системе.

Другие человеко-машинные интерфейсы, например системы распознавания лиц и сенсорные экраны, способствуют ускорению внедрения систем речевого общения — наблюдается тенденция к созданию комбинированных систем. Технологии распознавания лиц и голоса проникли и в банковский мир — вместе с банкоматами. В общем, за последнее десятилетие области применения систем распознавания речи значительно расширились и будут продолжать расширяться.

3. Основные методы распознавания голоса.

Процесс распознавания голоса проходит в несколько этапов. На каждом из этапов для обработки речевого сигнала используется целый ряд различных методов. Процесс распознавания голоса можно разбить на три этапа:

1. получение голосового сигнала и предварительная обработка речи

2. распознавание фонем и слов

3. понимание речи

Теперь более подробно о каждом:

1. Получение голосового сигнала и предварительная обработка речи. Получение голосового сигнала или дискретизация голоса определяется как процесс получения и преобразования акустического сигнала. Голос представляется как колебания акустического давления в микрофоне, характеризуемые относительно низкочастотными сигналами в диапазоне примерно от 0 до 4 кГц. Есть два типа звуков: звонкие и глухие. Звонкие порождаются вибрацией голосовых связок при прохождении воздуха. Этот акустический сигнал модулируется напряжением голосовых связок. Вибрации резонируют в речевом канале (это нос, горло и полость рта). Поток воздуха, создающий звук, называется «волной, образованной в голосовой щели». Этот сигнал квазипериодический, а его период называется периодом основного тона. Резонансный сигнал звонких звуков обычно состоит из четырех частотных компонентов, называемых формантами. Форманты служат «голосовой печатью» различных звуков, производимых речевым аппаратом человека. Глухие звуки образуются при прохождении воздуха через речевой канал при отсутствии колебаний голосовых связок. Оба вида звуков рассматриваются как временные ряды данных, взятые за регулярные интервалы времени. Для изоляции нужного интервала используются пространственные окна. Некоторые оконные функции рассчитывают среднюю амплитуду, число нулевых пересечений и трансформацию Фурье сигнала за интервал. Для устранения шума используются различные методы фильтрации.

2. Распознавание фонем и слов. Для распознавания фонем, групп фонем и слов используются такие методы, как скрытая марковская модель или НММ (hidden Markov modelling), искусственные нейронные сети (ИНС) или их комбинации.

Наиболее часто и успешно при распознавании фонем и слов используется скрытая марковская модель (НММ). НММ определяется как множество состояний и переходов из одного состояния в другое. С каждым переходом из состояния i в состояние j связано распределение результирующих (выходных) вероятностей Ь, которое определяет вероятность того, что при переходе произойдет событие х из пространства наблюдений. То есть если происходит переход, то с определенной вероятностью будут наблюдаться некие выходные данные. Кроме того, с каждым переходом связана вероятность а, представляющая собой вероятность перехода из состояния i в состояние j. Существует множество начальных и множество конечных состояний. Любая последовательность наблюдений является результатом перехода из одного из начальных состояний в одно из конечных. Так как НММ хорошо описывает временные ряды со стохастическими воздействиями, то эта модель обеспечивает довольно естественное представление речи. НММ можно использовать для представления любой составляющей речевого сигнала — фонемы или слова.

Поскольку для потока речи характерна строгая временная направленность, то используется определенная топологическая схема направленного потока (слева направо). Прежде чем удалось доказать работоспособность ИНС в задачах распознавания речи, пришлось проделать огромную работу, как теоретическую, так и экспериментальную. Было показано, что ИНС можно использовать для усиления мощности тех распознавателей, чья структура основана на скрытой марковской модели. В частности, ИНС с простой уровневой структурой может обеспечить получение оценок вероятностей для НММ моделей. Как было доказано на контрольных тестах, основанные на этом подходе системы распознавания речи оказались достаточно надежными и эффективными. Гибридные ИНС/НММ распознаватели речи повышают точность традиционных НММ за счет моделирования корреляций между одновременными параметрами речевого сигнала и между текущими и последующими параметрами. Последние работы в рамках этих исследований посвящены моделированию долговременных корреляций и разработке адаптационных подходов (имеется в виду адаптация к голосу диктора).

3. Понимание речи. «Понять» речь — это самое трудное. На этом этапе последовательности слов (предложения) должны быть преобразованы в представления о том, что хотел сказать говоривший. Хорошо известно, что понимание речи опирается на огромный объем лингвистических и культурных знаний. Большая часть систем распознавания голоса учитывает при этом знания о естественном языке и конкретные обстоятельства. Задача, связанная с распознаванием голоса — распознавание говорящего, т. е. процесс автоматического определения «кто говорит» на основе входящей в речевой сигнал индивидуальной информации. При этом речь может идти об идентификации или о верификации говорящего. Идентификация — это нахождение в известном множестве контрольных фраз экземпляра, соответствующего манере данного диктора говорить. Верификация диктора — это определение идентичности говорящего: тот ли это человек? Технология распознавания диктора позволяет использовать голос для обеспечения контроля доступа; например, телефонный доступ к банковским услугам, к базам данных, к системам электронной коммерции или голосовой почте, а также доступ к секретному оборудованию. Обе технологии требуют, чтобы пользователь был «занесен в систему», т. е. он должен оставить образец речи, по которому система может построить шаблон. Предпринимались попытки разработать и аппаратную реализацию систем распознавания голоса. Некоторые продукты обеспечивают как голосонезависимое, так и голосозависимое распознавание речи на одном чипе. Чип поддерживает голосозависимое распознавание на базе словаря, хранимого в постоянном запоминающем устройстве чипа (ROM, read only memory). Словари голосозависимых систем хранятся вне чипа и могут быть загружены во время работы системы.

4. Нерешенные задачи и взгляд в будущее.

Три основных барьера стоят на пути развития систем распознавание речи:

1. большие объемы словарей

2. шаблоны непрерывной речи

3. различные акценты и произношения

Это основные препятствия для автоматизированных систем распознавания голоса, но есть еще и другие проблемы — понимание семантики речи. Объемы словарей определяют степень сложности, требования к вычислительной мощности и надежность систем распознавания голоса. Можно приспособиться к непрерывному потоку речи, но есть еще и строгие семантические правила, которым необходимо следовать, чтобы система смогла понять семантику комбинаций слов в предложениях. Необходимо продолжать основательные исследования, только это позволит «справиться» с такими характеристиками речи, как морфология, акценты, высота звука, скорость, громкость, сливающиеся слова, контекст, артикуляция, лингвистическая информация, синонимы и т. д. Ожидается, что основным направлением развития станет моделирование языков для использования в системах распознавания речи.

Не решена окончательно и проблема отделения речевого сигнала от шумового фона. В настоящее время пользователи систем распознавания голоса вынуждены либо работать в условиях минимального шумового фона, либо носить шлем с микрофоном у самого рта. Кроме того, пользователям приходится «информировать» компьютер о том, что они к нему обращаются. Для этого обычно надо нажать кнопку или сделать что-то в этом роде. Конечно, это не самый лучший вариант пользовательского интерфейса. Решение этих проблем началось, и уже получены много-обещающие результаты. Одна из долгожданных разработок в области распознавания голоса — это человеко-машинные диалоговые системы; такими системами занимаются во многих университетских исследовательских лабораториях. Системы «умеют» работать с непрерывным речевым потоком и с неизвестными дикторами, понимать значения фрагментов речи (в узких областях) и предпринимать ответные действия. Эти системы работают в реальном времени и способны выполнять пять функций по телефону:

1. узнавание речи — преобразование речи в текст, состоящий из отдельных слов

2. понимание — грамматический разбор предложений и распознавание смыслового значения

3. восстановление информации — получение данных из оперативных источников на основании полученного смыслового значения

4. генерация лингвистической информации — построение предложений, представляющих полученные данные, на выбранном пользователем языке



5. синтез речи — преобразование предложений в синтезированную компьютером речь

Диалоговый интерфейс в таких системах позволяет человеку разговаривать с машиной, создавать и получать информацию, решать свои задачи. Системы с диалоговым интерфейсом различаются по уровню инициативности человека или компьютера. Исследования фокусировались на «смешанно инициативных» системах, в которых и человек, и компьютер играют одинаково активную роль в достижении цели посредством диалога. С появлением систем распознавания голоса идея «говорящего» компьютера перестала быть фантастикой.


Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©nethash.ru 2019
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал