Автоматическое распознавание речи



Pdf просмотр
страница1/11
Дата09.01.2017
Размер3.73 Mb.
Просмотров1197
Скачиваний1
  1   2   3   4   5   6   7   8   9   10   11









И.Б. Тампель, А.А. Карпов
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ





















Санкт-Петербург
2016

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

УНИВЕРСИТЕТ ИТМО







И.Б. Тампель, А.А. Карпов
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ
Учебное пособие






Санкт-Петербург
2016




2
Тампель И.Б., Карпов А.А. АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ.
Учебное пособие. − СПб: Университет ИТМО, 2016. – 138 с.
В учебном пособии рассматриваются методы автоматического распознавания речи. Материал пособия разбит на 16 разделов. Первые два раздела посвящены вопросам речеобразования и восприятия слуховой системой. В каждом разделе приведены краткие теоретические и/или практические сведения.
Пособие может быть использовано при подготовке магистров по направлению
09.04.02
ИНФОРМАЦИОННЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ и аспирантов.
Рекомендовано к печати Ученым советом факультета Информационных технологий и программирования от 27.10.2015 г., протокол № 10







Университет ИТМО – ведущий вуз России в области информационных и фотонных технологий, один из немногих российских вузов, получивших в 2009 году статус национального исследовательского университета. С 2013 года
Университет ИТМО – участник программы повышения конкурентоспособности российских университетов среди ведущих мировых научно-образовательных центров, известной как проект «5 в 100». Цель Университета ИТМО – становление исследовательского университета мирового уровня, предпринимательского по типу, ориентированного на интернационализацию всех направлений деятельности.

Университет ИТМО, 2016

СПИИРАН, 2016

И.Б. Тампель, А.А. Карпов, 2016

3
Содержание

стр.
Введение…………………………………………………………………………. 5
1. РЕЧЕОБРАЗОВАНИЕ……………………………………………………….. 6
1.1. Физиология речеобразования……………………………………………… 6
1.1.1. Процесс образования звуков с голосовым возбуждением…………….. 8
1.2. Передаточная функция голосового тракта……………………………….. 10
1.2.1. Расчёт передаточной функции с помощью электроаналогий………… 13
1.3. Турбулентный и импульсный источники звука…………………………. 14 1.4. Носовые согласные………………………………………………………… 15 1.5. Выводы……………………………………………………………………… 15 2. СЛУХОВАЯ СИСТЕМА…………………………………….……………..... 23 2.1. Строение уха человека……………………………………………………... 23 2.2. Маскировка. Восприятие высоты звука…………………………………... 26 2.3. Восприятие громкости звука. Кривая равной громкости……………….. 28 2.4. Адаптация…………………………………………………………………… 29 2.5. Физиологические методы обработки сигналов…………………………... 31 2.6. Выводы……………………………………………………………………… 35 3. ПРИЗНАКИ РЕЧЕВОГО СИГНАЛА ДЛЯ РАСПОЗНАВАНИЯ РЕЧИ.... 37 4.
КОЛИЧЕСТВЕННАЯ ОЦЕНКА СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ… 42 4.1. Показатели оценки качества распознавания речи..……… ..……… ..…...
4.2. Показатели оценки скорости распознавания речи………………………..
5. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ ДЛЯ
РАСПОЗНАВАНИЯ РЕЧИ……………………………………………..………
42 46 48 5.1. Меры близости в пространстве признаков……………………………….. 50 6. РАСПОЗНАВАНИЕ РЕЧИ С ПОМОЩЬЮ СКРЫТЫХ МАРКОВСКИХ
МОДЕЛЕЙ……………………………………………………………………….
53 6.1. Алгоритм «Вперёд-Назад»…………………………………..…………...... 56 6.2. Алгоритм Витерби…………………………………………………………. 59 6.3. Алгоритм Баума-Уэлша……………………………………………………. 60 7. НЕОДНОРОДНАЯ МАРКОВСКАЯ МОДЕЛЬ…………………………….. 64 8. ПРОБЛЕМА ВЫБОРА ЕДИНИЦ ФОНЕТИЧЕСКОГО УРОВНЯ……….. 67 8.1. Кластеризация на основе дерева решений………………………………... 68 8.2.
Управляемый данными метод построения состояний…………………… 70 9. МЕТОДЫ НОРМАЛИЗАЦИИ И АДАПТАЦИИ………………………….. 74 9.1. Вычитание среднего кепстра………………………………………………. 76 9.2. Адаптация акустических моделей к шуму векторными рядами Тейлора 78
9.3.
Байесовская адаптация…………………………………………………….. 82 9.4.
Линейная регрессия максимума правдоподобия………………………… 83 9.5. Метод собственных дикторов……………………………………………... 86 9.6. Нормализация признаков по длине голосового тракта………………….. 86 10.
ДИСКРИМИНАНТНЫЕ МЕТОДЫ……………………………………….. 91 10.1.
Долговременные признаки………………………………………………. 92 11. УСЛОВНЫЕ СЛУЧАЙНЫЕ ПОЛЯ………………….……………………. 96 12.
ГЛУБОКИЕ НЕЙРОННЫЕ СЕТИ……………………………………….. 99

4 13.
МОДЕЛИ ЯЗЫКА…………………………………………………………... 105 13.1.
Использование условных вероятностей…………………………………. 106 13.2.
Статистическое сглаживание…………………………………………….. 107 13.3.
Классовые модели………………………………………………………… 108 13.4.
Морфемные модели………………………………………………………. 109 13.5.
Синтаксические и семантические модели……………………………..... 109 13.5.
Модели темы высказывания……………………………………………… 110 14.
ДЕКОДЕР……………………………………………………………………. 112 14.1.
Организация лексикона в виде префиксного дерева…………………… 113 14.2.
Использование взвешенных конечных автоматов……………………… 114 14.3. Использование взвешенных преобразователей с конечным числом состояний………………………………………………….……………………..
115 15
. ПРОБЛЕМА ВНЕСЛОВАРНЫХ СЛОВ…………………………………... 117 15
.1. Использование моделей заполнения…………………………………….. 118 15
.2. Использование фиксированных комбинаций фонем…………………… 119 15
.3 Использование нескольких систем распознавания……………………… 120 16.
АУДИОВИЗУАЛЬНОЕ РАСПОЗНАВАНИЕ РЕЧИ …………………......
16.1. Способы объединения аудио- и видеомодальностей речи………….......
16.2.
Методы аудиовизуального моделирования и распознавания речи….....
ЛИТЕРАТУРА …......…......…......…......…......…......…......…......…......….......
122 122 126 131

5
Введение
Автоматическое распознавание речи является динамично развивающимся направлением в области искусственного интеллекта. За последние полвека в данной области достигнуты значительные успехи – имеется множество коммерческих приложений, которые делают вложения в данную область оправданными и выгодными. Среди таких приложений, в первую очередь, можно отметить внедрение call-центров или IVR-систем (Interactive Voice
Response) – систем автоматического доступа к информации, минуя оператора. В современных call-центрах вопросы формулируются пользователем на естественном языке, и ответ синтезируется компьютером также на языке пользователя. Внедрение call-центров позволило высвободить огромное количество операторов и улучшить качество обслуживания во многих аэропортах и на железнодорожных вокзалах.
Системы автоматического распознавания речи широко применяются в медицинских исследованиях, требующих ввода информации, когда руки оператора заняты (рентгеновские), или когда требуется управлять автономными аппаратами исследования внутренних органов. Даже заполнение медицинских карт средним персоналом в продвинутых медицинских учреждениях ведётся голосом.
Важной областью применения систем автоматического распознавания и синтеза речи является помощь людям с инвалидностью, как с проблемами опорно-двигательного аппарата, так и слабовидящим (ассистивные технологии).
Следует отметить, что в России медицинские приложения систем автоматического распознавания речи практически не реализованы, что оставляет огромное поле деятельности для разработчиков.
Несмотря на значительные успехи, главная цель исследований, которая изначально подразумевалась − свободное общение человека и «машины» − пока не достигнута. Развитие направления выявило новые трудности, бросающие вызов исследователям на современном этапе, когда задача распознавания речи смыкается с проблемой понимания смысла сообщения и требует привлечения научной психологии.
Первые два раздела пособия посвящены вопросам речеобразования и восприятия. Очевидно, что понимание структуры речевого сигнала и лежащих в его основе движений речеобразующих органов может помочь в решении задачи автоматического распознавания речи. В ещё большей степени это относится к пониманию вопросов, связанных с восприятием звуков вообще и речевых звуков в частности.
Очень важным вопросом, на который предстоит ответить в ходе изучения речеобразования и восприятия является вопрос о признаках, или параметрах речевого сигнала, которые содержат информацию, достаточную для распознавания речи. Очевидно, по самому своему смыслу, эти параметры должны являться следствием сознательно контролируемых движений речевых органов. Очевидно также, что выделение этих параметров должно являться главной задачей слуховой системы при распознавании речи.

6
1.
РЕЧЕОБРАЗОВАНИЕ
1.1.

Физиология речеобразования
Процесс речеобразования иллюстрируется на рис. 1.1. и 1.2. Благодаря создаваемому в лёгких давлению, поток воздуха устремляется в голосовой тракт, проходит через голосовые складки, может устремляться в носовую полость (если нёбная занавеска открыта) и выходит в открытое пространство, минуя возможные зубные и губные сужения.
Рис.1.1. Речевой аппарат человека [1].

7
Речь представляет собой звуковые колебания воздуха в диапазоне частот от
70

100 Гц до нескольких килогерц. Для того чтобы в выходящем воздушном потоке возникли колебания с такими частотами, необходимо наличие источника звука на пути воздушного потока. Источником звука могут являться:
1. Голосовые связки;
2. Турбулентный шум в сужении;
3.
Шум внезапно высвободившегося воздуха при смычке (импульсный).


Рис.1.2. Схематическое изображение речевого аппарата и
функциональных узлов речевого тракта человека [1].

8
Места сужения или смычки могут быть разными для разных языков (так, в ряде языков существуют необычные для русского языка звуки, источником которых является гортанная смычка, то есть взрыв, образующийся при размыкании голосовых складок). При образовании звука /х/ и шепотной речи шумовым источником являются сведенные, но не колеблющиеся голосовые складки.
В соответствии с типом источника речевые звуки подразделяются на классы:
1. Гласные – источником звука являются только голосовые складки, проход в носовую полость перекрыт небной занавеской;
2. Щелевые (фрикативные) согласные – источником звука является турбулентный шум в сужении (глухие согласные /ф/, /с/, /ш/,..), или дополнительно голосовые складки (звонкие /в/, /з/, /ж/,..).
3. Взрывные согласные – источником звука является шум взрыва (глухие
/
п/, /т/, /к/), или дополнительно импульсы голосовых складок (звонкие /б/, /д/,
/
г/).
Кроме указанных существуют звуки, которые требуют отдельной классификации:
1. Носовые согласные. Характеризуются тем, что излучение полностью или частично осуществляется через нос. Забегая вперед, отметим, что передаточная функция голосового тракта содержит только полюса, то есть обладает только резонансами; при наличии боковой полости или параллельной ветви передаточная функция содержит также нули.
2. Русское /р/ возбуждается голосовыми складками, однако звук модулируется дрожанием кончика языка.
3. Звуки, получающиеся сочетанием рассмотренных выше (примеры на основе общеамериканского диалекта):
Полугласные /j/ you, /w/ we;
Плавные /r/ read, /l/ let.
4. Звуки, характеризующиеся динамическим характером произнесения: дифтонги /eI/ say, /Iu/ new, /
ɔI/ boy, /aU/ out, /aI/ I, /oU/ go; аффрикаты /t
ʃ/ chew, /dƺ/ jar.
1.1.1.
Процесс образования звуков с голосовым возбуждением
Голосовые складки (связки) (рис.1.3) колеблются при продувании через них потока воздуха под действием эффекта Бернулли [1]. Частота колебаний голосовых складок называется основным тоном (pitch). Для полноты обзора следует упомянуть о таком этническом феномене, как двухголосое тувинское пение. В данном случае имеется два периодических источника возбуждения.
Один из них – обычные голосовые складки, а второй – либо ложные складки
(утолщения, расположенные над голосовыми складками), либо верхушка пищевода (известно, что люди с повреждёнными голосовыми складками овладевают «пищеводной речью»). Частота колебаний голосовых складок при

9 обычной речи находится в пределах 60−180 Гц для мужчин, 160−350 Гц для женщин и 200−650 Гц для детей (указанные границы чисто ориентировочные).
При пении частота колебаний голосовых складок может достигать 2 кГц.
Форма импульсов объемной скорости (скорость потока, умноженная на площадь сечения в данной точке − величина, сохраняющаяся вдоль всего тракта), исходящих из голосовой щели, неплохо аппроксимируется треугольником или полуволной синуса (рис. 1.4). При этом скважность может достигать 40%, то есть складки могут смыкаться на продолжительное время за счет упругости тканей при столкновении. Для подобных импульсов спектр спадает приблизительно со скоростью 12 дБ/окт. Понятно, что чем более угловатую форму имеют импульсы, и чем больше разрывов имеет производная объемной скорости, тем более длинный хвост будет у спектра. Форма импульсов голосового источника, в основном, и определяет тембр голоса и
«
полетность» певческого голоса.


Рис.1.3. Схематическое изображение органов подгортанной системы
человека [1].

10

Рис.1.4. Кривые изменения площади голосовой щели (а), кривые объёмной
скорости для одного периода основного тона (б) [1].
1.2.
Передаточная функция голосового тракта
Передаточная функция голосового тракта рассчитывается, исходя из того, что для значимых для восприятия частот (<4000 Гц) акустическая волна с достаточной точностью является плоской. Распространение звука в этом случае описывается одномерным (зависящим от координаты вдоль оси тракта) уравнением Вебстера:
2 2
2 1
)
(
)
(
1
t
p
c
x
p
x
S
x
x
S


=








,

(1.1) где S(x) – площадь поперечного сечения как функция расстояния от голосового источника по оси тракта, p – звуковое давление, с – скорость звука, t – время.
Даже в одномерном случае для голосового тракта уравнение Вебстера можно решить только численно. При этом не учитывается импеданс стенок тракта и потери энергии на границах и на трение.
Для волновода постоянного сечения (S(x)=const) уравнение Вебстера превращается в одномерное волновое уравнение для плоской волны в пространстве:

11 2
2 2
2 2
1
t
p
c
x
p


=




(1.2)
Такое же по форме уравнение справедливо для объёмной скорости u.
Давление и скорость связаны уравнениями:
,
1
;
2
t
p
c
x
u
t
u
x
p


=





=



ρ
ρ


(1.3) где
ρ
– плотность воздуха.


Общее решение уравнения (1.2) имеет вид:
)
(
)
(
)
,
(
c
x
t
c
x
t
t
x
p
+

=
ψ
ϕ
,

(1.4) где
Ψ
и
ϕ

функции, определяемые из начальных или граничных условий.
Если сечение голосового тракта постоянно по длине, его можно представить в первом приближении как волновод, закрытый со стороны связок и открытый со стороны губ. При этом в точке x=0 (на связках) скорость и частная производная давления по х равны 0. В точке x=L (на губах) звуковое давление и частная производная скорости по х равны 0, где L – длина тракта.
На основании (1.2), (1.3) и (1.4) будем искать скорость и звуковое давление в виде:
)].
/
(
)
/
(
[
)
,
(
),
/
(
)
/
(
)
,
(
c
x
t
u
c
x
t
u
c
t
x
p
c
x
t
u
c
x
t
u
t
x
u
+


=
+


=

+

+
ρ

(1.5)
Найдём выражение для скорости при условии, что на закрытом конце возбуждаются колебания
)
sin(
)
(
t
t
u
ω
=


(1.6)
Будем искать решение для скорости в виде:
))].
(
sin(
))
(
[sin(
)
,
(
c
x
t
c
x
t
a
t
x
u
+
+
+

+
=
ω
ψ
ω
ϕ

(1.7)
Используя формулу суммы синусов, получим:
)
2
cos(
)
2
sin(
2
)
,
(
c
x
t
a
t
x
u
ω
ψ
ϕ
ω
ψ
ϕ


+
+
=

(1.8)
Учитывая (1.6), находим:
ϕ+Ψ
=0, или
ϕ=

Ψ
, отсюда получаем:
)
cos(
)
sin(
2
)
,
(
c
x
t
a
t
x
u
ω
ϕ
ω

=


(1.9)
Поскольку
0
)
sin(
)
sin(
2
)
,
(
=

=


=
c
l
t
c
a
x
t
x
u
l
x
ω
ϕ
ω
ω
,

(1.10) можем положить
ϕ
=ωl/c.

12
Подставляя значение
ϕ
в (1.9) и снова учитывая (1.6), получим формулу для скорости:
)
cos(
)
)
(
cos(
)
sin(
)
,
(
c
l
c
x
l
t
t
x
u
ω
ω
ω

=


(1.11)

Таким образом, видим, что возбуждая объёмную скорость с единичной амплитудой на входе волновода, на выходе имеем скорость с амплитудой
1/cos
(ωl/c). Отношение выходной скорости к входной называется передаточной функцией.
Если принять скорость звука в 350 м/с (скорость во влажном воздухе при 36 0
), а длину голосового тракта 17.5 см (длина мужского тракта), то график передаточной функции будет иметь вид (рис.1.5.):

Рис.1.5. Передаточная функция волновода постоянного сечения без потерь [2].
Максимумам в спектре соответствуют стоячие волны с длиной волны:
,...
1
,
0
,
2
/
4
/
1
)
(
=
+
=
n
n
l
n
l
,

(1.12)
или частотами:
,...
1
,
0
),
2 1
(
4
)
(
=
+
=
n
n
l
c
n
F


(1.13)
Для принятых выше скорости звука и длины голосового тракта частоты будут равны: 500, 1500, 2500, 3500 Гц. Отметим, что многоточие не имеет особого практического смысла, поскольку выше 4000–5000 Гц длина волны становится сравнимой с поперечными размерами тракта и, следовательно, уравнение Вебстера не годится для описания процессов распространения звука.
Если учесть потери в среде, в голосовой щели и на стенках голосового тракта, излучение на губах, то максимумы перестанут быть бесконечными и

13 слегка сместятся, но общая картина качественно не изменится. Делаем важный вывод: передаточная функция голосового тракта и, следовательно, речевой сигнал характеризуются максимумами в спектре, отстоящими друг от друга на несколько сотен герц и зависящими, в основном, от формы голосового тракта.
Для гласных эти максимумы называются формантами.
1.2.1. Расчёт передаточной функции с помощью электроаналогий
Голосовой тракт произвольной формы можно представить как набор цилиндрических секций
Каждую секцию можно описать как электрическую цепь:

Рис.1.6. Электрический эквивалент цилиндрического отрезка трубы [1].
Аналогом звукового давления является напряжение, аналогом скорости – ток.
)
4 1
(
ρ
π
µ
ρ
f
D
S
S
L
+
=
, где
ρ
– плотность воздуха, S – площадь поперечного сечения секции, D – периметр сечения секции, f – частота,
μ
– коэффициент вязкости;
ρµ
π
f
S
D
R
2
=
,
2
c
S
C
ρ
=
,
ρ
πl
ρ
η
p
c
f
c
D
G
2 1

=
, где η – адиабатическая постоянная (7/5), λ – теплопроводность воздуха, c
p
– удельная теплоёмкость.
Нагрузочное излучение через рот аппроксимируется нагрузкой на круглый поршень в сфере или бесконечном плоском экране.

14 1
2
;
3 16 2
2
<<
+







c
fa
c
fa
i
c
ar
Z
π
π
, где a – радиус поршня.
Распространение звука вокруг головы рассчитывают как излучение пульсирующей сферы. Звуковое давление как функция расстояния от центра сферы r имеет вид:
r
c
f
i
e
r
u
a
f
i
r
p
π
ρ
π
2 0
2 2
)
(

=
, где a – радиус сферы, u
0
– амплитуда скорости колебаний сферы.
Звуковое давление при прочих равных параметрах растёт пропорционально частоте f, то есть со скоростью 6 децибел на октаву.
Расчёты, проводимые с вышеприведёнными формулами, дают хорошее совпадение с экспериментальными данными. Расчётные и измеренные значения формант приведены в таблице 1.1.
Таблица 1.1.
Расчётные (для закрытой голосовой щели) и измеренные [3] значения
формант гласных русского языка.

Гласные/ форманты
F1
F2
F3
(расчётн.)
(измер.)
(расчётн.)
(измер.) (расчётн.) (измер.)
/
у/
301 300 619 625 2388 2500
/
о/
549 535 859 780 2368 2500
/
а/
686 700 1075 1080 2432 2600
/
е/
453 440 1954 1800 2737 2550
/
и/
278 240 2263 2250 2924 3200
/
ы/
326 300 1477 1480 2314 2230

1.3.
Турбулентный и импульсный источники звука
При образовании звуков /ш/, /ф/, /х/, /c/… источником служит турбулентный шум в сужении голосового тракта или складок. Спектр шумового источника имеет плоскую вершину, частота которой приблизительно равна
S
v
2 0
, где ν – скорость потока в сужении, S – площадь сужения.
Звонкие фрикативные /ж/, /в/, /з/… образуются при одновременной работе голосового и турбулентного источников. При этом в сужении турбулентный шум модулируется импульсами голосового источника.
Взрывные согласные /п/, /б/, /к/, /г/, /т/, /д/ образуются при полной смычке в некоторой области голосового тракта, повышении давления за смычкой и резком высвобождении воздуха в результате открытия смычки. Взрыв сопровождается фрикативным шумом.

15


Поделитесь с Вашими друзьями:
  1   2   3   4   5   6   7   8   9   10   11


База данных защищена авторским правом ©nethash.ru 2017
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал