Дипломная работа студента 545 группы



страница1/6
Дата09.01.2017
Размер0.69 Mb.
Просмотров451
Скачиваний0
ТипДипломная работа
  1   2   3   4   5   6
САНКТ – ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Математико-механический факультет

Кафедра системного программирования

Определение артикуляционных классов и точных границ сегментов слитной речи

Дипломная работа студента 545 группы

Меламуда Александра Евгеньевича



Научный руководитель

………………



к.т.н А.Е. Булашевич

Рецензент


………………



д.ф.-м.н., проф. О.Н. Граничин

“Допустить к защите”,
заведующий кафедрой

………………


д.ф.-м.н., проф. А.Н. Терехов

Санкт-Петербург

2017

SAINT PETERSBURG STATE UNIVERSITY

Mathematics & Mechanics Faculty

Software Engineering Department

DEFINITION OF ARTICULATION CLASSES AND STRICT BOUNDS OF CONTINUOUS SPEECH SEGMENTS

A graduate work by


Oleksandr Melamud

Supervisor


………………

A.E. Bulashevich

Reviewer


………………

Professor O.N. Granichin

“Approved by”
Head of Department

………………

Professor A.N. Terekhov

Saint Petersburg

2017

Оглавление



Введение 5

Постановка задачи 7

Анализ и выбор общей методологии сегментации 9

Определение наличия голосового источника возбуждения 12

Определение точных моментов прихода импульсов основного тона 17

Разделение гласных и различных типов звонких согласных 23

Разделение высокочастотного шума и паузоподобных участков 27

Особенности реализации 29

Результаты 33

Список литературы 35




Введение


Область применения речевых технологий охватывает широкий спектр задач и постоянно расширяется. Основные работы ведутся в направлении автоматизации распознавания человеческой речи и ее транскрибации. Этой задачей, как и задачей автоматического перевода начали заниматься чуть ли не с момента появления науки информатики как таковой. Однако на данный момент в общем случае задачу решить так и не удалось: автомата, способного распознавать слитную нелабораторную речь произвольного диктора с приемлемым качеством, до сих пор не создано. Основной проблемой речевого сигнала является его вариативность по большому набору параметров: длительность, темп, высота голоса, эмоциональные составляющие, искажения, вносимые каналом передачи информации. Следует заметить, что даже осциллограммы одинаковых звуковых фрагментов одного диктора, записанные в разное время с большой долей вероятности будут визуально различаться. Более того, подобное может наблюдаться даже в пределах одного звукового фрагмента с осциллограммами одного и того же слова.

Одними из первых попыток автоматической обработки речи были попытки распознавания изолированно произнесенных или выделенных из потока дикторской речи вручную гласных или изолированных слов, причем только по достаточно длинным стационарным участкам [1]. В качестве признаков использовались данные о формантах участка. Задача автоматического распознавания даже не ставилась.

В конце прошлого века интенсивность исследований в этом направлении значительно снизилась в виду широкого распространения статистических методов, основанных на применении скрытых марковских моделей (hidden markov model (HMM)). Применение подобного подхода позволило полностью решить задачу распознавания читаемой речи лабораторного качества. Ошибка на уровне слов не превышала нескольких процентов. Автоматы, построенные на основе HMM, приемлемо справляются с задачей распознавания дикторской речи в реальных условиях (офис, автомобиль), особенно при ограниченном словаре или при наличии настройки на конкретного диктора. В плюсы подобного подхода можно также отнести тот факт, что фонемы распознаются с учетом динамики их произнесения (обычно HMM состоит из трёх состояний, соответствующих стационарному участку фонемы (центральное состояние) и двум переходным (начальное и конечное состояния)).

Современные системы распознавания речи построены преимущественно по следующему принципу: исходный звуковой сигнал проходит стадию предобработки (нормализация, приведение к общему уровню громкости, иногда – подъем высоких частот), потом сигнал параметризируется (господствующая параметризация MFCC [9] и ее различные вариации), после этого сигнал передается на обработку автомату, реализующему HMM. В теории и диссертациях сетка кадров привязана на вокализованных участках к импульсам основного тона. На практике же господствует жесткая сетка кадров ввиду как отсутствия алгоритмов расстановки импульсов основного тона с требуемой надежностью, так и сравнительной сложности программной реализации гибкой сетки кадров.

На данный момент задачи распознавания и сегментации потока фонем решаются единовременно с помощью HMM. Хотя по своей природе это разные задачи. Границей между фонемами является переходный участок звука, где речевой тракт перестраивается. В сигнале это проявляется как сравнительно быстрое изменение характеристик сигнала. В рамках такого понимания границы между фонемами задача сегментации является независимой от конкретного языка (от набора фонем) [3], в то время как задача распознавания фонем, очевидно, зависит от языка. Проблема в том, что на данный момент подавляющее число исследований направлены на улучшение математико-статистического аппарата существующих решений. Практически отсутствуют исследования, которые бы называли достоверные корреляты, характерные той или иной группе фонем. Это выливается в то, что достоверного ответа на вопрос, контрасты каких признаков и главное в каких масштабах следует считать границами фонем (или групп фонем), особенно на слитной речи, особенно в телефонном канале, нет.



Поделитесь с Вашими друзьями:
  1   2   3   4   5   6


База данных защищена авторским правом ©nethash.ru 2017
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал