Разработка системы оптического распознавания факсимильного текста на основе скрытых марковских моделей



Скачать 87.26 Kb.
Pdf просмотр
Дата24.02.2017
Размер87.26 Kb.
Просмотров436
Скачиваний0

Математическое программирование и распознавание образов
1
РАЗРАБОТКА СИСТЕМЫ ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ
ФАКСИМИЛЬНОГО ТЕКСТА НА ОСНОВЕ СКРЫТЫХ
МАРКОВСКИХ МОДЕЛЕЙ
Аникеев М.В.
Наиболее распространённый подход к оптическому распознаванию текста включает в себя стадию посимвольной сегментации текста с последующим распознаванием каждого символа в отдельности. Обычно область печатного текста, занимаемую одним символом, достаточно легко идентифицировать с помощью выделения слитного набора точек приблизительно одинакового цве- та, соответствующего цвету тона символов. Однако в документах с низким качеством печати часто встречаются как слипшиеся, так и распавшиеся сим- волы, которые не поддаются формальной процедуре сегментации. Возникает дилемма: текст невозможно распознать без правильной сегментации и пра- вильно сегментировать без распознавания. Проблема сегментации особенно актуальна при распознавании факсимильных сообщений, так как для них ха- рактерно наличие различных помех в том числе длинных горизонтальных по- следовательностей чёрных или белых точек. Факсимильные сообщения также передаются в монохромном виде, что исключает возможность сегментировать символы по анализу изменений в градациях серого. Таким образом, исполь- зование метода, не требующего предварительной сегментации символов, при распознавании факсов является актуальным.
В [1] рассмотрен алгоритм, называемый алгоритмом построения уровней,
который позволяет проводить распознавание устной речи без предваритель- ной сегментации речевых фраз на слова. В алгоритме построения уровней каждому отдельному слову соответствует скрытая марковская модель. Рас- познавание состоит в отыскании оптимальной последовательности моделей слов, которая бы наилучшим образом соответствовала (в смысле максималь- ного правдоподобия) неизвестной цепочке связанных слов. В применении к распознаванию факсимильного текста предлагается построить модели, соот- ветствующие символам алфавита распознаваемого языка, и в процессе рас- познавания находить такие последовательности моделей символов, которые бы наилучшим образом соответствовали словам текста.
Для обучения моделей отдельные изображения обучающих символов за- носятся в базу данных. Каждое изображение масштабируется пропорцио- нально по ширине и высоте так, чтобы высота всех обучающих символов была одинаковой. Признаки символов выделяются из вектор-столбцов полу- ченных нормированных изображений. В качестве единственного типа при- знаков были взяты ближайшие в смысле хэммингова расстояния центры кластеров всего набора вектор-столбцов обучающей выборки, полученные методом k-средних [2]. В дальнейшем последовательности центров класте- ров представляют собой те последовательности наблюдений, на которых и происходит обучение моделей. Несмотря на то, что процедура кластеризации вносит незначительные искажения в изображения символов, она всё же необ- ходима, так как она на несколько порядков сокращает объём информации,

2
Труды XXXIII Молодежной школы-конференции с которой затем работают модели (для реальных факсимильных сообщений,
как правило, в 10 8
− 10 9
раз). Скрытые марковские модели обозначаются в виде тройки следующего вида: λ = (A, B, Π), где A− матрица вероятностей переходов из текущего скрытого состояния в следующее, B− матрица рас- пределения вероятностей наблюдений в зависимости от скрытого состояния в текущий момент времени, Π− вектор вероятностей нахождения системы в определённом скрытом состоянии в начальный момент времени. Обычно на значения элементов A, B и Π не накладываются никакие ограничения кроме необходимости нормирования значений в строках матриц. Однако для использования алгоритма построения уровней необходимо также выполнение следующих двух условий:
a ij
= 0, ∀((j < i) ∨ (j > i + 1)),
(1)
π
i
=
1,
если i = 1,
0,
иначе.
(2)
Модели, удовлетворяющие условиям (1) и (2), обычно называют лево-правы- ми моделями или моделями Бакиса. Обучение моделей символов проводится методом Баума-Уэлча [1].
Распознавание текста основано на поиске последовательностей скрытых марковских моделей символов, наиболее соответствующих эмпирическим данным изображения текста. На этапе предобработки в тексте находятся области, занимаемые отдельными строками, из которых выделяются отдель- ные слова. Затем изображения слов масштабируются пропорционально по горизонтали и по вертикали так, чтобы высоту слова привести к стандарт- ной размерности вектор-столбцов обучающей выборки. Последовательность наблюдений формируется из наиболее близких к вектор-столбцам центров кластеров, полученных на этапе обучения. С помощью полученной после- довательности наблюдений по алгоритму построения уровней находится по- следовательность моделей символов, которая соответствует распознаваемому слову. При этом сегментация букв происходит автоматически. (Аналогичный метод описан в [3], где предлагается подбирать оптимальную последователь- ность символов сразу для текстовой строки).
Испытания программы, разработанной по приведенному алгоритму по- казали, что доля правильно распознанных символов в различных образцах факсимильных сообщений составляет примерно 50-70%. Большое количество ошибок обусловлено, прежде всего, отсутствием необходимой предобработ- ки изображения (коррекция наклона строк, устранение помех), а также от- сутствием лингвистической коррекции. В ряде случаев программе удается добиться правильной посимвольной сегментации слов, даже если в словах встречаются неправильно распознанные символы. Перспективными направ- лениями усовершенствования рассмотренного метода являются объединение сегментации по алгоритму построения уровней с более эффективными ме- тодами распознавания изолированных символов, а также учет в процессе распознавания свойств языка (частота появления различных символьных со- четаний, коррекция по словарю). Также надежность распознавания может

Математическое программирование и распознавание образов
3
улучшиться если подобрать более гибкий классификатор вместо кластериза- ции вектор-столбцов по хэммингову расстоянию.
Список литературы
[1]. Рабинер Л.Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи: Обзор//ТИИЭР, т.77, N2, февраль
1989 - с. 86-120.
[2]. Дюран Б., Оделл П. Кластерный анализ. М.: Статистика, 1977.
[3]. Elms, A.J., S. Procter, J. Illingworth The advantage of using an HMM- based approach for faxed word recognition. Int. Jour. of Document Analysis
and Recognition, 1(1): 18-36, February 1998.

Document Outline

  • Информатика и вычислительная техника
    • Аникеев М.В. Разработка системы оптического распознавания факсимильного текста на основе скрытых марковских моделей

Каталог: materials
materials -> Тематика выпускных квалификационных работ, выполняемых под руководством преподавателей общеинститутской кафедры психологии образования иппо
materials -> 1 Введение. История Android
materials -> Гарольд Блаатанд "Синий зуб"
materials -> Контрольная работа Имя: Группа 1 2 3 4 5 6 7
materials -> Контрольная работа Имя: Группа 1 2 3 4 5 6 7
materials -> Программа работы стажерской площадки «Операционная система gnu linux- передовая технология для всех»
materials -> Тезисы доклада: Разработка и перспективы развития дистрибутива со вспо
materials -> Методические указания к лабораторным работам по курсу системное программное обеспечение


Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©nethash.ru 2019
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал