Труды мфти. 2014. Том 6, №4 А. А. Домунян 107




Дата05.04.2017
Размер0.53 Mb.
Просмотров89
Скачиваний0

ТРУДЫ МФТИ. — 2014. — Том 6, № 4
А. А. Домунян
107
УДК 004.93’11
А. А. Домунян
Институт проблем управления имени В. А. Трапезникова РАН
Программные средства для распознавания жестов руки
Рассматривается задача распознавания жестов руки. В качестве предобработ- ки сцены выбирается метод разностных изображений и оконтуривание объектов.
Описываются три уровня решения задачи. Описывается способ выделения признаков,
функции позиционного расстояния. Приводится метод обучения системы.
Ключевые слова: распознавание жестов, выделение признаков, позиционное рас- стояние, системы с обучением.
Существует широкий круг технических и бытовых приложений, автоматизация кото- рых сдерживается отсутствием удобной и дешевой вычислительной платформы. Так, на- пример, замена кнопочных выключателей комнатного освещения на умные выключатели,
управляемые с помощью жестов, требует использования такой относительно дорогой вы- числительной платформы, как персональный компьютер. Очевидно, что подобный подход не может быть использован для разработки коммерчески приемлемых умных выключа- телей минимальной стоимости. Другим примером могут служить бесконтактные способы управления самыми различными устройствами – от аудиосистем автомобилей до детских игрушек. В этих случаях умные управляющие устройства должны понимать наборы самых разнообразных команд.
Создание вычислительной платформы, которая на порядки дешевле, чем персональный компьютер и мобильный телефон, открывает дорогу в мир простых, удобных и умных устройств, которые рано или поздно найдут широкое применение в повседневной жизни.
Рис. 1. Определение локального признака
Целью работы является исследование математических и алгоритмических аспектов за- дач распознавания жестов руки, разработка математического и алгоритмического обеспе- чения, формулировка требований к аппаратным характеристикам платформы, зависящим от вычислительной сложности предлагаемых алгоритмов анализа видеоинформации и от существующей элементной базы. Заключительная часть работы посвящена натурному те- стированию разработанных алгоритмов в реальном масштабе времени.
Важным этапом распознавания жестов является решение задачи выделения признаков,
описывающих произвольные жесты. В качестве основной характеристики объекта исполь- зуется его контур. Оконтуривание является первым этапом процедуры выделения призна- ков. Последовательность контуров достаточно четко описывает изменяющуюся во времени

108
Математика, информатика, управление
ТРУДЫ МФТИ. — 2014. — Том 6, № 4
форму руки, о чем свидетельствует то обстоятельство, что человеку не представляет труда распознать жест по серии его контурных изображений.
Как отмечено в [1], фундаментальным способом оконтуривания является 2-мерное пре- образование Фурье, которое позволяет выделить низкочастотную составляющую спектра для ее последующего удаления. Затем, в результате применения обратного преобразова- ния Фурье, восстановленный исходный объект принимает вид контура, так как участкам плавного изменения яркости соответствует низкочастотная часть спектра, удаленная после прямого преобразования. Однако такой подход требует больших вычислительных ресурсов,
объем которых имеет порядок 0(??????
4
)
, ?????? × ?????? –– это размер изображения. Очевидно, что такая вычислительная нагрузка велика для работы с видеоклипами в реальном масштабе времени.
Другие фундаментальные способы оконтуривания связаны с использованием локаль- ных операторов, рассмотренных в [2]. В этом случае объем вычислительной нагрузки про- порционален 0(??????
2
) × 0(??????
2
)
, где ?????? ×?????? –– это размер локального окна, сканирующего весь кадр. Недостаток этого подхода состоит в том, что контуры неподвижных объектов также будут выделены, а представляющая их информация поступит для обработки в последую- щие модули системы. Таким образом, неподвижные объекты сцены будут обрабатываться многократно, в то время как их можно вообще не обрабатывать. Действительно, рука, при- нимающая форму определенного жеста, проходит через ряд промежуточных положений и, следовательно, достаточно рассматривать только динамику ее движения. Кроме того,
есть возможность избавиться от сомножителя 0(??????
2
)
, если рассматривать только точки изображения без их локальных окрестностей. С учетом вышесказанного в работе выбрана стратегия анализа пар изображений, результатом которого является разностное изображе- ние. При этом если объект неподвижен, то разностное изображение не существует, так как оно представлено в этом случае пустым множеством точек. Разностное изображение фор- мируется путем поточечного сравнения двух кадров и использования порога яркости ?????? .
Если разность яркостей двух точек с одинаковыми координатами (??????, ??????) меньше заданно- го порога, то в разностном изображении будет отсутствовать точка с координатами (??????, ??????).
Разностное изображение представляется неупорядоченным списком выделенных точек, то есть списком координат (??????
1
, ??????
1
)
, (??????
2
, ??????
2
)
,. . .,(??????
??????
, ??????
??????
)
, длина которого меняется в зависимо- сти от степени различия сравниваемых изображений.
Второй этап выделения признаков начинается с прореживания разностного списка. При прореживании в списке оставляется только каждая ??????-я точка (например ?????? = 10). Второй этап заканчивается определением угловой ориентации контурных точек по отношению к каждой точкe списка. Для этого каждая точка списка окружается квадратной локальной рамкой. Точки рамки перенумеровываются от 0 до ?????? − 1, где ?????? — это число точек в рамке.
Если рамка пресекает контур объекта в точке ??????, то признак описывается значением ??????. Если рамка пресекает контур объекта в точках ?????? и ??????, то признак описывается значениями (??????, ??????)
и т.д.
Очевидно, что выбранный способ представления контура является далеко не однознач- ным, так как разные контуры могут иметь одно описание. Однако экспериментально уста- новлено, что использование данных признаков позволяет на последующих этапах довести решение поставленной задачи до конца.
Последовательность выделенных признаков является входной информацией для систе- мы распознавания признаков, выходом которой является множество имен распознанных признаков и которая завершает этап выделения признаков.
Для распознавания жестов необходимо решить следующие задачи: распознавания ло- кальных признаков, описывающих контур руки, распознавание отдельных контуров и рас- познавание динамических последовательностей контуров, представляющих жесты.
Первая задача, то есть задача распознавания признаков, сводится к следующей задаче поиска ближайшего соседа. Пусть ??????
??????
, ?????? ∈ ??????, — это конечный набор конечных множеств.

ТРУДЫ МФТИ. — 2014. — Том 6, № 4
А. А. Домунян
109
Для заданного конечного множества ?????? требуется найти множество ?????? такое, что
?????? (??????
??????
, ?????? ) = min
??????∈??????
??????(??????
??????
, ?????? ).
Здесь ??????(??????
??????
, ?????? )
— это расстояние между множествами ??????
??????
и ??????.
Каждое множество ??????
??????
, а также множество ?????? — это множества чисел {??????
1
, ??????
2
, . . . , ??????
??????
}
,
значения которых равны локальным ориентациям контурных точек относительно цен- тральной точки локальной рамки. Поскольку множества {??????
1
, ??????
2
, . . . , ??????
??????
}
могут иметь раз- ное число элементов, то рассматриваемая задача не сводится к сравнению ?????? -мерных век- торов, а требует сравнения множеств переменной длины. Для этого используется метод позиционного расстояния, предложенный в [1–2].
Поскольку максимальное число угловых ориентаций, представляющих локальный при- знак, равно ??????, то каждое множество ??????
??????
можно взаимнооднозначно представить бинарной последовательностью, содержащей ?????? разрядов. Так если ?????? = 8, то набор чисел 0, 4 и 6
представляет последовательность 001010001. В общем случае нормализованное позицион- ное расстояние между двумя множествами имеет вид
???????????? (??????, ??????) =
∑︀
??????
&(??????
??????
?????????????????? ??????
??????−??????
)
∑︀
??????
(??????
??????
??????????????????
??????−??????
)
,
(1)
где |??????| ≤ ??????, ?????? < ?????? и ?????? = 1, 2, . . . , ??????.
Так если ?????? = 1000110000100100001 и ?????? = 0100001001000010010, то позиционное рас- стояние между ?????? и ?????? равно нулю ???????????? (??????, ??????) = 0 при ?????? = 2. Это означает, что смешение позиций точек внутри радиуса ?????? не влияет на позиционное расстояние между последова- тельностями.
Нормированное позиционное расстояние изменяется в интервале от 0 до 1. Если рассто- яние ?????? между неизвестным входным признаком и ближайшим признаком из базы данных,
содержащих на текущий момент ?????? признаков, превышает порог ??????
1
, то неизвестный при- знак получает имя ?????? + 1 и заносится в базу данных. Создаваемое новое имя по существу является именем нового класса, к которому будут отнесены все признаки, являющиеся со- седями (с точностью до порога ??????
1
) признака, занесенного в базу данных. Если ?????? ≤ ??????
1
, то входной признак идентифицируется именем его ближайшего соседа. Таким образом, база признаков, вначале пустая, постоянно расширяется.
Задача распознавания отдельных контуров по совокупности описывающих их призна- ков ставится следующим образом. Входной информацией служит набор имен признаков,
описывающих текущий контур. Если признак повторяется в контуре ?????? несколько раз, то число повторений игнорируется. Обозначая контур, подлежащий идентификации через ??????,
а число контуров в базе контуров на текущий момент через ??????, мы приходим к необходи- мости минимизации следующего выражения:
???????????? (??????, ?????? )→ min
??????∈??????
,
где расстояние
???????????? (??????, ?????? ) =
∑︀
??????
(???????????? ?????????????????? ????????????)
∑︀
??????
(???????????? ???????????? ????????????)
(2)
вычисляется путем представления множеств ?????? и ?????? в виде бинарных последовательностей,
аналогично тому, как это делалось при решении первой задачи. Как и при решении первой задачи, если расстояние ?????? между неизвестным входным описанием контура и ближайшим контуром из базы данных, содержащих на текущий момент ?????? контуров, превышает по- рог ??????
2
, то неизвестный контур получает имя ?????? +1 и заносится в базу данных. Создаваемое новое имя будет именем нового класса, к которому будут отнесены все контуры, являю- щиeся соседями (с точностью до порога ??????
2
) контура, занесенного в базу данных.

110
Математика, информатика, управление
ТРУДЫ МФТИ. — 2014. — Том 6, № 4
Задача распознавания динамических последовательностей контуров, представляющих жесты, ставится во многом аналогично задачам 1 и 2. При этом входной информацией слу- жат имена контуров, идентифицированных на втором уровне. Однако на данном третьем уровне необходимо учитывать порядок следования контуров в видеоклипе. Учет поряд- ка обеспечивается путем распознавания последовательностей имен контуров с помощью множеств со взвешенными элементами и путем минимизации расстояния
???????????? ?????? (??????, ?????? ) → min
?????? ∈??????
,
где
???????????? ?????? (??????, ??????) =
∑︀
??????
min(??????
??????
, ??????
??????
)
∑︀
??????
max(??????
??????
, ??????
??????
)
,
(3)
??????
пробегает имена клипов-кандидатов, ?????? — это имя идентифицируемого клипа, а коэф- фициенты ??????
??????
, ??????
??????
— это веса элементом аппроксимирующих множеств.
Перед началом обучения фиксируются внешние классы клипов, число которых равно числу жестов, подлежащих распознаванию. Однако при выбранном значении порога 3-го уровня ??????
3
< 1
меньше единицы, число внутренних классов, то есть классов, автоматиче- ски создаваемых системой на третьем уровне, может превышать число внешних классов третьего уровня. Таким образом, несколько внешних классов могут соответствовать одно- му внутреннему классу, что учитывается с помощью функции соответствия ??????: внешний класс = ?????? (внутренний класс). Замечу, что на 1-м и 2-м уровнях внешние классы отсут- ствуют.
Литература
1. Михайлов А.М.
Распознавание образов с помощью их индексирования // Автоматика и телемеханика. — 2012. — Вып. 4. — С. 151–161.
2. Дуда Р., Харт П.
Распознавание образов и анализ сцен. — М. : Мир, 1976.
Поступила в редакцию 27.02.2013.


Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©nethash.ru 2017
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал