Уточняющие нейронные сети



Скачать 21.33 Kb.

Дата17.02.2017
Размер21.33 Kb.
Просмотров67
Скачиваний0

УДК 004.85
Уточняющие нейронные сети
Кочетов К.С., бакалавр, гр. M3437, Университет ИТМО, г. Санкт-Петербург
Научный руководитель – Путин Е. О., аспирант кафедры КТ Университета ИТМО

Введение
Искусственные нейронные сети (ИНС) хорошо зарекомендовали себя как гибкий и универсальный инструмент машинного обучения и анализа данных. Они способны конкурировать с другими инструментами на большинстве задач, а в каких-то случаях (при работе с изображением, звуком или текстом) даже показывать лучшие результаты. На протяжении многих лет с момента изобретения [1] этот инструмент всячески модернизировали и изучали, в частности улучшали существующие или предлагали новые алгоритмы обучения [2]. Кроме этого, были изобретены другие вариации ИНС [3], которые нашли применение в различных областях (текст, звук, изображения).
Классификация - одно из основных применений ИНС, например, классификация рукописных цифр [4] или извлечение фонем/букв из речи человека. Но существует всего несколько типов ИНС, использующих априорное распределение вероятностей классов для принятия решения. Например, сети Джордана [5] и сети Элмана [6], которые также называют
“простые рекуррентные сети”. В отличие от обычного MLP сеть Элмана имеет дополнительные (контекстные) нейроны, которые получают сигналы из скрытого слоя сети и распространяют в тот же скрытый слой с задержкой минимум один тик. Контекстные нейроны сети Джордана соединены с выходными нейронами в отличие от сети Элмана, но работают по тому же принципу. В данной работе представлено новое архитектурное решение ИНС под названием SpecNN (the specifying neural network), схожее с сетями Джордана, а основной идеей является использование априорного распределение вероятностей классов для уточнения спорных случаев в проблеме классификации (когда пример можно классифицировать по- разному с примерно равными вероятностями).
Цель работы

Целью данной работы является исследование эффективности SpecNN в общем, а также в спорных случаях в проблеме классификации, и его сравнение с MLP на ряде наборов данных.
Описание предлагаемого подхода
Нейронная сеть имеет дополнительные входы (размерность совпадает с размерностью выходного слоя сети), которые мы назвали уточняющими. В процессе обучения на эти входы подается два максимальных сигнала, полученные на выходе сети для этого конкретного примера из обучающие выборки. Благодаря обнулению большинства сигналов (не максимальных) для подачи на уточняющие входы, мы избавляемся от шума и позволяем уточняющему кластеру определять похожие классы в процессе обучения. Далее сигнал распространяется во второй слой уточняющего блока (если он есть), и затем подается либо на выход сети, либо на первый скрытый слой. В качестве инициализации используем вектор из нулей, который подаем на уточняющие входы в первую эпоху обучения сети. Также, в данной работе рассмотрен альтернативный способ обучения сети: сначала обучаем обычный MLP, затем добавляем еще необученный уточняющий кластер и продолжаем обучение до тех пор,
пока не придем в локальный минимум ошибки. В качестве функции активации для выходов уточняющего кластера применена функция softmax.
Результаты
Реализовано архитектурное решение ИНС под названием SpecNN. Поставлен эксперимент, в ходе которого сравнивалась эффективность различных вариаций SpecNN с
MLP на различных наборах данных, в ходе которого практически все вариации SpecNN имели большую точность классификации и сходились быстрее, чем MLP. Сделан вывод, что SpecNN лучше всего подходит для мелко-зерновой классификации.
Список литературы
1.
Rosenblatt, Frank. "The perceptron: a probabilistic model for information storage and organization in the brain." Psychological review 65.6 (1958): 386.
2.
Riedmiller, Martin, and Heinrich Braun. "A direct adaptive method for faster backpropagation learning: The RPROP algorithm." Neural Networks, 1993., IEEE International Conference
on. IEEE, 1993.
3.
LeCun, Yann, and Yoshua Bengio. "Convolutional networks for images, speech, and time series." The handbook of brain theory and neural networks 3361.10 (1995): 1995.
4.
Cun, Y. Le, et al. "Handwritten digit recognition with a back-propagation network."Advances
in neural information processing systems 2. Morgan Kaufmann Publishers Inc., 1990.
5.
Jordan, Michael I. "Serial order: A parallel distributed processing approach."Advances in
psychology 121 (1997): 471-495.
6.
Elman, Jeffrey L. "Finding structure in time." Cognitive science 14.2 (1990): 179-211.
Кочетов К.С.
Путин Е.О.
Парфенов В. Г.


Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©nethash.ru 2017
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал