Гринкруг Ефим Михайлович (должность, звание) подпись (Ф. И. О.) (Дата) Москва, 2014 г реферат



страница5/7
Дата20.11.2016
Размер1.22 Mb.
Просмотров2021
Скачиваний0
ТипРеферат
1   2   3   4   5   6   7

Вещественный AdaBoost

Классификатор вещественный AdaBoost [21] является обобщением дискретного AdaBoost [20]. Рассмотрим оба классификатора.

Пусть мы имеем обучающее множество , где – вектор признаков,а – метка класса. Тогда классификатор:

где – слабый классификатор, возвращающий значения из множества -1,1, а - константы. Результат работы классификатора определяется как знак функции :




Процедура AdaBoost обучает слабые классификаторы на взвешенном обучающем множестве, увеличивая веса тех элементов, которые были неверно классифицированы. Это делается для последовательности взвешенных значений, а затем итоговый классификатор представляется как линейная комбинация классификаторов, полученных на каждом из шагов. Ниже представлен подробный алгоритм Descrite AdaBoost:




  1. Задаются начальные веса

  2. Для каждого

    1. Обучить классификатор используя взвешенной обучающее множество.

    2. Подсчитать ошибку классификации



– представляет собой математическое ожидание, вычисленное для взвешенного обучающего множества, а – идентификатор множества

    1. Обновить веса

и нормализовать их, так чтобы



На каждой итерации увеличиваются веса неверно классифицированных векторов на значение, определяемое взвешенной ошибкой классификации.



    1. Результат:

Л. Брейман в работе [3] продемонстрировал, что использование классификаторов основанных на деревьях в качестве слабых дает хорошие результаты. Кроме того в различных тестах было показано, что с увеличением количества классификаторов увеличивается точность работы алгоритма на тестовых множествах, что демонстрирует устойчивость AdaBoost к переобучению. Более того, бустинг работает сравнительно хорошо, даже когда в качестве классификаторов используются пеньки – деревья только с одной корневой вершиной и двумя терминальными.

Обобщением дискретного AdaBoost стал вещественный AdaBoost, использующий предикторы возвращающие значение вероятности принадлежности к классу. Множество значений слабого классификатора находится уже в области вещественных чисел. Знак определяет класс, а вероятность. Ниже представлен алгоритм вещественного AdaBoost:


  1. Задаются начальные веса

  2. Для каждого

    1. Обучается классификатор, возвращающий вероятность принадлежности к классу, используя обучающее множества с весами :





    1. Обновить веса


и нормализовать их, так чтобы



    1. Результат:

Для уменьшения времени вычислений для подобных моделей без существенной потери в точности используется техника обрезания. По ходу выполнения алгоритма и роста количества деревьев большое количество примеров из обучающего множества начинают классифицироваться корректно все с возрастающей вероятностью. Следовательно, вес таких примеров уменьшается. Примеры с малым весом дают соответственно малый вклад в обучение слабых классификаторов. Поэтому такие примеры могут быть удалены при обучении, без большого вреда для результатов обучения слабого классификатора. Для этого может быть задано пороговое значение для обрезания обучающего множества. Надо заметить, что эта процедура повторяется индивидуально для каждого слабого классификатора, и обрезанные на одной стадии примеры могут быть использованы при обучении на следующих стадиях.


    1. Деревья решений

В реализации алгоритмов бустинга в библиотеке OpenCV в качестве слабых классификаторов используются деревья принятия решений.

Дерево принятия решений — это бинарное дерево (дерево, у которого каждая не листовая вершина имеет две дочерних). Оно может быть использовано, как для задач классификации, так и для регрессии.

Классификация с использованием деревьев осуществляется следующим образом. Процедура предсказания начинается с корневой вершины. Из каждой нелистовой вершины процедура предсказания идет налево или направо, в зависимости от значения определенной переменной из вектора признаков, чей индекс хранится в текущем узле. Для этого значение переменной сравнивается с пороговым значением хранящимся в узле. Если значение меньше порога, то процедура идет налево, иначе – направо.

В каждом узле используется пара индекс переменной, порог. Эта пара называется разбиением. Когда достигается листовой узел, значение хранящееся в нем используется как результат работы классификатора.

Деревья строятся рекурсивно, начиная с корневого узла. Все обучающее множество используется для разбиения корня. В каждом узле лучшее разбиение выбирается при помощи какого-то критерия. В машинном обучении для классификации используется критерий чистоты Джини, который показывает как часто случайно выбранный элемент из множества будет неверно классифицирован, если он будет классифицирован случайным образом в соответствии с распределением меток в подмножестве. Он может быть рассчитан как произведение суммы вероятностей каждого элемента быть выбранным на вероятность неверной классификации этого элемента.



А для задач регрессии, численного предсказания, используется в качестве критерия сумма квадратов ошибок.

Все данные разделяются в соответствии с выбранным разбиением на два подмножества, которые используются для обучения левого и правого поддеревьев. На каждом шаге рекурсивная процедура может остановится в одном из следующих случаев:



  • Достигнута максимальная глубина дерева.

  • Мощность обучающего множества в узле меньше заданного порога, и не является представительной.

  • Все примеры в узле принадлежат одному множеству или, в случае регрессии, вариация между ними мала.

  • Лучшее выбранное разделение не дает заметного выигрыша в сравнении со случайным выбором.



    1. Каталог: data -> 2014
      2014 -> Особенности проведения маркетИнговых исследований для новых товаров
      2014 -> Программа исследования 28
      2014 -> Специализированный журнал автомобильной тематики: специфика аудитории, контента, продвижения на рынок
      2014 -> Федеральное государственное автономное образовательное
      2014 -> Программа «Управление образованием»
      2014 -> Приложения выберите пункт Электронная почта
      2014 -> Клиент-серверная система на основе беспроводной сети стандарта ieee 802. 15. 4
      2014 -> Растущая конкуренция в современном мире заставляет страны и регионы пересматривать их подход к экономическому развитию. Сегодня региональные власти ищут новые способы создания и развития инновационных компаний


      Поделитесь с Вашими друзьями:
1   2   3   4   5   6   7


База данных защищена авторским правом ©nethash.ru 2019
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал