Наука о представлении данных – обзор и новые перспективы Representation Learning: a review and New




страница1/9
Дата11.02.2017
Размер0.89 Mb.
Просмотров500
Скачиваний2
  1   2   3   4   5   6   7   8   9

Наука о представлении данных – обзор и новые перспективы
(Representation Learning: A Review and New
Perspectives)
Yoshua Bengio, Aaron Courville, and Pascal Vincent
Department of computer science and operations research, U. Montreal also, Canadian Institute for Advanced Research (CIFAR)
Оригинальная статья, по которой делался перевод, доступна по сылке http://arxiv.org/pdf/1206.5538.pdf
Более новые версии могут быть найдены по ссылке http://arxiv.org/abs/1206.5538
От переводчика
Трудность перевода этого документа началась уже с заголовка – в оригинале он звучит как Representation Learning: A Review and New
Perspectives, где трудность представляет термин Representation Learning.
Дословно его можно перевести как Обучение представлениям, или Обучение
представлений, что на русском выглядит полной белибердой. В контексте тематики статьи его можно расширить до «Машинное обучение
представлений данных», что несколько улучшает понимание, но не сильно.
Дело в том, что в сообществе англоязычных инженеров по машинному обучению термин настолько устоялся, что понимается сам собой, а подобранные английские слова очень точно передают его суть: Representation
Learning – это область науки о машинном обучении на базе определенного представления
(кодирования, хранения) данных для выделения определенных признаков. Поэтому также термину Representation Learning часто ставят в синонимы второй термин – Feature learning – машинное обучение, направленное на выделение нужных признаков из данных. Причем со вторым термином дела не лучше, так как русское слово «признак» тоже не настолько меткое в этом контексте, как feature, и требует поясняющих синонимов, таких как «особенность», «метка», из-за чего даже простая калька с английского «выделение фичей» начинает звучать понятнее. В тексте статьи часто встречается Representation Learning, но в разных пониманиях – иногда в понимании «область науки», иногда смысловое ударение идет именно на «обучение», а иногда на «представление данных».
Поэтому, с вашего позволения (или не позволения) я буду этот термин переводить «по месту», преобразуя его в ту или иную форму, которая ближе к контексту. В целом я старался подыскивать русскоязычные термины, чтобы перевод не превратился совсем уж в «Бенчмарк репрезентационного тренинга фич ансупервайзерного автоэнкодера и манифолд лёнинга».

Ну и самое главное. Я понял из оригинала всего лишь около 60% информации, а потому сам бы назвал получившийся у меня перевод безапелляционно отвратительным. Непонятые части статьи скорее всего переведены мной неправильно, так как само построение предложений в оригинальном тексте для меня достаточно сложное, а термины по большей части незнакомые. Но так как перевод делался в первую очередь «для себя», то уж как есть, прошу прощения. Надеюсь, данный перевод сгодится хотя бы как приманка для поисковиков, чтобы читатели могли найти русскоязычные названия интересующих понятий, с тем чтобы далее перейти на более подробную литературу по этому вопросу в ссылках на англоязычные источники. Места перевода, которые вызвали у меня наибольшие затруднения, выделены желтым цветом.
М.М.Лашкевич maxsoftpage@yandex.ru
Аннотация
Успех алгоритмов машинного обучения главным образом зависит отпредставления данных, и мы предполагаем, что разные представления данных могут одни сильнее, другие слабее запутывать и скрывать те или иные первопричины и факторы изменчивости, лежащие в основе данных.
Хотя и специфические знания о конкретной предметной области могут быть использованы в качестве помощи в построении удобного представления данных, машинное обучение «в общем виде» также активно применяется, и задача для исследователей искусственного интеллекта создать мощные алгоритмы обучения и представления данных, чтобы реализовать такое обучение «в общем виде». Этот документ является обзором на последние работы в таких областях, как обучение выделению признаков без учителя
(unsupervised feature learning), глубокое обучение (deep learning), охватывает достижения вероятностных моделей (probabilistic models), автокодировщиков
(auto-encoders), обучение на базе многообразий (manifold learning) и глубокие нейросети (deep networks). Данная работа освещает традиционные нерешенные вопросы об обеспечении качественного машинного обучения на базе определенных представлений данных, о вычислении представлений данных (так называемый вероятностный вывод) и геометрической взаимосвязи между обучением представлений данных, оценкой плотности данных и обучением на базе многообразий.
Ключевые слова:
Глубокое обучение, машинное обучение, представление данных, обучение признакам, обучение без учителя, машина
Больцмана, автокодировщик, нейронный сети.
1 Введение


Успешность методов машинного обучения сильно зависит от выбора представления данных, с которыми работают эти методы. По этой причине большинство усилий в развертывании алгоритмов машинного обучения направлено на предварительную ручную обработку и преобразование данных, чтобы в итоге получить нужное представление данных (выделить признаки), которая пригодна для эффективного машинного обучения. Такое выделение признаков важно, но очень трудозатратно, а также оно показывает слабость существующих алгоритмов машинного обучения: их неспособность самостоятельно извлекать и организовывать конкретную интересующую информацию из сырых данных. Ручное выделение признаков использует человеческую изобретательность и априорные знания, чтобы компенсировать эту слабость машинного обучения. С целью расширить и упростить применение машинного обучения очень желательно сделать алгоритмы обучения менее зависимыми от ручного выделения признаков, чтобы новые задачи могли решаться быстрее, и, что более важно, это приблизило бы нас к созданию полноценного искусственного интеллекта. Искусственный интеллект должен фундаментально понимать мир вокруг нас, и мы считаем, что это может быть достигнуто, если мы сможем научить его идентифицировать и выделять лежащие в основе всего причины и факты, скрытые от наблюдателя за низкоуровневыми входными данными.
Этот документ главным образом рассказывает об области науки машинного обучения и представления данных (representation learning), т.е. об алгоритмах обучения на базе некоторого формата хранения данных, который делает проще извлечение необходимой информации при дальнейшем построении какого-либо классификатора или предсказательной модели. В случае вероятностных моделей хорошим представлением данных чаще всего является апостериорное вероятностное распределение (posterior distribution) лежащее в основе как первопричина для наблюдаемых входных данных.
Такое хорошее представление данных может служить в качестве источника данных для какого-либо еще более высокоуровневого классификатора. Среди различных путей машинного обучения данный обзор фокусируется в основном на методах глубокого обучения, которые формируются как многоуровневая суперпозиция линейных и нелинейных преобразований с целью на верхнем уровне получить более абстрактную и гораздо более полезное представление данных. Здесь мы рассмотрим эту быстро развивающуюся область со специальным акцентом на самые последние достижения. Мы поднимем некоторые фундаментальные вопросы, которые решаются исследователями в этой области. Действительно, что делает одни представления данных лучше, чем другие? Например, как мы должны пользоваться такими представлениями данных, т.е. выполнять извлечение нужных нам признаков данных? Что нужно сделать для получения хороших представлений данных?
2 Почему мы должны беспокоиться о представлении данных?

Область науки о представлении данных (Representation Learning,
репрезентационное обучение) становится самостоятельной областью в сообществе специалистов по машинному обучению, с регулярными семинарами и конференциями, такими как NIPS и ICML, и с новой конференцией ICLR, иногда проходящей под заголовком Глубокое обучение
(Deep Learning) или Обучение признаков (Feature Learning). Несмотря на то, что глубина представления данных и является важной частью всего повествования, много других более ранних достижений машинного обучения также интересны для рассмотрения, и всё это можно красиво расставить по местам, когда все методы будут классифицированы как части науки о представлении данных, как показано в следующей главе. Быстрый рост научной активности в этой области сопровождается и вдохновляется значительными практическими успехами, причем как в учебных заведениях, так и в коммерческом применении. Ниже мы кратно рассмотрим некоторые основные примеры.
Распознавание речи и обработка сигналов

Распознавание речи было одним из самых ранних применений искусственных нейронных сетей, в частности свёрточных (или с временной задержкой) нейросетей. Последние исследования в нейронных сетях, глубоком обучении и представлении данных были нацелены в область распознавания речи с демонстрацией прорывных результатов (Dahl et al.,
2010; Deng et al., 2010; Seide et al., 2011a; Mohamed et al., 2012; Dahl et al.,
2012; Hinton et al., 2012), полученных как в учебных, так и в коммерческих лабораториях, которые широко распространили эти алгоритмы в своих продуктах. Например, Майкрософт выпустила в 2012 году новую версию своего MAVIS (Microsoft Audio Video Indexing Service), системы, основанной на глубоком обучении (Seide et al., 2011a). Им удалось уменьшить степень распознавания ошибок в словах на четырех основных сравнительных тестах на 30% (с 27,4% до 18,5% на RT03S) в сравнении с другими недавно предложенными моделями, основанными на гауссовых смесях (Gaussian mixtures) для акустических моделей и обученными на том же объеме данных
(около 309 часов речи). Относительное улучшение (от 16% до 23%) в уменьшении уровня ошибок получено Dahl et al. (2012) на небольшом сравнительном тесте по распознаванию речи с большим словарным запасом
(Bing mobile business search dataset, 40 часов речи).
Алгоритмы машинного обучения также могут быть применены к музыке, в значительной степени обходя существующие полифонические транскрипции (Boulanger-Lewandowski et al., 2012), с относительном улучшением от 5% до 30% на стандартном сравнительном тесте из четырех наборов данных. Глубокое обучение также помогло выиграть соревнования
MIREX (Music Information Retrieval), например в 2011 на разметке аудиоданных (Hamel et al., 2011).

Распознавание образов
Начальные работы в области глубокого обучения в 2006-м году были направлены на распознавание рукописных цифр – соревнование MNIST
(Hinton et al., 2006; Bengio et al., 2007), превосходно побеждая метод опорных векторов (SVM) с точностью 1,4% на этом наборе данных. Следующие победы завоевывают также глубокие нейросети: Ciresan et al. (2012) заслуживает победу в версии соревнования без дополнительных условий с ошибкой в 0,27%, а Rifai et al. (2011c) побеждает в версии MNIST с требованием не применять априорные знания о специфике конкурса в алгоритме распознавания (с ошибкой 0,81%).
Последние несколько лет глубокое обучение сдвинулось от распознавания цифр к распознаванию объектов на естественных изображениях, и последний прорыв был достигнут на наборе данных
ImageNet, опустив ошибку распознавания с 26,1% до 15,3% (Krizhevsky et al.,
2012).
Обработка естественного языка
Вместе с распознаванием речи наука о представлении данных широко применяется для обработки естественного языка (Natural Language Processing
– NLP). Распределенное представление (Distributed representations) данных для символьных данных была предложена Hinton (1986) и впервые разработана в контексте статистического языка Bengio et al. (2003) в так называемой языковой модели на базе нейросети (neural net language models)
(Bengio, 2008). Все такие модели основаны на машинном обучении в распределенном представлении данных каждого слова, что называется тармином внутреннее представление слов (word embedding). Добавляя сверточную архитектуру, Collobert et al. (2011) разработал систему SENNA, которая обобщает одно представление данных для разных задач обработки языка: выделение частей речи, разметка семантической роли, распознавание сущностей и т.п. SENNA уже достигает или превосходит последние достижения в этой области, но при этом она проще и гораздо быстрее, чем существующие классификаторы. Обучение по технологии встраивания слов может комбинироваться с системой распознавания изображений для ассоциирования текста и изображений. Это было успешно сделано поиском изображений Гугла, использующего большие объемы данных для разметки изображений (Weston et al., 2010), после чего недавно было расширено мультимодальными представлениями данных (Srivastava and Salakhutdinov,
2012).
Языковая модель на базе нейросети также была улучшена путем добавления обратных (рекуррентных) связей к скрытым слоям (Mikolov et al.,
2011), позволяя победить наилучшие на то время сглаженные n-граммные модели (smoothed n-gram models) не только в терминах «недоумения»

(perplexity)
(экспонента от среднего отрицательного логарифма правдоподобия для предсказания следующего слова справа опустилась с 140 до 102), но также и в терминах степени ошибки в распознавании речи (так как языковая модель – важная часть системы распознавания речи), уменьшив ошибку с 17,2% (KN5 baseline) или 16,9% (дискриминационная языковая модель) до 14,4% по сравнительным тестам Wall Street Journal. Подобные модели были применены в статистическом машинном переводе (Schwenk et al., 2012; Le et al., 2013), улучшив показатели в BLEU тестах. Также были использованы рекурсивные автокодировщики
(с обобщенными рекуррентными нейросетями), чтобы выиграть соревновании по детектированию пересказа текста (Socher et al., 2011a), почти удвоив F1 очки по этому соревнованию. Наука о представлении данных также может быть использована для поиска неоднозначности слов (Bordes et al., 2012), подняв точность с 67,8% до 70,2% на наборе Senseval-3, где система была применена. Завершая, можно сказать что она также может быть применена в анализе настроений (Glorot et al., 2011b; Socher et al., 2011b).
Многозадачное и передаваемое обучение, адаптация к области знаний
Передаваемое обучение – это возможность обучающему алгоритму использовать общее между различными задачами обучения с целью усиления статистической взаимосвязи и передачи знания из одной задачи в другую.
Как будет показано далее, мы предполагаем, что что алгоритмы машинного обучения, базирующиеся на науке о представлении данных (representation learning algorithms) имеют преимущество для таких задач, так как они обучаются первопричинам (факторам), лежащим в основе, часть которых может подходить к каждой из различных задач, как показано на рис. 1. Эта гипотеза выглядит подтвержденной многими практическими результатами, показывающими силу таких алгоритмов обучения для передаваемого от задачи к задаче обучения.
Рис. 1. На рисунке показано, как алгоритмы машинного обучения, базирующиеся на науке о представлении данных, находят первопричинные
факторы (средний скрытый слой, красным), лежащие в основе видимых входных данных, и вычисляют соответствующие цели для каждой из трех задач. Так как подмножества задач накладываются и совместно используются, увеличивая статистическую взаимосвязь, это помогает обобщению в обучении.
Два самых впечатляющих соревнования по передаваемому обучению были проведены в 2011-м году и были выиграны алгоритмами машинного обучения, базирующимися на обучении представлений данных. Первое соревнование, представленное на конференции ICML 2011, было выиграно при использовании послойного предобучения без учителя (unsupervised layer- wise pre-training) (Bengio, 2011; Mesnil et al., 2011). Второе соревнование было в тот же год и выиграно Goodfellow et al. (2011). Результаты представлены на конференции NIPS 2011 Challenges in Learning Hierarchical
Models Workshop. В связанной задаче адаптации области знаний объекты- цели остаются теми же, а входное распределение меняется (Glorot et al.,
2011b; Chen et al., 2012). Для мультизадачного обучения подход на базе представлений данных также имеет преимущества: Krizhevsky et al. (2012);
Collobert et al. (2011), так как обобщает первопричинные факторы от задачи к задаче.
3 Что делает представления данных хорошими?
3.1. Основы обучения представлений данных для целей ИИ
В статье Bengio and LeCun (2007) были введены понятия задач для искусственного интеллекта (ИИ-задач), с которыми в настоящее время работают алгоритмы машинного обучения и которые включают сложные, но высокоструктурированные зависимости. Одна из причин, по которой явная работа с представлениями данных интересна сама по себе, это то, что удобные представления данных могут выражать и демонстрировать много обобщающих положений, базисов о мире вокруг нас, т.е. положений, которые не являются специфичными для конкретной задачи, но нужны для машинного обучения и для решения ИИ-задач в целом. Примеры таких положений общего назначения следующие:

Гладкость: полагает, что функция f, которой алгоритм будет обучен, в общем случае подразумевает f(x) ≈ f(y) при x ≈ y. Это главное положение машинного обучения, но недостаточное, чтобы обойти проблему «проклятия размерности» (curse of dimensionality), которая будет рассмотрена в главе 3.2.

Множественные объясняющие факторы (первопричины): входные данные являются результатом взаимодействия многих лежащих в основе факторов, однако обучение ИИ одному новому фактору приводит в общем случае к обобщению его в конфигурациях других факторов. Задача извлечения или, по крайней мере, выявления этих
основополагающих факторов изменчивости обсуждается в главе 3.5.
Это положение подталкивает к идее распределенного представления данных, что будет раскрыто далее в главе 3.3.

Иерархия в организации объясняющих факторов (первопричин):
понятия, которые используются для описания мира вокруг нас, могут быть определены в терминах других понятий, иерархически, с более абстрактными понятиями вверх по иерархи. Это положение используется в глубоких представлениях данных и описывается в главе
3.4.

Частичное обучение с учителем (Semi-supervised learning): для входов X и цели для предсказания Y, набор факторов, объясняющий вероятностное распределение X, объясняет и многое из Y при условии
X. Следовательно, представление данных, которое удобно для вычисления P(X) становится удобно и для обучения P(Y|X), позволяя объединить статистическую взаимосвязь между машинным обучением с учителем и без учителя – см. главу 4.

Общие факторы от задачи к задаче: с большим количеством целей Y или большим количеством задач обучения, те задачи (т.е. соответствующие P(Y|X, условие)), которые используют общие с другими задачами объясняющие факторы, позволяют использовать статистическую взаимосвязь обучения между разными задачами, как было описано в предыдущей главе (Многозадачное и передаваемое обучение, адаптация к области знаний).

Многообразия (Manifolds): основная плотность вероятности данных сосредоточена около регионов, которые имеют намного меньшую размерность, чем оригинальное пространство, где находятся данные.
Это свойство используется в некоторых алгоритмах автокодировщиков и других алгоритмах, в которых решается задача моделирования многообразий, что описано в главах 7.2 и 8.


Естественная
кластеризация: разные значения категорий переменных, такие как классы объектов, ассоциируются с различными многообразиями. Более точно, локальные изменения в многообразии имеют тенденцию к сохранению значения самой категории, а линейная интерполяция между примерами разных классов проходит в общем случае через регионы с низкой плотностью вероятности, т.е. плотность вероятности P(X|Y = i) для разных i стремится разделяться и не накладываться.
Например, это свойство используется в тангенциальном классификаторе на базе многообразий (Manifold
Tangent Classifier), описанном в главе 8.3. Эта гипотеза основана на той идее, что люди дают названия (имена) категориям и классам на базе статистической схожести входящих объектов (как это подсказывает здравый смысл и культура). Аналогично и задачи машинного обучения включают в себя разбивку значений на категории.

Временная и пространственная связность: наблюдения, сделанные в соседних областях пространства или полученные последовательно во
времени должны стремиться ассоциироваться с одинаковыми значениями соответствующей категории понятий, или приводить к небольшому движению по поверхности многообразия высокой плотности. При попытке сделать изменение в категориях, вызванное факторами с различным временным и пространственным масштабом, такое изменение должно происходить очень медленно, т.е. должно быть введено ограничение на изменения «сквозь время и пространство». Это положение было введено Becker and Hinton (1992) и рассмотрено в главе 11.3.

Разреженность (Sparsity): для любого данного наблюдения x только малая часть из всех возможных факторов (первопричин события) является значимой. В терминах представления данных это может быть описано в виде детектируемых признаков, большая часть которых нулевая (как изначально было предложено Olshausen and Field (1996)), или, другими словами, что большая часть выделенных признаков нечувствительна к малым изменениям наблюдения x. Это свойство может достигаться за счет специальной формы скрытых переменных
(стремящихся быть нулевыми), или за счет нелинейности, значение которой по большей части лежит около нуля (т.е. ноль с нулевой производной), или просто за счет искусственного ограничения амплитуды матрицы Якобиана (или производных) функции преобразования входных данных в выбранное представление данных.
Это обсуждается в главе 6.1.1 и 7.2.

Простота зависимости факторов: в хороших высокоуровневых представлениях данных факторы связаны друг с другом через простые, обычно линейные зависимости. Этому можно найти подтверждение во многих законах физики. Также доводы этого положения принимаются во внимание, когда на выход уже обученного представления данных подключается линейный классификатор.
Мы можем рассмотреть множество подобных положений, как приведенные выше, чтобы помочь обучающему алгоритму обнаруживать и выделять различные лежащие в основе (и даже априори неизвестные) факторы изменчивости, которые могут содержаться в данных. Эта идея будет рассмотрена далее в главах 3.5 и 11.4.
3.2 Гладкость и проклятие размерности (curse of dimensionality)
Для серьезных задач искусственного интеллекта, таких как машинное зрение или обработка искусственных языков, выглядит бесполезным полагаться только на простые параметрические модели (например, линейные модели), так как они не могут в нужной мере охватить всю сложность интересующих нас задач, поскольку не содержат необходимого пространства признаков. Поэтому исследователи пытались достичь гибкости за счет использования локальных не параметрических алгоритмов обучения,
например, в классе алгоритмов, основанном на ядрах (kernel machines) с фиксированным общим локальным ядром (таким, как Гауссово ядро –
Gaussian kernel). К сожалению, как было показано Bengio and Monperrus
(2005); Bengio et al. (2006a); Bengio and LeCun (2007); Bengio (2009); Bengio et al. (2010), большинство таких алгоритмов использует принцип локального
обобщения (local generalization), т.е. полагают, что целевая функция, которой нужно обучиться, достаточно гладкая, из-за чего они рассчитывают на наличие в обучающей выборке таких примеров, чтобы с их помощью явно обучить алгоритм всем трещинам (пикам и впадинам) в целевой функции.
Обобщение в основном достигается за счет локальной интерполяции между соседними примерами обучения. Хотя гладкость может быть полезным допущением, этого недостаточно для победы над проблемой большой размерности, так как число таких трещин (пиков и впадин в целевой функции) может расти экспоненциально с числом взаимодействующих факторов, когда алгоритм работает непосредственно с «сырыми» данными на входе. Мы же настаиваем на таких алгоритмах обучения, чтобы они были гибкими и не параметрическими, а также не полагались исключительно на допущение о гладкости целевой функции. Мы предлагаем использовать в алгоритмах обучения те базовые положения, которые были перечислены в списке выше. Алгоритмы, полагающиеся на гладкость (такие, как класс алгоритмов на основе ядер) и линейные модели могут по-прежнему быть использованы, но на верхнем уровне уже обученных иерархических представлений данных. Такая комбинация по сути делает обучение ядра, т.е. обучение его в готовом пространстве признаков. Алгоритмы на базе ядер полезны, но они зависят от предварительной подготовки для них пространства данных с нужной метрикой, в котором они эффективны – так, в метрике пространства готовых выделенных признаков они могут работать без дополнительной подготовки. Таким образом, на базе приведенных выше очень общих базовых положений мы хотим таким образом использовать данные, чтобы построить из них пространство признаков, или, что эквивалентно, функцию близости (similarity function).


Поделитесь с Вашими друзьями:
  1   2   3   4   5   6   7   8   9


База данных защищена авторским правом ©nethash.ru 2017
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал