Образовательная программа: «Прикладная и экспериментальная лингвистика»



страница14/22
Дата14.02.2017
Размер3.07 Mb.
Просмотров4451
Скачиваний0
ТипОбразовательная программа
1   ...   10   11   12   13   14   15   16   17   ...   22

4.8.Оценка качества классификации


Основные эксперименты используют бинарную классификацию или мультиклассификацию. Для их оценки использовались стандартные метрики – точность (precision) и аккуратность (accuracy). В общем виде значения вычисляются следующим образом:



используемые обозначения проще всего представить в таблице (см. Таблица 6).

Точность вычислялась по отрицательным примерам, поскольку важнее было убедиться, что метод фильтрует некачественные контексты. Ниже такая метрика будет обозначаться .

Таблица . Варианты ошибок классификации.

количество примеров

исходная разметка

0

1

разметка классификатора

0

tn

fn

1

fp

tp



4.9.Результаты классификации


Для оценки качества классификации размеченная выборка делилась в соотношении 2:1 на обучающую (416 примеров) и тестовую (206 примеров) соответственно. Проведена оценка пяти методов классификации по разным группам признаков:

  • оценка каждой части примера по отдельности:

    • – случайный лес на группе признаков WV;

    • – мультиклассификатор на группе признаков WV;

    • – нейронная сеть на группе признаков WV;

  • общая оценка параллельного контекста:

    • – случайный лес на группах LM, MI, RelF and Sim;

    • – случайный лес на всех признаках.

Результаты классификации приведены в таблицах 7а и 7b.

Из таблицы 7а можно заключить, что английские части параллельных контекстов классифицируются значительно лучше русских. Мы предполагаем, что это связано с качеством семантических векторов: и те, и другие были обучены на корпусах одного размера, однако языки с богатой морфологией (как русский), как правило, требуют большего объёма данных.







P0(en)

A(en)

P0(ru)

A(ru)

RF1

0.71

0.74

0.62

0.64

RF2

0.83

0.65

0.63

0.62

NN

0.67

0.65

0.56

0.61

  1. Предсказание качества одной из частей примера.







P0

A

RF3

0.69

0.7

RF4

0.685

0.71

  1. Предсказание качества параллельного контекста.




Таблица . Результаты классификации контекстов.

В случае с классификацией параллельных контекстов целиком, можно заметить, что добавление признаков группы WV практически не влияет на качество классификации. В связи с этим можно заключить, что информации о близости векторов слов достаточно для описания словосочетания.


4.10.Сравнение ранжирования с простыми эвристическими методами


Для сравнения результатов ранжирования было выбрано 140 пар «английское слово – русский эквивалент», которые не входили в размеченную ранее выборку. Для каждой пары извлекались все возможные параллельные контексты, которые затем ранжировались следующим значениям:

  • – абсолютная частота параллельного контекста в параллельном корпусе;

  • – сумма значений взаимной информации ( в том виде, как описано выше) для английской и русской части примера;

  • , , – значения, полученные от соответствующих классификаторов (фактически – вероятность отнесения соответствующего слова к положительному классу);

  • – модифицированные значения классификатора . В случае, если обе части контекста оценивались как положительные, использовалось значение надёжности c. Если только одна из частей контекста была отнесена к классам (4, 5), то из значения надёжности для этой части вычиталось наименьшее значение надёжности для другой части.

Оценка производилась следующим образом. Из каждого упорядоченного списка для каждого ключа сохранялся лучший параллельный контекст. Затем примеры в полученных списках размечались как положительные (1) и отрицательные (0). Результаты разметки приведены в приложении А.

Мерой качества служило количество положительных примеров в списке. Это связано с тем, что, как было сказано выше, формат используемого машинного словаря позволяет показывать только один параллельный контекст для одного ключа, то есть важно оценить, как часто в верхней части списка оказываются отрицательные примеры. Результаты приведены в таблице 8.



Таблица . Оценка ранжирования иллюстративных примеров.




положительные примеры

доля положительных примеров

MI

60

42.8

F

44

31.4



59

42.1



76

54.3



88

62.9



74

52.9

Результаты показывают, что использование машинного обучения значительно улучшает ранжирование по сравнению с простыми методами. Сравнение различных наборов признаков позволяет сказать, что наиболее удачной комбинацией является сочетание всех групп за исключением WV.

Каталог: bitstream -> 11701
11701 -> Исследование характера взаимодействия зрителя и произведения на материале инди-игр
11701 -> Образовательная программа «Русский язык как иностранный»
11701 -> Научно-исследовательская работа по направлению «Реклама и связи с общественностью»
11701 -> Основная образовательная программа бакалавриата по направлению подготовки 040100 «Социология» выпускная квалификационная работа
11701 -> Торопова Марина Леонидовна Использование модели wrf для детализации микроклиматических описаний Магистерская диссертация
11701 -> «Разработка информационной инфраструктуры органик фермы»
11701 -> Математико-механический факультет
11701 -> К афедра компьютерных технологий и систем ахмадеев Артур Эдуардович


Поделитесь с Вашими друзьями:
1   ...   10   11   12   13   14   15   16   17   ...   22


База данных защищена авторским правом ©nethash.ru 2019
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал