Образовательная программа: «Прикладная и экспериментальная лингвистика»



страница6/22
Дата14.02.2017
Размер3.07 Mb.
Просмотров4456
Скачиваний0
ТипОбразовательная программа
1   2   3   4   5   6   7   8   9   ...   22

1.7.Параллельные конкордансы


Задача иллюстраций словарных статей контекстами употребления заголовочных слов частично совпадает с задачей построения конкордансов, то есть поиска контекстов заданных слов или языковых явлений в корпусах текстов.

Системы, строящие параллельные конкордансы, как правило, находят параллельные предложения или даже целые абзацы, а не короткие примеры употребления. Самые простые системы осуществляют поиск только по одной части параллельного корпуса (только входному / выходному языку) и не ранжируют выдачу [Kjaersgaard 1987, Langlois 1996].

Некоторые из систем отображают сведения о частоте данного слова и его переводов – например, в [Barlow 2004] описана система поиска по параллельному корпусу ParaConc, которая выводит информацию о частоте отдельных слов и их коллокатов. Системы, которые ранжируют контексты, используют статистику встречаемости перевода. Так, в [Wu и др. 2003] авторы располагают предложения и их переводы в соответствии с частотой перевода запроса, а в [Bai и др. 2012] наиболее релевантные контексты находятся на основании статистики Дайса [Dice 1945].

Такие системы обычно предназначены для лексикографов и профессиональных переводчиков. Рассмотрим две системы с доступным веб-интерфейсом, которые осуществляют поиск по параллельным англо-китайским корпусам: DOMCAT [Bai и др. 2012] и TotalRecall [Wu и др. 2003].

Примеры выдач на поисковые запросы в системах DOMCAT и TotalRecall (собственно конкордансы) представлены на рисунках 5 и 6. Система DOMCAT, как описывается в [Bai и др. 2012], находит наиболее релевантные контексты с помощью статистического критерия Дайса (коэффициент Сёренсена-Дайса):

где и - частоты слова и переводного эквивалента соответственно, а - частота совместного появления этих слов.

Однако, в веб-интерфейсе не содержится никакой информации о ранжировании и принципах работы системы.



Рисунок . Результаты поиска по запросу "porcelain" в системе DOMCAT.

Вторая система – TotalRecall – предоставляет две возможности – ранжирование по частоте и по логарифму правдоподобия (log-likelihood ratio, LLR). Применительно к связи между двумя явлениями (например, встречаемостью слова и его перевода) последняя мера вычисляется как [Dunning 1993].



где – совместная частота слова и перевода, а , – частоты i и j соответственно.





Рисунок . Результаты поиска по запросу "porcelain" в системе TotalRecall.



Рисунок . Пример конкорданса системы Linguee.

Параллельный конкорданс в качестве дополнения к электронному словарю строит многоязычная система Linguee (http://www.linguee.ru). Она предназначена как для изучающих язык, так и для профессионального перевода. Конкорданс для запроса на входном языке строится по большому корпусу текстов различных жанров; особое внимание уделяется технической и специальной (например, юридической и медицинской) литературе. Параллельные тексты собраны из интернета и не проверялись. Весь многоязычный корпус содержит, по описанию разработчиков, около 10 миллионов примеров, при этом в документации не уточняется, идёт речь о коротких словосочетаниях или о параллельных предложениях.

Следует отметить одну из особенностей системы – поиск может осуществляться не только по запросу из одного слова, но и по фразе. Поскольку корпус содержит информацию о пословном выравнивании, при отображении результатов поиска выделяется как текст запроса, так и его вероятный перевод в тексте на языке перевода, однако не всегда это соответствие корректно (см. Рисунок 7).

1.8.Выводы


В первой главе были рассмотрены основные направления компьютерной двуязычной лексикографии: технологии создания электронных словарей традиционными методами, построение словарей систем машинного перевода, автоматическое построение электронных словарей и параллельных конкордансов.

Автоматический поиск иллюстрирующих контекстов в компьютерной лексикографии в основном сводится к задаче построения параллельного конкорданса. Существующие решения, касающиеся поиска коротких примеров употребления и перевода, практически не описываются подробно, а чаще всего составители электронных словарей обращаются к иллюстрациям, подобранным вручную. Таким образом, поскольку эта задача не имеет полного и универсального решения в компьютерной лексикографии, нам представляется необходимым рассмотреть теоретические предпосылки и практические методы отбора иллюстративных примеров в традиционных и компьютерных словарях. Этому посвящена Глава 2.


2)Иллюстративный блок одно- и многоязычных словарей

2.1.Принципы формирования иллюстративного блока в словарях


В одноязычных словарях примеры предназначены для иллюстрации основного содержания словарных статей, а метод их подбора практически полностью определяется функциями словаря. Например, в толковых словарях это иллюстрация значения: примеры дополняют толкование (причём могут даже содержать информацию энциклопедического характера), иллюстрируют грамматическую и лексическую сочетаемость, стилистические особенности употребления, коннотации и ассоциации. Количество и характер иллюстраций при заголовочном слове даже указывает на частоту употребления и может отражать данные живой речи. Поскольку данная работа посвящена двуязычным словарям, мы рассмотрим лишь некоторые характеристики иллюстраций одноязычных словарей – в основном, те проекты и идеи, которые касаются компьютерной обработки лингвистических данных.

Двуязычные словари выполняют другие функции – они предназначаются для перевода с родного языка на неродной и обратно, как при обучении, так и при, например, профессиональном переводе. Из одноязычных словарей по цели наиболее близки к двуязычным словари устойчивых сочетаний различных типов и учебные словари.

«К словарям, тем более двуязычным, не принято писать теоретических введений», пишет Ю.Д. Апресян во введении к Новому большому англо-русскому словарю, составленному под его руководством [Апресян 2000: 12]. Выбор той или иной стратегии для описания конкретного явления в словаре часто явно не выражается в словаре. Исключения составляют теоретические опыты, например, Толково-комбинаторный словарь (Мельчук и др. 1984), о котором речь пойдёт в следующей главе. Что касается отбора иллюстрирующих контекстов, то в одноязычной лексикографии они изначально служат материалом для составления толкований. В этом плане интересным представляется замечание В.П. Беркова в его книге «Двуязычная лексикография»: «Проблема отбора словосочетаний – одна из важнейших в двуязычной лексикографии. Именно отбором словосочетаний переводные словари с одним и тем же входным языком чаще всего отличаются один от другого, именно отбор словосочетаний представляет собой наиболее спорную и уязвимую часть практически каждого двуязычного словаря» (Берков 2004: 61). Словосочетания, по его мнению, вообще составляют часть словника двуязычного словаря (действительно, во многих словарях указывается как количество статей, так и количество включённых словосочетаний). В роли иллюстраций, по мнению В.П. Беркова, выступают свободные сочетания: они дополняют семантизацию, иллюстрируют сходную структуру значений, показывают нюансы конкретного значения. Примеры должны


  1. быть информативными, сообщать некую информацию, дополнительную по отношению к переводу входного слова;

  2. располагаться в порядке следования соответствующих переводных эквивалентов;

  3. группироваться по значению.

Несвободные, фразеологизированные сочетания, очевидно, по мнению В.П. Беркова, включаются в словарь независимо от того, является ли перевод пословным.

Наиболее чётко принципы отбора иллюстраций для двуязычных словарей (как пассивного, так и активного типа) сформулированы в пособии по лексикографии «The Oxford Guide to Practical Lexicography» [Atkins, Rundell 2008]. Цель иллюстрирующих примеров – помочь пользователям словаря выбрать необходимый переводной эквивалент и правильно его использовать. В связи с этим нужно:



  • указать, какое значение заголовочного слова иллюстрируется;

  • предупредить пользователя о некорректных употреблениях;

  • указать значения переводных эквивалентов в случае полисемии.

Поскольку в пособии [Atkins, Rundell 2008] речь идёт о традиционном двуязычном словаре, авторы замечают, что было бы слишком трудоёмко отбирать примеры переводов из корпуса. Вместо этого они рекомендуют использовать имеющиеся списки коллокаций, таким образом, иллюстрировать переводы в контексте этих коллокаций.

Функциональное описание иллюстраций в двуязычных словарях даётся в монографии [Butina-Koller 2005]: «Стандартные ситуации, в которых используется двуязычный словарь (восприятие текста на иностранном языке, перевод текста с иностранного языка на родной, перевод с родного языка на иностранный или более или менее свободное текстопроизводство на иностранном языке), и обусловленные этими ситуациями различные функции словарей должны учитываться при принятии конкретных решений в лексикографической практике». В работе далее подробно анализируются существующие решения в русско-французской лексикографии по четырём основным словарям – Новому французско-русскому словарю В.Г. Гака и К.А. Ганшиной, Dictionnaire Francais-Russe В.Г. Гака и Ж. Триомфа, Русско-французскому словарю Л.В. Щербы и М.И. Матусевич, Русско-французскому словарю Л.В. Щербы, М.И. Матусевич и Д.В. Сеземана.

В литературе обычно выделяются два критерия отбора коллокаций в качестве материала для словаря: частотность и типичность. В случае с двуязычными словарями важен контрастивный аспект – является ли то или иное сочетание понятным (transparent) для пользователя словаря. Понятные (transparent) словосочетания в рамках двуязычной лексикографии – те, значение которых выводится из значения составляющих и внутренняя форма сочетания на родном языке эквивалентна форме сочетания на иностранном. В противном случае трудности у пользователей словаря обычно возникают не при переводе на родной язык, а при порождении текста на иностранном языке. В формальной семантике такие выражения называются некомпозициональными, и именно эти случаи должны учитываться в двуязычном словаре.

В зарубежной лексикографии особое внимание уделяется так называемым типовым контекстам. Эта идея разрабатывается П. Хэнксом [Hanks 2012] в рамках методологии Corpus Pattern Analysis (CPA), на основе которой автор руководит составлением словаря английских глаголов The Pattern Dictionary of English Verbs (http://pdev.org.uk).

Методика базируется на теории нормы и употребления (Theory of Norm and Exploitation, TNE), а та в свою очередь вдохновлена работами М. Хэллидея [Halliday 1966] и Дж. Синклера [Sinclair 1966] по лексической семантике. Эти работы примечательны тем, что описанный в них подход лёг в основу методики создания словарей серии COBUILD и проекта Hector [Atkins 1993].

Основное внимание уделяется прототипическим синтаксическим шаблонам (patterns), фактически – рамкам валентности, с которыми ассоциируются эти слова при использовании их в речи. Эти шаблоны для существительных и глаголов существенно отличаются. Для существительных они строятся на основе корпусных данных и состоят обычно из нескольких групп, в которые объединяются значимые коллокаты. Для глаголов шаблонов включают не только базовую аргументную структуру, но и характеристики актантов, например, наличие определителя в подчинённой именной группе. Значение лексемы определяется не в изоляции, а в её прототипическом контексте. Поэтому первый этап CPA – группировка строк конкорданса по найденным синтаксическим шаблонам, а затем приписывание соответствующему значению толкования. Для практических приложений шаблону может соответствовать не толкование, а синонимический ряд или переводной эквивалент.

В немецком проекте elexiko [Storjohann 2005, URL: http://www1.ids-mannheim.de/lexik/elexiko.html] этот подход используется при разработке блока типовых контекстов (typische Verwendungen) в электронном словаре. Авторы ссылаются на подход П. Хэнкса в рамках проекта COBUILD [Hanks 1987] и формулируют своё неформальное определение типового контекста: это прототипические образцы с конкретными, выбранными по корпусным данным, лексическими элементами; многоуровневые лексико-синтаксические конструкции, элементы которых часто встречаются вместе. Типовые контексты в первую очередь показывают синтагматические ассоциации заголовочного слова – как особенности употребления конкретных грамматических форм, так и лексическую сочетаемость: см. Рисунок 8.

Более разработанное представление типовых контекстов описано в (Storjohann, Mohrs 2007). Было замечено, что типовые контексты представляют чрезвычайно ценный материал для изучающих язык. Поэтому важной задачей становится группировка и ранжирование этих фраз в электронном словаре. На рисунке 8 показаны типовые контексты для слова unbegrenzt (безграничный) в первой версии словаря и с группировкой. Можно заметить, что в первой версии отсутствовала возможность объединения контекстов по их синтаксическому типу, а также пример реализации для слота (обозначается как […]), где возможна широкая вариативность. Это было связано как с ограниченностью функционала графического отображения словарных статей, так и с неразработанностью методики группировки и ранжирования.

Разработчики отмечают, что иллюстрации должны быть упорядочены в соответствии с частью речи опорного слова: так, для прилагательного unbegrenzt в примере на рисунке выделяются синтаксические конструкции, в которых оно выступает в различных функциях – атрибутивной, предикативной и т.д. Затем для каждой группы вырабатывается свой принцип сортировки, иногда довольно специфический: например, в атрибутивном значении контексты располагаются в алфавитном порядке следования второстепенных слов конструкции (предлогов, глагольных форм).



Рисунок . Стандартное и упорядоченное представление типовых контекстов в elexiko.

Интересен также подход лексикографов elexiko к иллюстрации реализаций широко вариативных слотов: в примере это, скажем, […] unbegrenzt verlängern и [z.B. den Vertrag] unbegrenzt verlängern. Очевидно, что часто возможность реализации слота ограничена конкретной лексической группой (например, одушевлённые лица), однако часто требуется конкретизация. Поэтому на основании корпусных данных были выбраны наиболее регулярные реализации, которые затем использовались в качестве примера заполнения слота.

В отечественной лингвистике тоже употребляется понятие типового контекста (обычно без определения). Например, в книге «Лингвистическая семантика» И.М. Кобозевой [Кобозева 2000] акцентируется необходимость типового контекста для описания значения лексических единиц: «Рассматривая проблему описания значения слова, мы пришли к выводу о том, что в общем случае невозможно правильно, адекватно описать значение слова, изъяв его из типового синтаксического контекста. Таким образом, описание значения (парадигматического свойства слова) требует учёта его синтагматических свойств» [Кобозева 2000: 148].

Типовые контексты, представленные в словарях, и реальные употребления, зафиксированные в корпусе, обсуждаются в статье [Крылов, Митрофанова 2006]. Авторы не формулируют своего определения типового контекста, но принимают как данность, что контексты, иллюстрирующие словарные статьи, считаются типовыми. В статье сравниваются контексты из корпуса Бокрёнок [Азарова, Синопальникова 2004], иллюстрации из словаря Ожегова [Ожегов 1989] и типовая сочетаемость по лексической базе СО-Starling [Крылов, Старостин 2005]. В результате исследования, проведённого на материале частотных лексем год и говорить, было выявлено несколько классов контекстов:



  • типовые контексты, которые отражают «закономерное в языке» – структурную организацию и лексическое наполнение синтагм, содержащих опорные слова;

  • типовые контексты, содержащие маргинальные единицы, которые, по мнению авторов, отражают «случайное в языке»;

  • контексты, совмещающие случайное и закономерное – идиомы, связи между лексемами внутри которых являются одновременно случайными и закономерными.

При этом информация из специализированной лексической базы данных оказывается более разнообразной по сравнению со словарными статьями, но при этом более «концентрированной» и сбалансированной, чем случайные корпусные данные.

А. Килгарифф и коллеги в статье [Kilgarriff и др. 2008], посвящённой корпусному отбору иллюстраций (предложений) для словаря коллокаций Macmillan, также отмечают типичность как необходимую характеристику примера. Для ранжирования контекстов, автоматически найденных в корпусе, используются следующие признаки:



  • длина предложения: контексты короче 10 и длиннее 25 слов штрафовались;

  • частоты слов внутри предложения;

  • наличие в предложении придаточного с that;

  • является ли контекст законченным предложением;

  • положение опорной фразы внутри предложения.

Веса для признаков подбирались на основе размеченной выборки 1000 положительных примеров, получившуюся метрику GDEX можно использовать для сортировки конкорданса в SketchEngine. Ранжирование не использовалось непосредственно для принятия решений о включении контекста в словарь, но, по словам авторов, значительно сократила усилия лексикографов.

Каталог: bitstream -> 11701
11701 -> Исследование характера взаимодействия зрителя и произведения на материале инди-игр
11701 -> Образовательная программа «Русский язык как иностранный»
11701 -> Научно-исследовательская работа по направлению «Реклама и связи с общественностью»
11701 -> Основная образовательная программа бакалавриата по направлению подготовки 040100 «Социология» выпускная квалификационная работа
11701 -> Торопова Марина Леонидовна Использование модели wrf для детализации микроклиматических описаний Магистерская диссертация
11701 -> «Разработка информационной инфраструктуры органик фермы»
11701 -> Математико-механический факультет
11701 -> К афедра компьютерных технологий и систем ахмадеев Артур Эдуардович


Поделитесь с Вашими друзьями:
1   2   3   4   5   6   7   8   9   ...   22


База данных защищена авторским правом ©nethash.ru 2019
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал