Образовательная программа: «Прикладная и экспериментальная лингвистика»


)Компьютерная двуязычная лексикография



страница2/22
Дата14.02.2017
Размер3.07 Mb.
Просмотров4460
Скачиваний0
ТипОбразовательная программа
1   2   3   4   5   6   7   8   9   ...   22

1)Компьютерная двуязычная лексикография

1.1.Основные задачи и направления работы в компьютерной лексикографии


Сфера компьютерной лексикографии довольно широка и включает в себя разнообразные методы составления различного рода словарей с использованием компьютерных технологий. Инструментами и материалом компьютерной лексикографии являются базы данных, компьютерные картотеки, инструменты анализа текста, которые позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать её. Множество различных компьютерных лексикографических программ можно разделить на две больших группы: программы поддержки лексикографических работ и автоматические словари различных типов, включающие лексикографические базы данных [Баранов 2001].

Развитие компьютерных методов в лексикографии началось в середине 1960 годов: с одной стороны, возникла необходимость перевести в машиночитаемый формат существующие словари, с другой стороны, стало возможным использование электронных корпусов при составлении новых словарей. Одним из первых словарей в машиночитаемом виде стал Longman Dictionary of Contemporary English [LDOCE; Proctor, 1978], который до сих пор является одним из наиболее популярных словарей английского языка. Поначалу электронные словари представляли собой копии бумажных (Oxford English Dictionary), но постепенно были разработаны специальные представления и форматы, позволяющие, например, хранить содержательную часть словаря отдельно от информации о графическом формате словарных статей.

Также следует упомянуть серию Collins English Dictionary, словари которой с 1979 года полностью создавались с использование электронных баз данных и корпусов.

Примерно в то же время (в 1985 году) по инициативе академика А.П. Ершова начинаются работы по созданию Машинного фонда русского языка1, одной из целей которого было развитие компьютерной лексикографии. Предполагалось решение следующих задач:



  • Оборудование рабочих мест Института русского языка РАН компьютерами и объединение их в сеть;

  • Сбор материала для теоретического и прикладного исследования русского языка и его преобразование в машинных формат; разработка средств хранения этого материала;

  • Создание программных средств, для проведения теоретических и прикладных работ по исследованиям в области русского языка;

  • Развитие прикладных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке).

В дальнейшем были разработаны концепции компьютерного представления различных лингвистических данных, в том числе автоматические словари (Автоматический Синтаксический словарь русского языка, Автоматический словарь синонимов русского языка, Автоматический вариант Словаря русского языка С.И. Ожегова, Автоматический словарь глагольного управления в русском языке и др. (описания опубликованы в Бюллетене Машинного фонда русского языка, вып. 1–3)), система построения конкордансов и обеспечения лексикографической работы (UNILEX-T, UNILEX-D). В рамках проекта по созданию Машинного фонда русского языка была описана концепция компьютерного описания словосочетаний различной степени устойчивости [Борисова 1990].

Наши наблюдения, сделанные в ходе знакомства с направлениями работ в компьютерной лексикографии, позволяют сделать вывод о том, что автоматизация словарных проектов связана не столько с преобразованием существующих словарей в цифровой формат, а с созданием лексикографических комплексов, имеющих прямой выход к различным блокам лингвистического процессора, отвечающих за автоматический анализ текстов на уровне морфологии, синтаксиса, за автоматическое выделение устойчивых словосочетаний и ряд других задач.


1.2.Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии


Прежде чем перейти к направлениям компьютерной двуязычной лексикографии, следует ввести группу понятий, относящихся скорее к области корпусной лингвистики и машинного перевода, которые в дальнейшем будут использоваться при описании различных словарей.

Двуязычный словарь предполагает описание лексики двух языков: входного языка – языка, с которого производится перевод, и выходного – языка перевода. Слово-заголовок статьи по отношению к статье обычно называют заголовочным. Если в словаре приводятся словосочетания, то в них выделяется опорное слово слово, под которым это словосочетание приводится в словаре.



Переводным эквивалентом называют перевод, приписываемый лексеме входного языка, или пару «слово входного языка + слово выходного языка», которые являются переводами друг друга.

Для машинного создания словарей или в качестве вспомогательного материала используются параллельные и сопоставимые корпусы текстов. Параллельный корпус – многоязычный корпус, который состоит из текстов на одном языке и их переводов на другой (другие) язык (языки). Сопоставимый (comparable) корпус – набор текстов одной и той же тематической области, на двух или нескольких языках. Для удобства как машинного, так и ручного использования параллельных корпусов производится выравнивание – установление соответствия фрагментов исходного текста (слов, предложений) фрагментам перевода, выполняемое вручную или автоматически.

Лексикографы и лингвисты часто используют специальные инструменты для работы с корпусами – корпус-менеджеры. Для исследования удобен режим построения конкорданса – автоматическое извлечение набора контекстов для заданного явления (слово / словосочетание / грамматическая форма и др.).

1.3.Компьютерная двуязычная лексикография


В области компьютерной двуязычной лексикографии постепенно выделилось несколько направлений:

  • создание традиционных двуязычных словарей с помощью компьютерных технологий,

  • разработка алгоритмов составления переводных эквивалентов для систем машинного перевода,

  • автоматическое составление словарей, надстройки к параллельным и сопоставимым корпусам, параллельные конкордансы.

Рассмотрим каждое направление подробнее.


Каталог: bitstream -> 11701
11701 -> Исследование характера взаимодействия зрителя и произведения на материале инди-игр
11701 -> Образовательная программа «Русский язык как иностранный»
11701 -> Научно-исследовательская работа по направлению «Реклама и связи с общественностью»
11701 -> Основная образовательная программа бакалавриата по направлению подготовки 040100 «Социология» выпускная квалификационная работа
11701 -> Торопова Марина Леонидовна Использование модели wrf для детализации микроклиматических описаний Магистерская диссертация
11701 -> «Разработка информационной инфраструктуры органик фермы»
11701 -> Математико-механический факультет
11701 -> К афедра компьютерных технологий и систем ахмадеев Артур Эдуардович


Поделитесь с Вашими друзьями:
1   2   3   4   5   6   7   8   9   ...   22


База данных защищена авторским правом ©nethash.ru 2019
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал