Образовательная программа: «Прикладная и экспериментальная лингвистика»



страница3/22
Дата14.02.2017
Размер3.07 Mb.
Просмотров4459
Скачиваний0
ТипОбразовательная программа
1   2   3   4   5   6   7   8   9   ...   22

1.4.Электронные двуязычные словари


Технология создания двуязычных компьютерных словарей наследует основные идеи работы над одноязычными лексикографическими ресурсами, поэтому начнём анализ существующих проектов с одноязычных компьютерных словарей. Зарождение компьютерной лексикографии в 60х годах 20 века связано именно с электронными версиями словарей. Так, Websters Seventh New Collegiate Dictionary (1967) и New Merriam-Webster Pocket Dictionary стали первыми словарями, электронная версия которых была подготовлена параллельно с бумажной. Как уже отмечалось, компьютерный набор тогда был ещё недостаточно развит, поэтому электронные словари создавались на основе оцифрованных бумажных препринтов.

В 70-е годы компьютерные технологии развивались по большей части в направлении автоматизации подготовки к изданию бумажных словарей. Компьютерный набор и некоторые другие средства подготовки статей использовались в Longman Dictionary of Contemporary English (1978) и первом издании Collins English Dictionary (1979). В то же время ведутся разработки по созданию так называемых карманных словарей и переводчиков (hand held dictionaries) – специализированных устройств, выполняющих поиск по словарю, представленному в машиночитаемом виде. Первые гаджеты появились в 1978 году (LK-3000, Craig M100), а технология оставалась популярной до первого десятилетия 21 века. Основными функциями карманных словарей был перевод заданного слова и озвучивание его произношения. Более продвинутые модели использовали распознавание речи и позволяли осуществлять поиск путём голосового ввода.

В 80-е годы, благодаря росту популярности и сокращению стоимости электронных носителей, появляются первые словари на дисках. Такой формат позволял мгновенно устанавливать словарь на любой компьютер и быстро распространять его. Среди многочисленных изданий словарей на CD-дисках нужно отметить издание Oxford English Dictionary (1988, использовалось издание 1928 года), The American Heritage Dictionary of the English Language (1992). Словари на электронных носителях улучшались с развитием технологий гипертекстовой разметки и вскоре ничем не уступали соответствующим бумажным изданиям. Кроме того, их пользователи могли задействовать такие функции, как озвучивание произношения, просмотр истории поиска, использование словаря непосредственно при чтении текста и т.п.

Развитие интернет-технологий привело к тому, что к 1998 году [Li 1998] в сети можно было найти около четырёхсот словарей английского языка, однако большинство были копиями, не защищёнными в соответствии с нормами авторского права. В 1999 году издательство Oxford University Press выложило в интернет с доступом по подписке Oxford English Dictionary Online, а вслед за ними многие другие издатели начали публиковать в интернете сокращённые версии словарей, предлагая купить подписку на расширенные версии. Затем стало понятно, что онлайн-словари могут приносить доход наряду с бумажными, поэтому сейчас многие популярные словари доступны без ограничений.

Создатели электронных словарей привлекают пользователей к дополнению и исправлению он-лайн версий или созданию новых словарных статей. Самый крупный полностью коллаборативный проект – это Викисловарь, который объединяет различные возможности лексикографического описания, в том числе, функционируя как многоязычный словарь. Описание слова включает фонетическую, этимологическую, синтаксическую, семантическую, сочетаемостную информацию о слове. В [Крижановский 2009] описывается разработка машиночитаемого словаря на основе данных русского Викисловаря. Русский Викисловарь является крупнейшим среди существующих викисловарей, его характерной особенностью является чёткая структура словарной статьи [Крижановский 2011].

Что касается англо-русских словарей, необходимо прежде всего упомянуть электронные словари ABBYY Lingvo. Первая версия, которая тогда называлась LINGuist Volume, v1.0 была выпущена в 1990 году и содержала 35 тысяч словарных статей.

С 2008 года под названием ABBYY Lingvo выпускаются версии x3, x5, x6, содержащие одно- и двуязычные словари, общее количество статей достигает 1,5 миллионов. Некоторые из них составлены лексикографами компании ABBYY, другие представляют собой электронные версии бумажных словарей (Большой толковый словарь русского языка Т.Ф. Ефремовой, Англо-русский словарь под редакцией В.К. Мюллера и т.п.). Возможности электронных словарей Lingvo включают:


  • поиск слова по заголовкам словарных статей, поиск по неначальной форме слова, поиск по всем доступным языкам;

  • полнотекстовый поиск, в том числе, по примерам употребления;

  • озвучивание транскрипции;

  • перевод по наведению курсора в браузере, текстовых документах;

  • сохранение и просмотр избранных словарных статей.

На данный момент доступен также онлайн-сервис LingvoLive (https://lingvolive.ru), где пользователи могут не только осуществлять поиск по словарям, но и комментировать словарные статьи, добавлять свои примеры употребления и сохранять историю поиска.

Хранение информации электронном словаре осуществляется в базах данных или в специально разработанных для этой цели форматах представления, основанных на XML. Например, рекомендации Text Encoding Initiative (TEI) содержат отдельную главу, посвященную хранению лексикографических данных (http://www.tei-c.org/release/doc/tei-p5-doc/en/html/DI.html). Элемент entry позволяет хранить разнообразную информацию, содержащуюся в словарной статье, причём возможно сохранение словарной статьи в различных видах:



  1. типографическое представление – позволяет восстановить статью в том виде, в котором она должна быть напечатана;

  2. «редакторское» (editorial) представление – хранит текст без специфической мета-информации;

  3. лексическое представление – содержит структурированную информацию из словарной статьи безотносительно особенностей типографии, однако сохраняет лингвистические категории (поле грамматических помет, особенностей употребления и т.п.)

Статья entry может содержать отдельные разделы для омографов (hom), внутри каждого из которых возможны описания форм слова (form), грамматических помет (gramGrp), толкования (def), примеры употребления с отсылкой к источнику (cit), информацию об особенностях употребления (usage), перекрёстные ссылки на другие статьи (xr, re), этимологическую информацию (etym). Возможности хранения лексикографической информации в формате TEI рассматриваются, например, в работах [Захаров и др. 2011; Захаров 2013, Буторова и др. 2016].

Другой вариант представления – Lexical markup formal (LMF) – использует только последний тип (лексическое представление), поскольку он предназначен в первую очередь для хранения всевозможных словарей систем обработки текстов. Этот детально разработанный формат используется в сложных системах хранения лингвистических данных, например, CLARIN (http://www.clarin-d.de/en/).

Вторая, не менее важная составляющая электронного словаря – программа, отвечающая за отображение словарных статей, поиск, редактирование. Как уже было сказано, многие электронные словари предоставляют веб-интерфейс, в котором взаимодействие между пользователем и словарём осуществляется обычно с помощью запросов к базе данных. Программы, устанавливаемые на компьютер или портативное устройство, часто имеют возможность подключения дополнительных словарей и расширений. Среди программ, содержащих англо-русские словари, наиболее популярны ABBYY Lingvo, GoldenDict, AtomicDict и другие.

Обычно главными элементами интерфейса являются окно поиска и окно отображения словарной статьи (см. Рис. 1):





Рисунок . Окно поиска ABBYY Lingvo x5.

Электронные двуязычные словари также используются при создании широкомасштабных лексических баз данных. Например, в проекте многоязычного словаря PanDictionary [Mausam и др. 2009; Mausam и др. 2010] было объединено около 600 онлайн-словарей, в частности из Викисловарей, причём переводы из разных словарей были автоматически сгруппированы по смыслу с помощью графового алгоритма. В статье приводится объём полученной базы – 10 миллионов слов для тысячи языков, однако эти результаты не были опубликованы в открытом доступе. Проект Linguee (http://www.linguee.ru, рис. 2) также объединяет материалы различных словарей в рамках одного онлайн-ресурса, причём эти словари пополняются на основе данных, собранных по большому параллельному корпусу. Этот же корпус служит источником для построения параллельного конкорданса (см. ниже).





Рисунок . Пример статьи из электронного словаря системы Linguee.

Каталог: bitstream -> 11701
11701 -> Исследование характера взаимодействия зрителя и произведения на материале инди-игр
11701 -> Образовательная программа «Русский язык как иностранный»
11701 -> Научно-исследовательская работа по направлению «Реклама и связи с общественностью»
11701 -> Основная образовательная программа бакалавриата по направлению подготовки 040100 «Социология» выпускная квалификационная работа
11701 -> Торопова Марина Леонидовна Использование модели wrf для детализации микроклиматических описаний Магистерская диссертация
11701 -> «Разработка информационной инфраструктуры органик фермы»
11701 -> Математико-механический факультет
11701 -> К афедра компьютерных технологий и систем ахмадеев Артур Эдуардович


Поделитесь с Вашими друзьями:
1   2   3   4   5   6   7   8   9   ...   22


База данных защищена авторским правом ©nethash.ru 2019
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал