Учебное пособие для студентов факультета вмик мгу



Pdf просмотр
страница3/4
Дата14.02.2017
Размер0.69 Mb.
Просмотров409
Скачиваний0
1   2   3   4
Предикат — слово, подчиняющее себе другие слова и синтаксические конструкции предложения и определяющее их грамматическую форму, а иногда и значение.
Предикат можно рассматривать как фрейм (шаблон): сам предикат — имя фрейма
(вершина фрейма), а подчиненные ему синтаксические конструкции — слоты фрейма
(валентности предиката). Для каждой валентности предиката определены условия заполнения этой валентности (значения грамматических характеристик, семантическое значение) и конкретное синтаксическое отношение. Синтаксические отношения часто задаются с помощью вопросительного слова (кто?, куда?, и т.п.). Совокупность синтаксических отношений, задаваемых предикатом (фрейм предиката), часто называют моделью управления предиката. Отметим, что у одного предиката может быть несколько разных моделей управления.
Актант — слово или синтаксическая конструкция, заполняющая валентность предиката.
Предикатами в русском языке являются глаголы, глагольные формы, отглагольные существительные и прилагательные и предлоги.
Например, описание модели управления для предлога к (предложной группы предлога
к) может выглядеть так:
к [куда?, к кому/чему?] существительное с зависящими от него словами и
конструкциями (группа существительного): одушевленность – любая, род – любой,
число – любое, падеж - дательный; а для глагола идти так:
идти [кто?]группа существительного: одушевленное, род – любой, число –
любое, падеж – именительный;
[куда?]предложная группа предлога в (существительное неодушевленное),
предлога к или предлога на (существительное неодушевленное);
[откуда?]
предложная
группа
предлога
из
(существительное
неодушевленное) или предлога от;

Волкова И.А. Введение в компьютерную лингвистику.
22
Актанты предиката могут быть обязательными (т.е. они должны в том или ином виде обязательно присутствовать в предложении, содержащем данный предикат) и
необязательными (т.е. они могут в реальном предложении отсутствовать).
Информацию об обязательности актанта также целесообразно хранить в описании модели управления предиката. Кроме того, полезно указывать и информацию о предпочтительном или обязательном взаимном линейном расположении в тексте предиката и его актантов, о невозможной или желательной сочетаемости актантов.
Модели управления предикатов являются формализованной записью ограничений на грамматические и/или семантические характеристики и, возможно, на способы совместного использования в тексте зависящих от них слов и конструкций. Вообще говоря, в языке у всех слов (не только у предикатов) могут быть зависящие от них другие слова, на которые могут быть наложены соответствующие ограничения
(правила сочетаемости отдельных слов и синтаксических групп). Составление таких
обобщенных моделей управления можно использовать как средство описания ЕЯ.
При использовании МУ в качестве основы описания языка можно достичь произвольной гибкости и детальности, становятся непринципиальными ограничения на степень грамматичности языка, не разделяется явно семантическая и синтаксическая информация. Ожидается, что при наличии МУ, описывающих язык, задачу синтаксического анализа можно считать решенной без каких-либо уточнений, ограничений на входной язык, сферу применимости и прочее. Т.е., задача синтаксического анализа сводится к задаче построения множества моделей управления.
Задача эта, безусловно, очень непроста и трудоемка. Кроме того, для эффективности использования обобщенных моделей управления необходимо учитывать их частотные характеристики и контекст (категория текстов, для которой является специфичным употребление определенных слов и грамматических конструкций).
3.7. О многовариантности синтаксического анализа
Принципиальная многовариантность синтаксического анализа — узловая проблема для разработчиков синтаксических анализаторов.
Многовариантность возникает не только в связи с наличием морфологической омонимии (см. выше), но и синтаксической омонимии.
Синтаксическая омонимия — возможность выделения разных смыслов у одного предложения, обусловленная наличием у него разных синтаксических структур.
Примеры предложений, для которых принципиально невозможно разрешить синтаксическую омонимию:
«Мать любит дочь».
«Молодые мужчины и женщины…».
«Письмо отцу друга…».
«Тощая торговка вяленой воблой торчала среди ящиков».
«Сплочение рабочих бригад вызвало осуждение товарища министра».
«Привет освободителям Харькова от немецко-фашистских захватчиков».
«Школьники из Старицы поехали в Торжок».
«Это потрясло до глубины души оскорбленного брата».
«Девочка вытерла тщательно вымытую посуду».

Практические аспекты создания лингвистических процессоров. Учебное пособие.
23
«Я вижу только два дерева».
«Таблица допустимых размеров …».
«Я видел его молодым».

Волкова И.А. Введение в компьютерную лингвистику.
24 4. Семантический компонент ЕЯ-систем
Семантика — раздел языкознания, изучающий все содержание, информацию, передаваемые языком или какой-либо его единицей.
Понятие — мысль, отражающая в обобщенной форме предметы и явления действительности посредством фиксации их свойств и отношений.
Концепт — понятие.
Значение языкового выражения(ЯВ):
синтаксическое — система, ассоциированных с данным ЯВ эталонных парадигматических, синтагматических и иерархических связей с другими знаками языка;
сигматическое — класс реальных объектов, в соответствие которым может быть поставлено ЯВ;
семантическое — класс эталонных психических моделей реальных объектов
(или класс концептов), в соответствие которым может быть поставлено ЯВ;
прагматическое — класс нормативно соотнесенных с ЯВ действий потенциальных реципиентов или же класс действий и целей потенциального автора сообщения, побуждающих его к речевой деятельности.
Смысл ЯВ — соотнесенная с ЯВ в реальном процессе речевой деятельности подсистема значения.
Понимание ЯВ — процесс раскрытия смысла ЯВ реципиентом, т.е. установление тех сторон значения, которые наиболее существенны в текущей ситуации с его точки зрения и которые, как он предполагает, имел в виду автор сообщения.
Однако не всегда смысл, соотнесенный с сообщением реципиентом, совпадает со смыслом, вкладываемым в сообщение автором, а любой их них может не совпадать с наиболее вероятной в языке интерпретацией сообщения (нормативно выделенной подсистемой значения ЯВ), т.е. смыслом относительно языка, критерии выделения которого должны быть объективными, например, синтаксическими. В качестве примеров возможно различного понимания ЯВ автором, реципиентом и относительно языка (объективно) можно привести следующие ЯВ:
Этого просто не вынести!
«А что вам нужно вынести?» — спросила Алиса (Л. Кэрролл);
За безбилетный проезд и провоз одного места багажа взимается штраф…
(объявление в общественном транспорте).
4.1. Теория концептуальной зависимости
Р. Шенка
Классическим примером экспериментальной системы интегрального типа, в которой подробно исследован семантический аспект ЕЯ и предлагается интересный подход к решению проблемы понимания текста на ЕЯ (английском), является система MARGIE
Р. Шенка [8]. В основе MARGIE лежит представление смысла фраз ЕЯ в терминах теории концептуальной зависимости (ТКЗ), т.е. оно состоит из понятий, объединенных определенными отношениями между ними. Эта система умеет производить

Практические аспекты создания лингвистических процессоров. Учебное пособие.
25 умозаключения, вытекающие из смысла, заключенного во входном сообщении, и осуществлять перифразирование входных предложений ЕЯ.
4.1.1. Основные положения ТКЗ Р. Шенка
Каждое слово, входящее в текст, рассматривается как понятие (концепт), представляющее собой набор свойств, связанных с ним, часть из которых может быть известна системе, а часть — нет.
Не делается явных различий между лингвистическими и нелингвистическими знаниями.
Чтобы понимать, надо делать предположения (возможно, ошибочные), исходя из знаний, хранящихся в системе.
Базовым механизмом восприятия, используемым программой являются ожидания — описание ситуации, которая рассматривается как наиболее вероятная в ближайшем будущем.
Концептуальная память системы содержит только понятия (а не слова).
Существуют четыре концептуальных падежа (отношений) — объектный (O),
директивный (D), реципиентный (R), и инструментальный (I).
Сложные понятия, как и смысл всей входной фразы, строятся из менее сложных на основе правил концептуального синтаксиса, т.е. правил конструирования отношений между понятиями на концептуальном уровне.
Концептуальные правила используют концептуальные категории (типы понятий).
Концептуализация — идея.
Концептуализация может состоять из деятеля, действия и определенного набора концептуальных падежей, а также – из объекта и описания состояния, в котором он находится, или изменения его состояния.
Концептуальные структуры имеют в своей основе элементарные действия — АКТЫ
(их всего 11!).
АКТы воздействуют на память системы, кроме того, в соответствии с ними могут производиться умозаключения. Умозаключение — концептуализация, которая может быть выведена из другой концептуализации с вероятностью меньшей 1.
4.1.2. Концептуальные категории ТКЗ
PP — только физические объекты (одушевленные и неодушевленные). Они могут быть субъектами действия, объектами, играть роль направления и реципиента.
AKT — действия.
LOC — местоположения. Для каждого физического АКТа оно определяет, где происходит включающая его концептуализация. LOC может модифицировать концептуализацию и выполнять роль направления.
T — времена. Время считается точкой на оси времени. Эта точка может быть абсолютной (6 часов вечера 28 ноября 2005 года) или относительной (вчера).
AA — Action aider — модификации свойств акта. Например, параметр скорости для действия PROPEL (см. ниже) есть АА. Таких категорий немного.
PA — атрибут объекта (со своими характеристиками или значениями, например,
«цвет», «размер»). Считается, что РР состоят из набора РА, которые их определяют.

Волкова И.А. Введение в компьютерную лингвистику.
26 4.1.3. Правила концептуального синтаксиса
PP
ACT
— РР могут производить действия
PP
PA
PA
— РР могут описываться через какое-либо свойство
D
ACT
LOC
LOC
— АКТы имеют направление o
ACT
— MTRANS требует в качестве объекта концептуализацию, а MBUILD имеет свой собственный тип объекта (см. ниже)
R
ACT
PP
PP
— АКТы имеют реципиентов
I
ACT
— АКТы могут иметь концептуализации в качестве инструмента o
PP
ACT
— АКТы имеют объекты
PP
PP
— РР могут быть описаны через концептуализацию, в которой они встречаются инструмента
T
— в концептуализациях присутствует время
LOC
— концептуализации имеют местоположения r
— концептуализации могут иметь результатом изменение состояния РР
R
— концептуализации, включающие в себя психические
АКТы, могут служить причинами для других концептуализаций
E
E или
— состояния или их изменения могут обеспечивать условия для концептуализаций

Практические аспекты создания лингвистических процессоров. Учебное пособие.
27 4.1.4. Концептуальные времена ТКЗ
В ТКЗ употребляется набор модификаторов концептуализаций, соответствующих временам в языке:

— настоящее,
p — прошедшее,
f — будущее,
/ — отрицание,
ts — начало существования,
tf — конец существования,
c — условное,
k — продолжительное,
? — вопросительное,
∞ — постоянное.
4.1.5. Элементарные действия ТКЗ
Концептуальное действие – то, что может быть сделано некоторым деятелем над некоторым объектом. Различаются две категории действий: физические (над физическими объектами) и психические, или мыслительные (над идеями или идеальными сущностями, например, ощущениями - последние два из ниже приведенных).
PROPELприкладывать силу к, требует объекта (достаточно малого по отношению к силе) и директивного падежа, указывающего направление прикладываемой силы.
MOVE
двигать частью тела, требует директивного падежа для описания пути движения части тела.
INGESTпринять что-то внутрь одушевленного объекта, здесь объект должен быть меньше отверстия в теле деятеля.
EXPEL
взять что-либо изнутри одушевленного объекта и вытащить наружу, здесь объект должен быть предварительно принят внутрь.
GRAPS
физически захватить объект, здесь объект не должен превышать определенных размеров, директивный падеж указывает направление к той части тела, которая осуществляет захватывание.
PTRANSизменить
местоположение
чего-либо, требует объектного, директивного и инструментального падежей.
ATRANSизменить некоторое абстрактное отношение для объекта,
SPEAK
произвести звук, требует директивного падежа.
PP
PP
— один РР эквивалентен другому РР или является частным случаем другого
ACT
AA
— АКТы могут варьироваться вдоль определенных измерений (напрмер, скорость для действий движения)

Волкова И.А. Введение в компьютерную лингвистику.
28
ATTENDнаправить орган чувств к определенному стимулу, требует директивного падежа.
MTRANSпередавать информацию, здесь объекты — всегда концептуализации, требуется реципиентный падеж, где потенциальными получателями являются отделы человеческого мозга, а потенциальными донорами — органы чувств или отделы человеческого мозга.
MBUILDсоздавать или сочетать мысли, здесь объекты — концептуализации, из которых
(в результате MBUILD) создаются новые концептуализации.
4.1.6. Состояния объектов ТКЗ
Многие состояния в ТКЗ описываются посредством шкал, имеющих числовые значения. В качестве примера можно привести следующие шкалы.
ЗДОРОВЬЕ (HEALTH) — от −10 до +10:
— мертвый
−10,
— смертельно больной
−9,
— больной от −8 до −3,
— нездоровится
−2,
— нормально 0,
— прекрасно +7,
— абсолютно здоров +10.
СТРАХ (FEAR) — от −10 до 0:
— в ужасе
−9,
— напуган
−5,
— встревожен
−2,
— спокоен 0.
РАЗДРАЖЕНИЕ (ANGER) — от −10 до 0:
— рассвирепевший
−9,
— разъярен
−8,
— разгневан
−6,
— раздражен
−2,
— спокоен 0.
ПСИХИЧЕСКОЕ СОСТОЯНИЕ (MENTAL STATE) — от −10 до 10:
— в прострации
−9,
— подавлен
−5,
— расстроен
−3,
— грустен
−2,
— нормально 0,
— доволен +2,
— счастлив +8,
— в экстазе +10.
ФИЗИЧЕСКОЕ СОСТОЯНИЕ (PHYSICAL STATE) — от −10 до +10:
— мертв
−10,

Практические аспекты создания лингвистических процессоров. Учебное пособие.
29
— сильные телесные повреждения
−9,
— ранен
−5,
— сломан (для объектов)
−5,
— побит от −1 до −7,
— нормально +10.
СОЗНАНИЕ (CONSCIOUSNESS) — от 0 до +10:
— без сознания 0,
— сон +5,
— бодрствование +10.
ГОЛОД (HUNGER) — от −10 до +10:
— «умирающий от голода» −8,
— голоден как волк
−6,
— голоден
−3,
— нет аппетита 0,
— сыт +3,
— «сыт по горло» +6,
— «до отвала» +8.
ОТВРАЩЕНИЕ (DISGUST) — от −10 до 0:
— омерзительный
−8,
— отвратительный
−6,
— противный
−4,
— надоевший
−2.
УДИВЛЕНИЕ (SURPRISE) — от 0 до 10:
— удивлен +5,
— изумлен 7,
— потрясен +9.
Некоторое состояния не являются шкалами, а имеют обычные абсолютные меры.
Таковыми являются, например,
ДЛИНА (LENGTH), ЦВЕТ (COLOR),
ИНТЕНСИВНОСТЬ СВЕТА (LIGHT INTENSITY), МАССА (MASS), СКОРОСТЬ
(SPEED).
Существуют состояния, которые являются не шкалами, а просто отношениями между объектами.
Например,
КОНТРОЛЬ
(УПРАВЛЕНИЕ) (CONTROL),
НЕОТЪЕМЛЕМОЕ ОБЛАДАНИЕ (ЧАСТЬ) (PART), ОБЛАДАНИЕ (POSS),
СОБСТВЕННОСТЬ (OWNERSHIP), СОДЕРЖАТЬ (CONTAIN), БЛИЗОСТЬ
(PROXIMITY), МЕСТОПОЛОЖЕНИЕ (LOCATION), ФИЗИЧЕСКИЙ КОНТАКТ
(PHIS.CONT) и др.
В ТКЗ используется еще одно отдельно стоящее состояние (MFEEL), которое выражает отношение между двумя людьми и эмоцией.
Отметим, что для использования (не только сравнения) состояний в процессе понимания текста в памяти системы нужно хранить детальное описание того, что означают все эти понятия.

Волкова И.А. Введение в компьютерную лингвистику.
30 4.1.7. Примеры работы системы MARGIE
Классический пример предложения, на котором Р. Шенк поясняет принципы построения смыслового представления – «John ate a frog» (Джон съел лягушку). В терминах ТКЗ смысл этого предложения выглядит так:
Пример работы программы в режиме умозаключения:
ВХОД:
Джон сказал Мэри, что Биллу нужна книга.
ВЫХОД1: О чем книга?
ВЫХОД2: Мэри знает, что Биллу нужна книга.
ВЫХОД3: Билл хочет прийти за книгой.
ВЫХОД4: Билл хочет, чтобы некто перестал иметь книгу.
ВЫХОД5: Билл хочет прочитать книгу.
Пример работа программы в режиме перифразирования:
ВХОД:
Джон посоветовал Мэри выпить вина.
ВЫХОД: Джон сказал Мэри, что ей станет лучше, если она выпьет вина.
4.2. Теория лингвистических моделей
«СМЫСЛ⇔ТЕКСТ»
Теория лингвистических моделей «СМЫСЛ
⇔ТЕКСТ» изложена в [13].
В соответствии с этой теорией ЕЯ рассматривается как особого рода преобразователь, выполняющий переработку заданных смыслов в соответствующие им тексты и заданных текстов в соответствующие им смыслы. Под смыслом понимается инвариант всех синонимичных преобразований (без доказательства его существования в общем случае), а синонимичным преобразованием называется переход от одного равнозначного текста (поставленному в соответствие одному и тому же явлению действительности) к другому.
Модели «СМЫСЛ
⇔ТЕКСТ» — модели модульного типа, в них выделяются и отдельно описываются различные языковые уровни. На семантическом уровне исходной информацией является некоторое синтаксическое представление текста.
Причем, в этих моделях различаются так называемый глубинный (семантизированный, учитывающий некоторые семантические отношения) синтаксис и поверхностный
D рот рука o
CONTAIN(рука) рука frog
PART(Джон)
Джон
INGEST o frog
Y
D рот
Y
рот
PART(Джон)
I
Джон
MOVE r
Джон
HEALTTH(HEALTTH(a)

Практические аспекты создания лингвистических процессоров. Учебное пособие.
31
(«чистый») синтаксис. Результатом же преобразований семантического уровня является определенное изображение содержания связного фрагмента речи без расчленения на фразы и словоформы — т.е. в виде семантического представления (которое и является записью смысла).
Семантическое представление состоит из двух компонентов: семантического графа
(СГ) и сведений о коммуникативной организации смысла (КОС).
СГ представляет собой связанный ориентированный граф, вершины которого помечаются символами сем, а дуги изображают связи сем-предикатов с их аргументами. Стрелки направляются от предикатов к аргументам и нумеруются.
Семами называются элементарные смысловые единицы, атомы смысла, семантически различимые единицы. Различаются следующие типы сем:
кванторы (например, квантор существования),
логические связки (например, конъюнкция, отрицание),
имена предикатов или отношений (например, равенство),
предикатные переменные,
имена объектов или классов.
Одним из главных аспектов КОС является членение некоторой порции записи смысла на тему (то, о чем говорится) — T — и рему (то, что говорится) — R, а также определение различных логических акцентов.
Для работы семантического компонента, основанного на модели «СМЫСЛ
⇔ТЕКСТ» необходимо создать семантический язык и толково-комбинаторный словарь
(ТКС). В этих моделях под семантическим языком понимается а) семантический словарь, в который входит словарь элементарных семантических единиц — сем (имен предметов и предикатов), словарь промежуточных семантических единиц и словарь символов, характеризующих коммуникативную организацию смысла: тема — рема, старое — новое, выделено — не выделено и т.п.; б) правила образования, по которым из семантического словаря могут строится семантические представления высказываний и которые касаются только формальной правильности семантических представлений; в) правила
преобразования, которые задают синонимичность двух семантических представлений.
Кроме того, для использования семантического языка необходимо иметь набор семантических аксиом и набор правил семантической «комбинаторики» — правил расчленения/сочленения семантических представлений при переходе от смысла к тексту и наоборот.
Словарная статья каждой словарной единицы С
0
должна содержать все слова или словосочетания, определенным образом связанные с ней по смыслу, а именно:
1) ее «парадигматические варианты» или «замены» — языковые средства, которые могут или должны заменять С
0
в тех или иных контекстах и при тех или иных условиях;
2) ее «синтагматические партнеры» или «параметры» — языковые средства, которые идиоматично выражают при данной словарной единице некоторые смыслы.
Парадигматические варианты и синтагматические партнеры С
0
называются
лексическими коррелятами.
Зависимости, связывающие слова с их лексическими коррелятами, в моделях
«СМЫСЛ
⇔ТЕКСТ» предлагается описывать с помощью лексических функций.

Волкова И.А. Введение в компьютерную лингвистику.
32
Лексическая функция (ЛФ) f описывает зависимость, определяющую для некоторого слова или словосочетания X такое множество слов или словосочетаний {Y
i
} = f (X), что для любых X
1
и X
2
верно следующее: если f (X
1
) и f (X
2
) существуют, то между f (X
1
) и
X
1
с одной стороны, и между f (X
2
) и X
2
— с другой, всегда имеет место одно и то же смысловое отношение.
ЛФ вводятся как средство лексической сочетаемости, а не семантики.
Полный перечень лексических функций см. в [13], здесь же приводятся лишь некоторые из них в качестве примера.
Syn — синоним: слово, совпадающее с С
0
по смыслу, принадлежащее к той же части речи и имеющее такие же активные валентности;
Syn
(лингвистика) = языкознание.
Conv — конверсив: слово, которое называет то же самое отношение, что и С
0
, но взятое в «ином направлении», т.е. с перестановкой тех же актантов в другие места;
Conv
(бояться) = пугать.
Anti — антоним: слово, обозначающее свойство, состояние или действие,
«противоположное» свойству, состоянию или действию, обозначенному С
0
;
Anti
(друг) = враг, Anti (закрывать) = открывать.

Каталог: download
download -> Составление простейшей программы в среде lego education. Запуск модели «Обезьянка барабанщица», «Рычащий лев», «Автомобиль»
download -> Функциональные части компьютера, история развития, базовая конфигурация
download -> Компьютер: друг или враг?
download -> Лекция №2 «Теоретические основы игры дошкольника» Зарубежные и отечественные теории игры
download -> Доклад муниципальное образовательное
download -> Литература для воспитанников стр. Приложения стр
download -> Министерство здравоохранения Республики Беларусь
download -> Игра как средство активизации познавательной активности учащихся в ходе изучения темы Алгоритмизация и программирование


Поделитесь с Вашими друзьями:
1   2   3   4


База данных защищена авторским правом ©nethash.ru 2019
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал