Рис. 1. Дерево зависимостей подобно строению молекулы, но связи обладают направленностью
Количество и состав возможных зависимых слов определяется спо- собностью главного слова вступать с ними во взаимодействие. Эта спо- собность называется валентностью. Главное слово может само стать за- висимым по отношению к какому-либо другому слову, но только к одно- му (именно поэтому синтаксическая структура оказывается древовидной). Получается, что любое связное сочетание слов (словосочетание, фраза) обладает одним центральным (корневым) элементом, т. е. одно и только одно слово является главным во всей фразе, а все остальные подчинены ему или другим словам.
В словосочетаниях типа умный студент носителям русского языка свойственно интуитивно считать слово студент главным, а слово умный
зависимым (так учили в школе — задавать вопрос какой «от существи- тельного к прилагательному», хотя иностранные учащиеся часто удивля- ются, почему не задать вопрос кто «в обратном направлении»). Дело ос- ложняется еще тем, что в лингвистике не существует формально строгой процедуры обнаружения синтаксической зависимости. Основные крите- рии для «человеческого» выявления синтаксических зависимостей описа- ны Я. Г. Тестельцом в первой главе его книги «Введение в общий синтак- сис [Тестелец 2001], однако при компьютерном моделировании правила выявления зависимостей вынужденно постулируются, причём по-разному в разных системах.
Как научить компьютер выстраивать структуры зависимостей? Пря- мой путь — это взять предложение, в котором методами морфологическо- го анализа (описанными в главе 1) для каждой словоформы уже определе- на возможная часть речи и грамматические признаки. В этом предложе- нии нужно найти основной глагол (если он есть) и понять, сколько зави- симых слов должно быть у этого глагола. Затем необходимо найти эти зависимые слова — здесь помогут их формы. Например, глаголу видеть требуется дополнение — скорее всего, существительное в винительном падеже. После этого можно проанализировать оставшиеся слова и найти для них возможные вершины. Для этого нужно заранее предоставить компьютеру множество правил, которые будут тесно связаны со словарём. Существующие алгоритмы для построения деревьев зависимостей обычно основаны на правилах продукций — условных переходах вида «если
…, то …». Эти правила позволяют реализовать произвольный механизм ло- гического вывода и потому широко применяются при представлении знаний в экспертных системах. Совокупность правил продукций представляет собой продукционную модель, которая теоретически «производит» все возможные корректные выводы о заданном наборе объектов. В применении к синтакси- су правила продукций часто формулируются в виде замен одних символь- ных последовательностей другими (заменяемая строка является условием, а замена — выполняемым действием). Например, правило продукции может выглядеть следующим образом: «Vt S4 ⟹ Vt → [Acc] S4», что можно про- читать как: если «Vt» — переходный глагол, а за ним идет «S4» — имя су- ществительное в винительном падеже, то устанавливается подчинительная связь между ними « → [Acc]». При этом правила обычно нумеруются, что позволяет исключить работу одних правил, если ещё не сработали другие. Основная сложность при создании таких моделей состоит в том, что пра- вила в какой-то момент начинают противоречить друг другу. Эта пробле- ма часто решается с помощью дополнительных управляющих структур, искусственно разрешающих возникающие противоречия.
Достарыңызбен бөлісу: |