Парсинг (синтаксический анализ) в широком смысле — это автома- тический анализ структуры любых текстовых данных. В более узком по- нимании термин «парсинг» означает процедуру машинного анализа структуры текста на естественном языке, в том числе — структуры пред- ложения.
Простейший анализ структуры предложения входит в школьную про- грамму. Например, в предложении Белка нашла большой орех требуется подчеркнуть подлежащее и сказуемое, определить, к чему относится при- лагательное большой, подписать вопросы над стрелками: кто? что? ка- кой? Это лишь один из возможных способов синтаксического анализа. В некоторых западных школах ученики расставляют в предложении квад- ратные скобки. Казалось бы, разница не столь велика, но на самом деле за расстановкой скобок стоит иное понимание устройства предложения.
Три основных подхода к описанию синтаксиса — это грамматики зависимостей, грамматики непосредственных составляющих и ком- бинированные теории, например, теория синтаксических групп.
Грамматики зависимостей
В отечественной лингвистике и в некоторых западных научных шко- лах принят подход, основанный на грамматике зависимостей (ГЗ), кото- рый представляет структуру предложения в виде дерева (графа) зависи- мостей. Его основоположником принято считать французского лингвиста Луи Теньера ([Теньер 1988]). С точки зрения ГЗ, строение предложения подобно строению молекулы: предложение состоит из слов и связей меж- ду ними. Вместе с тем, синтаксическую связь нельзя назвать двусторон- ней; в большинстве случаев синтаксическая связь является подчинитель- ной. Синтаксические связи «устанавливают между словами отношения зависимости»: из двух слов одно является главным, а другое — зависи- мым. Например, в словосочетании Большая Советская Энциклопедия имеется две связи, изображённые на рис. 1. Эти связи образуют отноше- ние зависимости: в обеих связях главной является словоформа Энцикло- педия; словоформы Большая и Советская, соответственно, оказываются зависимыми.
Достарыңызбен бөлісу: |