Существующие проблемы компьютерного синтаксиса могут полу- чить полноценное решение лишь в случае создания компьютерных сис- тем, полностью моделирующих языковую картину мира, но существую- щие на сегодняшний день системы справляются с этой задачей лишь час- тично. Такие системы в современной литературе принято называть уни- версальными компьютерными онтологиями. Для построения такой онто- логии необходимо создание так называемых банков деревьев (tree banks), или синтаксически размеченных корпусов текстов, в которых синтаксиче- ская и лексическая неоднозначность снята вручную, и на основании кото- рых могут быть объективно установлены существующие в языке семан- тические валентности и частотность тех или иных связей в текстах.
Во многом по этому принципу построен проект FrameNet, хотя сте- пень формализации этой базы знаний на сегодняшний день не позволяет использовать её в компьютерном синтаксисе в прямом виде. Семантиче-
ские валентности выявляются на основе синтаксически размеченных кор- пусов текстов, но для получения этих корпусов необходимы средства син- таксического анализа, снятия синтаксической неоднозначности и по- строения однозначной синтаксической разметки. Средства снятия неодно- значности основаны на валентностях, получается некоторый «порочный круг». Кроме того, для выявления семантических валентностей в разре- шении нуждается не только синтаксическая, но и лексическая неодно- значность, что означает необходимость дополнительной семантической разметки синтаксически размеченных корпусов текстов.
Таким образом, универсальная компьютерная онтология не сможет быть построена и проверена до тех пор, пока не будет собран достаточно объёмный синтаксически и семантически размеченный корпус текстов. Между тем, чтобы построить такой корпус, необходимо сначала хотя бы частично решить проблему синтаксической неоднозначности — иначе разметка корпуса потребует неоправданных и весьма объёмных трудоза- трат.
Одним из решений этой проблемы может стать использование метода последовательных приближений. По этому принципу построен проект AIIRE, одним из участников которого является автор данной главы.
Компьютерный синтаксис на сегодняшний день является одной из самых многообещающих, и в то же время вызывающих массу разночте- ний и затруднений областей компьютерной лингвистики. Ещё 15 лет на- зад эта область считалась малоперспективной, именно из-за этих разно- чтений и проблем, прежде всего — из-за проблемы производительности (комбинаторного взрыва). Появление компьютерных онтологий и совме- щение их с синтаксическими анализаторами дало принципиально новые возможности; создание собственных синтаксических анализаторов вновь стало популярным занятием. Мы надеемся, что прорыв в области компь- ютерного синтаксиса будет совершён в ближайшие годы.
Достарыңызбен бөлісу: |