Общий обзор
В отечественной лексикографии созданы идеографические словари мирового уровня с самостоятельными концепциями, используемые в фун- даментальной русистике: это «Семантический словарь» Н. Ю. Шведовой и коллег, «Большой толковый словарь русских существительных» и
«Большой толковый словарь русских глаголов» Л. В. Бабенко, «Идеогра- фический словарь» О. С. Баранова, «Лексическая основа русского языка» В. В. Морковкина и коллег; «Русский семантический словарь» Ю. С. Караулова и коллег.
Вместе с тем, существует целый ряд компьютерных тезаурусов для русского языка. В словаре RussNet (СПбГУ) используетcя универсальная лексикографическая среда для разработки WordNet-словарей, однако сам словарь строится по корпусным данным, синсеты формируются и напол- няются с учетом тех семантических связей, которые характерны для рус- ского языка [Азарова 2015]. Проект Russian WordNet (СПбГУПС) соответ- ствует принципам Принстонского WordNet-словаря и предполагает по- строение переводного аналога англоязычной лексической базы. Словарь Russian WordNet (НГУ) основан на Принстонском WordNet-словаре, кор- пусах параллельных текстов и двуязычных словарях. Словарь Руслан (Русский словарь для анализа) был создан в рамках проектов Политекст и Диалинг как ядро семантического процессора, проводящего разные опе- рации, в том числе и машинный перевод [Леонтьева 2006]. Ресурс RuThes (УИС РОССИЯ) — это тезаурус, ориентированный на автоматическую обработку текстов общественно-политической тематики, построенный по самостоятельным принципам, но сопоставимый со словарями семейства WordNet [Соловьев, Добров, Иванов, Лукашевич 2006]. Стартовавший в 2013 г. проект YARN (Yet Another RussNet) (УрГУ, НИУ ВШЭ) предполага- ет разработку открытого WordNet-подобного словаря на основе Викисло- варя и корпусных источников [Браславский и др. 2013]. Рассмотрим более подробно три ресурса из упомянутых выше: RussNet, РуТез и Викисло- варь.
RussNet
RussNet — это проект кафедры математической лингвистики СПбГУ, осуществляемый с 1999 г. по настоящее время под руководством И. В. Азаровой [Азарова 2015]. Основная задача данного проекта — соз- дать компьютерный тезаурус, совместимый с ресурсами для других язы- ков, но сохраняющий специфику русского языка, обладающего развитой словоизменительной и словообразовательной системами. По замыслу ко- манды разработчиков RussNet должен использоваться как словарный ком-
понент в системах информационного поиска, машинного перевода, извле- чения информации, оценки тональности и т. п. RussNet совместим с фор- мальной грамматикой AGFL для русского языка и используется в системе автоматической обработки текстов Rus4IR.
RussNet унаследовал ряд черт Принстонского WordNet-словаря: для обоих ресурсов характерна иерархическая структура и базовые типы от- ношений между описываемыми значениями, ориентация на лексическое ядро словарного состава языков, нетерминологичность, описание устой- чивых сочетаний наряду с отдельными словами, синхроничность (отраже- ние современного состояния словаря языков), ограниченность типов включаемой информации (отсутствие этимологических данных и сведе- ний о произношении).
Отличительными чертами проекта RussNet является то, что данный словарь создается не по стандартной для WordNet-словарей схеме (от классификационной схемы понятий к системе значений), а на основе сис- темы значений, выводимых из корпуса текстов. В качестве источников данных в RussNet привлекались толковые словари русского языка и пред- ставительный корпус современного русского языка Бокренок (объемом свыше 21 млн с/у), формирование синсетов с учетом статистических па- раметров значений. Так, например, слова в синсетах упорядочиваются по частоте, этот признак позволяет выделить доминанту синонимического ряда. Информация в RussNet о словах и значениях является содержательно более насыщенной, чем в зарубежных аналогах: расширено описание ва- лентной структуры, объединяющее включающее как лексико- семантические, так и морфосинтаксические признаки; классификация прилагательных производится на основе их сочетаемости с существитель- ными; вводится богатая информация о деривационных связях.
РуТез
РуТез, или Информационно-поисковый тезаурус по общественно- политической тематике для автоматического индексирования, развивается в НИВЦ МГУ с 1992 г. под руководством Н. В. Лукашевич и Б. В. Доброва [Соловьев, Добров, Иванов, Лукашевич 2006]. Тезаурус был задуман как прикладной ресурс для поддержки процедур информационного поиска в документах.
РуТез включает в себя термины экономики, политики, законодатель- ства, международных отношений, военной сферы, социальной области и т. д. Словник тезауруса практически полностью охватывает лексику и терминологию текстов общественно-политической тематики на русском языке. Иерархию понятий в тезаурусе образуют четыре вида отношений: гипонимия, меронимия, ассоциативные (симметричные и асимметричные) связи. Отличительной чертой тезауруса является множественное наследо-
вание, что допускает наличие нескольких понятий вышестоящих уровней для понятий нижестоящих уровней (например, понятие Магазин может рассматриваться как подчиненное одновременно двум понятиям, Здание и Торговая организация). В связи с решаемыми прикладными задачами Ру- Тез наделен четкой и прозрачной структурой, позволяющей применять специализированные алгоритмы для процедуры вывода по иерархии те- зауруса.
По официальным данным, РуТез содержит свыше 26 000 понятий, 62 000 терминов, 100 000 прямых и 700 000 наследуемых отношений меж- ду понятиями. Тезаурус интегрирован в информационную систему УИС РОССИЯ, применялся для построения аннотаций, при автоматической рубрикации и других процедурах. Проект динамично развивается парал- лельно с пополнением корпуса текстов, в тезаурус вводятся новые терми- ны, зафиксированные в документах, осуществляется корректировка связей в иерархии.
Достарыңызбен бөлісу: |