11 Часть I. Компоненты 14 Глава Компьютерная



бет49/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   45   46   47   48   49   50   51   52   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Языки
иа ФОРМАЛЬНЫЕ ЯЗЫКИ ЕСТЕСТВЕННЫЕ ЯЗЫКИ

Между терминами в информационно-поисковых тезаурусах устанав- ливаются различные парадигматические (иерархические и ассоциативные) отношения. По действующим стандартам допустимы следующие типы отношений: род — вид, часть — целое, причина — следствие, сырье — продукт, административная иерархия, процесс — объект, функциональное сходство, процесс — субъект, свойство — носитель свойства, антонимия.


Информационно-поисковые тезаурусы разработаны для многих об- ластей знаний, среди них есть как многоотраслевые (например, РуТез) и узкоспециализированные (например, тезаурусы по сельскому хозяйству, машиностроению, минераловедению, сталям, информационной безопас- ности и т. д.). Существуют информационные службы, создающие и под- держивающие различные информационно-поисковые тезаурусы, напри- мер, известны система LIV (Legislative Indexing Vocabulary) Исследова- тельской службы Конгресса США; тезаурус AGROVOC Организации по продовольствию и сельскому хозяйству; EUROVOC служб Европейского парламента, тезаурусы фонда Гетти и др. В России целая серия тезаурусов была разработана в ВИНИТИ и ИНИОН РАН.
С развитием вычислительной лингвистики и инженерии знаний большое распространение приобрели компьютерные тезаурусы — это электронные хранилища лексических значений, выражаемых в естествен- ном языке.


    1. Компьютерные тезаурусы типа WordNet

Самым ярким представителем семейства компьютерных тезаурусов является словарь WordNet, который был задуман Джорджем Миллером и коллегами (Кристиана Фелльбаум и др.) как модель ментального лексико- на [Fellbaum 1998]. Работы по созданию Принстонского WordNet-словаря начались в 1985 г. По замыслу разработчиков, новый словарь должен от- ражать структурно-семантические связи, существующие в языке, и пред- ставлять их в виде иерархии понятий. WordNet-словарь состоит из четы- рех различных блоков, в которых хранятся данные о парадигматических и синтагматических связях существительных, глаголов, прилагательных и наречий. Каждый блок представляет собой набор деревьев (лес). Едини- цей описания в WordNet-словаре является синсет (synset) — синонимиче- ский ряд, объединяющий слова с близкими значениями. Синсет снабжен дефиницией (родовидовым определением) и контекстами употребления толкуемых слов. Например, так выглядит синсет для значения house (се- мья, домочадцы):
Синсет: (n) family, household, house, home, menage (a social unit living together) семья, социальная группа, характеризуемая совместными проживанием): «He moved his family to Virginia» (Он перевез свою семью в Вирджинию); «It was a good Christian household» (Это была хорошая хри- стианская семья); «I waited until the whole house was asleep» (Я дождался момента, когда все домочадцы заснули); «The teacher asked how many people made up his home» (Учитель спросил, сколько человек входит в его семью); «The family refused to accept his will» (Семья отказалась прини- мать его волю).
Синсеты внутри иерархии связаны между собой разнообразными от- ношениями. Среди парадигматических отношений регистрируются как универсальные, так и характерные для той или иной части речи. В блоке существительных устанавливаются следующие отношения: синонимия, антонимия, гипонимия, меронимия, деривационные связи и др. Например, большинство этих отношений отражены в описании значения слова book (книжное издание): гипонимы textbook (учебник), text (текст), text edition (учебное пособие), schoolbook (школьный учебник), school text (школьный текст), мероним signature (подпись), экземпляр Utopia (Утопия), гиперо- ним publication (публикация), дериват booklet (буклет). Для прилагатель- ных ведущую роль играет отношение антонимии: например, high (высо- кий): антоним low (низкий). В блоке глаголов наблюдаются особые отно- шения: тропонимия, каузация, лексический вывод. Для глагола sing (петь) указываются тропонимы solmizate (сольмизировать), troll (напевать), hymn (славословить), carol (петь веселую песню) и т. п. Глагол frighten (пугать) связан с глаголами fear (бояться), dread (страшиться) отноше-

нием каузации. Лексический вывод иллюстрируется парой write (писать)



  • spell (писать по буквам). Наряду с парадигматической присутствует и синтагматическая информация: приводятся типовые рамки валентностей для целевого слова: например, глагол buy (покупать) характеризуется сле- дующими моделями употребления: Somebody s (Некто + глагол наст.

вр. З лица ); Somebody s something (Некто + глагол наст. вр. З лица +
нечто); Somebody s something from somebody; The children buy the ball
(Дети покупают мяч); The children purchase the ball (Дети приобретают мяч).
По состоянию на 2012 год лексическая база Принстонского WordNet- словаря составляла свыше 155 тыс. лемм, организованных в 117 659 син- сетов.
Наряду с Принстонским WordNet-словарем существует ряд словарей, разработанных в проекте EuroWordNet (Пиек Воссен, 1996–1999 г.), ос- новной задачей которого было создание словарных ресурсов для отдель- ных языков в рамках единой структуры [Vossen 1998]. Единство данных словарей обеспечивается общностью принципов построения, заранее за- данным перечнем базовых понятий, входящих в межъязыковой индекс ILI (Inter-Linguial-Index). По сравнению с Принстонским WordNet- словарем в EuroWordNet существует ряд нововведений: система парадиг- матических отношений была расширена за счет межчастеречных связей, также были расширены синтагматические отношения, описаны связи ме- жду глаголами и их актантами (падежные роли). В то же время были на- ложены ограничения на сам словарь, в котором представлены лишь суще- ствительные и глаголы.
В состав EuroWordNet первоначально входили лексические базы для английского, голландского, итальянского, испанского, французского, не- мецкого, чешского языков. Позже появились новые WordNet-словари (для венгерского, словенского, сербского, румынского, польского, македонско- го, хорватского, португальского, шведского, норвежского, латышского, эстонского, корейского, китайского, санскрита, латыни и других языков) и целые их семейства, в той или иной мере следующие идеологии EuroWordNet: BalkaNet (для болгарского, чешского, греческого, румынско- го, сербского, турецкого языков), Asian WordNet (для хинди, индонезий- ского, японского, лаосского, монгольского, бирманского, непальского, син- гальского, тайского, вьетнамского языков), OpenMultilingual WordNet (для английского, арабского, малайского, индонезийского, финского, иврита, японского, персидского, тайского, французского языков). Сейчас ресурсы типа WordNet охватывают более 70 языков. Некоторые языки представле- ны сразу в нескольких лексических базах, например, немецкий, француз- ский, польский, румынский, португальский и некоторые другие.


    1. Компьютерные тезаурусы для русского языка



      1. Достарыңызбен бөлісу:
1   ...   45   46   47   48   49   50   51   52   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет