11 Часть I. Компоненты 14 Глава Компьютерная



бет100/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   96   97   98   99   100   101   102   103   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute
Латын тілі 4,5 - дәріс 2, 169-182 фил, Вопросы на русском языке, 6 үж

Интернет как корпус


Поисковые массивы и системы Интернета тоже могут быть использо- ваны как корпус для решения лингвистических задач.
Существовали проекты специальных поисковых машин-посредников, имеющих корпусный интерфейс, но пользующихся базами данных поис- ковых систем. Одна из таких систем — британский Webcorp (http://webcorp.org.uk). Однако в целом этот путь оказался малопродуктив- ным и периферийным.

Затем возникла идея создавать полноценные корпусы на основе тек- стов, взятых из Интернета [Kilgarriff 2001]. Вначале эта технология столк- нулась с большими трудностями как технического, так и идеологического характера. Однако многие из них уже решены и за прошедшее десятиле- тие эта технология, получившая название wacky (Web As Corpus), достигла заметных успехов. При этом в автоматическом режиме приходится решать задачи, связанные как с особенностями веба (обилие ошибок, дублирова- ние информации и т. п.), так и собственно корпусные (сбалансирован- ность, разметка). И хотя нельзя сказать, что все хорошо, тем не менее уже сегодня создаются корпусы объемом порядка 20 млрд словоупотреблений, позволяющие изучать широкую периферию языка.


В России также реализуется подобный проект, получивший название Генеральный Интернет-корпус русского языка (ГИКРЯ) [Беликов и др. 2010].

Следует упомянуть еще крупный и оригинальный корпусный проект



  • диахронический корпус Ngram Viewer, созданный на основе библиоте- ки Google Вooks (https://books.google.com/ngrams). Сейчас это наиболее мощный инструмент для диахронических исследований. Эта система со- держит корпусы размеченных текстов книг на 9 языках. Например, корпус книг на русском языке содержит 591 310 текстов общим объемом более 67 млрд словоупотреблений. Самые поздние публикации, включенные в корпус, относятся к 2008 году. Результат поиска представляется в виде графика изменения частоты встречаемости слова или n-граммы в задан- ном временном периоде (рис. 2).





Рис. 2. График встречаемости сочетания «бурные аплодисменты» в период с 1920 по 2008 г.
Система обладает рядом уникальных возможностей: поиск по частям речи, учет позиции слова в предложении, выявление самых частотных биграмм, сложение кривых графика, совмещение на одном графике кри- вых нескольких лексических единиц, совмещение на одном графике кри- вых лексических единиц нескольких языков и т. д. [Захаров, Масевич 2012].




    1. Достарыңызбен бөлісу:
1   ...   96   97   98   99   100   101   102   103   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет