Поисковые массивы и системы Интернета тоже могут быть использо- ваны как корпус для решения лингвистических задач.
Существовали проекты специальных поисковых машин-посредников, имеющих корпусный интерфейс, но пользующихся базами данных поис- ковых систем. Одна из таких систем — британский Webcorp (http://webcorp.org.uk). Однако в целом этот путь оказался малопродуктив- ным и периферийным.
Затем возникла идея создавать полноценные корпусы на основе тек- стов, взятых из Интернета [Kilgarriff 2001]. Вначале эта технология столк- нулась с большими трудностями как технического, так и идеологического характера. Однако многие из них уже решены и за прошедшее десятиле- тие эта технология, получившая название wacky (Web As Corpus), достигла заметных успехов. При этом в автоматическом режиме приходится решать задачи, связанные как с особенностями веба (обилие ошибок, дублирова- ние информации и т. п.), так и собственно корпусные (сбалансирован- ность, разметка). И хотя нельзя сказать, что все хорошо, тем не менее уже сегодня создаются корпусы объемом порядка 20 млрд словоупотреблений, позволяющие изучать широкую периферию языка.
В России также реализуется подобный проект, получивший название Генеральный Интернет-корпус русского языка (ГИКРЯ) [Беликов и др. 2010].
Следует упомянуть еще крупный и оригинальный корпусный проект
диахронический корпус Ngram Viewer, созданный на основе библиоте- ки Google Вooks (https://books.google.com/ngrams). Сейчас это наиболее мощный инструмент для диахронических исследований. Эта система со- держит корпусы размеченных текстов книг на 9 языках. Например, корпус книг на русском языке содержит 591 310 текстов общим объемом более 67 млрд словоупотреблений. Самые поздние публикации, включенные в корпус, относятся к 2008 году. Результат поиска представляется в виде графика изменения частоты встречаемости слова или n-граммы в задан- ном временном периоде (рис. 2).
Рис. 2. График встречаемости сочетания «бурные аплодисменты» в период с 1920 по 2008 г.
Система обладает рядом уникальных возможностей: поиск по частям речи, учет позиции слова в предложении, выявление самых частотных биграмм, сложение кривых графика, совмещение на одном графике кри- вых нескольких лексических единиц, совмещение на одном графике кри- вых лексических единиц нескольких языков и т. д. [Захаров, Масевич 2012].
Достарыңызбен бөлісу: |