11 Часть I. Компоненты 14 Глава Компьютерная


Основные свойства корпуса



бет92/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   88   89   90   91   92   93   94   95   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Основные свойства корпуса


Основное понятие корпусной лингвистики — это корпус. Существует множество определений понятия «корпус». Но, наверное, везде будет ука- зано на 4 главные его свойства: 1) электронный; 2) репрезентативный;
3) размеченный; 4) прагматически ориентированный (создаваемый для определенных целей).
Рассмотрим эти свойства чуть подробнее.


      1. Электронный

То, что корпус в современном понимании всегда электронный, сразу ставит вопрос о специальной программной системе для работы с ним. Эту систему чаще всего называют корпусным менеджером (или корпус- менеджером, corpus manager). Это специализированная поисковая система для поиска данных в корпусе, получения статистической информации и предоставления пользователю результатов в удобной форме.
Поиск в корпусе позволяет по любому слову построить конкорданс

  • список всех употреблений данного слова в контексте со ссылками на источник. Поэтому раньше эту поисковую программу называли конкор- дансер.



      1. Репрезентативный

Термин репрезентативность (representativeness) можно перевести как представительность, т. е. корпус должен хорошо «представлять» тот объект, который он моделирует, т. е. язык. Но могут создаваться и корпу- сы, «представляющие» какой-то подъязык, например, корпус русского языка 1-й половины XX века или корпус русского сонета или корпус раз- говорной речи жителей Заполярья. Почти в любом случае проблема репре- зентативности существует и ее надо решать. Есть и исключения. Допус- тим, при создании корпуса писем Н. В. Гоголя очевидно, что туда должны войти все письма Н. В. Гоголя. Естественно и понятно, что корпус — это собрание текстов конечного фиксированного размера. А в реальном языке таких текстов гораздо больше. Тогда встают две проблемы: проблема объ- ема и проблема отбора.


Проблема необходимого и достаточного объема явно была сформулиро- вана в 1960-70-е гг. ХХ в. при создании частотных словарей, когда обсуж- далось понятие представительной выборки — такого количества языково- го материала, после достижения которого относительные частоты языко- вых единиц практически не меняются. Объем первых корпусов составлял 1 млн словоупотреблений (Брауновский корпус, корпус Ланкастер—Осло- Берген, корпус Частотного словаря русского языка под ред. Л. Н. Засориной). Такой объем не позволял отразить язык во всем его мно- гообразии.
Для того чтобы создать репрезентативный корпус достаточного объе- ма, требуются большие ресурсы и немалое время. Задача создания такого корпуса, представляющего язык в наиболее полном виде, во всем много- образии его жанров, стилей, территориальных и социальных вариантов, под силу лишь большому коллективу, и таких представительных корпусов для каждого языка не может быть много. Поэтому такие «главные» корпу- сы для каждого языка стали называть национальными. Как правило, это бесплатный, доступный любому пользователю электронный онлайновый корпус. Он должен включать не менее 100 млн словоупотреблений. Оче- видно, что для изучения многих языковых явлений и этого объема недос- таточно. Поэтому сейчас создаются корпусы, где счет словоупотреблениям идет на миллиарды единиц.
Вторая проблема формирования представительной выборки — про- блема отбора. Из каких текстов сформировать тот самый минимально не- обходимый объем? Поэтому появилось еще одно важное понятие корпус- ной лингвистики — сбалансированность (balance). Если корпус — это уменьшенная модель языка, то, значит, в нем пропорционально должны быть представлены текстов различных периодов, жанров, стилей, авторов и т. д. Однако можно сказать, что применительно к языку в целом мы этих пропорций не знаем. Тем не менее, к этому нужно стремиться, как на эта- пе проектирования корпуса, так и на этапе его развития.
Именно репрезентативность и сбалансированность корпуса опреде- ляют достоверность полученных на его материале результатов.


      1. Размеченный



Достарыңызбен бөлісу:
1   ...   88   89   90   91   92   93   94   95   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет