Ныне создано уже огромное число корпусов, что определяется мно- гообразием исследовательских и прикладных задач. Количество и разно- образие корпусов, созданных сравнительно за небольшой промежуток времени, поражает воображение. Как с одной точки на Земле нельзя обо- зреть весь земной шар, так невозможно и в одном месте учесть и описать все существующие корпусы.
Даже одно перечисление подкорпусов только Национального корпуса русского языка, показывает, как много сделано в корпусной лингвистике. В его состав, помимо основного корпуса, охватывающего два века сущест- вования русского языка, входят газетный подкорпус, диалектный, синтак- сический, обучающий, поэтический, устный, мультимедийный, историче- ский и параллельный подкорпусы. Каждый из них обладает рядом харак- терных особенностей. Так, мультимедийный русский корпус [Гришина 2009], образованный фрагментами кинофильмов 1930–2000-х гг. и другими материалами, представляет собой параллельные видеоряд, аудиоряд и тек- стовую расшифровку звучащей речи, а также специальную разметку на- блюдаемых в кадре жестов. И возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т. п.) и типу речевого действия (согласие, ирония и т. п.).
Количество специальных корпусов текстов только для русского языка
это сотни а, возможно, и тысячи наименований: рассказы о сновидени- ях; русскоязычный эмоциональный корпус; Санкт-Петербургский учеб- ный корпус текстов школьников, изучающих английский язык; Санкт- Петербургский корпус агиографических текстов; Регенсбургский диахро-
нический корпус древнерусских текстов; коллекция древнейших и средне- вековых славянских и русских текстов «Манускрипт»; рукописные памят- ники Древней Руси, включая берестяные грамоты, и мн. др.
Классификацию корпусов можно проводить разными способами. Классифицирующим признаком может выступать цель создания корпуса, тип языковых данных, «литературность», жанр, динамичность, тип раз- метки, объем текстов и др.
Рассмотрим подробнее две классификации корпусов, связанных с па- раллельностью и типом языковых данных.
Параллельные корпусы
По критерию параллельность корпусы делятся на одноязычные, дву- язычные и многоязычные. В одноязычных корпусах противопоставля- ются варианты (диалекты) языка, например, такие разновидности англий- ского языка, как британский английский и американский английский, или английский как родной и английский как иностранный.
Двуязычные и многоязычные корпусы, в свою очередь, можно раз- делить на два основных типа:
Достарыңызбен бөлісу: |