11 Часть I. Компоненты 14 Глава Компьютерная



бет94/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   90   91   92   93   94   95   96   97   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute
Латын тілі 4,5 - дәріс 2, 169-182 фил, Вопросы на русском языке, 6 үж

Какие бывают корпусы


Ныне создано уже огромное число корпусов, что определяется мно- гообразием исследовательских и прикладных задач. Количество и разно- образие корпусов, созданных сравнительно за небольшой промежуток времени, поражает воображение. Как с одной точки на Земле нельзя обо- зреть весь земной шар, так невозможно и в одном месте учесть и описать все существующие корпусы.
Даже одно перечисление подкорпусов только Национального корпуса русского языка, показывает, как много сделано в корпусной лингвистике. В его состав, помимо основного корпуса, охватывающего два века сущест- вования русского языка, входят газетный подкорпус, диалектный, синтак- сический, обучающий, поэтический, устный, мультимедийный, историче- ский и параллельный подкорпусы. Каждый из них обладает рядом харак- терных особенностей. Так, мультимедийный русский корпус [Гришина 2009], образованный фрагментами кинофильмов 1930–2000-х гг. и другими материалами, представляет собой параллельные видеоряд, аудиоряд и тек- стовую расшифровку звучащей речи, а также специальную разметку на- блюдаемых в кадре жестов. И возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т. п.) и типу речевого действия (согласие, ирония и т. п.).
Количество специальных корпусов текстов только для русского языка

  • это сотни а, возможно, и тысячи наименований: рассказы о сновидени- ях; русскоязычный эмоциональный корпус; Санкт-Петербургский учеб- ный корпус текстов школьников, изучающих английский язык; Санкт- Петербургский корпус агиографических текстов; Регенсбургский диахро-

нический корпус древнерусских текстов; коллекция древнейших и средне- вековых славянских и русских текстов «Манускрипт»; рукописные памят- ники Древней Руси, включая берестяные грамоты, и мн. др.


Классификацию корпусов можно проводить разными способами. Классифицирующим признаком может выступать цель создания корпуса, тип языковых данных, «литературность», жанр, динамичность, тип раз- метки, объем текстов и др.
Рассмотрим подробнее две классификации корпусов, связанных с па- раллельностью и типом языковых данных.


      1. Параллельные корпусы

По критерию параллельность корпусы делятся на одноязычные, дву- язычные и многоязычные. В одноязычных корпусах противопоставля- ются варианты (диалекты) языка, например, такие разновидности англий- ского языка, как британский английский и американский английский, или английский как родной и английский как иностранный.
Двуязычные и многоязычные корпусы, в свою очередь, можно раз- делить на два основных типа:



  1. Достарыңызбен бөлісу:
1   ...   90   91   92   93   94   95   96   97   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет