РәСӘй халыҡтары телдәре диалектологияһының КӨНҮҘӘк мәСЬӘЛӘЛӘре XVIII бөтә Рәсәй фәнни конференция материалдары


ЭЛЕКТРОННЫЙ КОРПУС ИЖЕМСКОГО ДИАЛЕКТА



Pdf көрінісі
бет100/200
Дата18.04.2023
өлшемі2,67 Mb.
#174842
1   ...   96   97   98   99   100   101   102   103   ...   200
Байланысты:
Dialectology-2018

ЭЛЕКТРОННЫЙ КОРПУС ИЖЕМСКОГО ДИАЛЕКТА
 КОМИ ЯЗЫКА КАК РЕСУРС ДЛЯ ЛИНГВИСТИЧЕСКИХ ИССЛЕДОВАНИЙ
При документировании диалектной речи используются современные информационные технологии.
Одним из результатов документирования является корпус диалектных текстов. Коми медиатека – это
первый опыт создания электронного коми диалектного корпуса, где в основном представлен ижемский
диалект коми языка. Корпус дает большие возможности для разносторонних лингвистических исследований
на всех уровнях – от фонетики до синтаксиса.
Ключевые слова:
 диалект, корпус, лингвистика, фонетика, лексика, семантика, грамматика.
115


ELECTRONIC CORPUS OF THE IZHMA DIALECT OF THE KOMI LANGUAGE AS A RESOURCE FOR
LINGUISTIC RESEARCHES. 
In documenting of a dialect speech the modern information technologies are used. One
of the results of that documenting is a corpus of dialect texts. The Komi media library is a first experience of creation of
an electronic Komi dialect corpus where the Izhma dialect of the Komi language is mostly presented. The corpus gives
great opportunities for various linguistic researches at all levels – from phonetics to syntax.
Keywords:
 dialect, corpus, linguistics, phonetics, vocabulary, semantics, grammar.
Диалект есть форма функционирования национального языка, в которой сохраняются и
отражаются важнейшие фонетические, лексические, морфологические, синтаксические
особенности, в том числе и исторические. Поэтому особенно актуальным является
документирование диалектной речи. Значимость языкового документирования огромна.
«Для местных жителей записанные тексты интересны тем, что привязаны к их сегодняшней
жизни, быту, знакомым людям и судьбам. Кроме того, сам факт, что их языком
интересуются ученые, что эти материалы будут доступны во всем мире, несомненно,
поднимает престиж языка, может способствовать пробуждению интереса к собственному
языку у молодых. Для будущих поколений - это сохранение культурного наследия. Конечно
же, собранные и обработанные материалы имеют огромную ценность для всех специалистов,
изучающих язык в самых разных аспектах. Это лингвисты, которые занимаются языками
данной языковой семьи; лингвисты-типологи, изучающие общеязыковые закономерности
путем сопоставления далеких и непохожих друг на друга языков; социолингвисты,
этнографы, фольклористы» [Архипов, 2008]. При этом важнейшими задачами
документирования являются не только сбор и качественная фиксация языкового материала,
но и предоставление к нему доступа в электронной форме широкой аудитории и надежное и
долговременное хранение собранных и обработанных данных и их периодическая обработка
по требованиям современных форматов. В 2016 году Центром инновационных языковых
технологий (Республика Коми) был создан электронный корпус ижемского диалекта коми
языка – Коми медиатека (http://videocorpora.ru/). Это первый опыт создания электронного
корпуса коми диалектной речи. О начале работы достаточно подробно было рассказано на
данной конференции в 2014 г. [Блокланд Р., Рисслер М., Партанен Н., Чемышев А., Федина
М., 2014]. О разработке самого корпуса и принятых решениях см. [Федина М.С., Левченко
Д.А., 2017].
Сегодня хотелось бы остановиться на возможностях данного корпуса для
лингвистических исследований. Корпус текстов является важным инструментом
лингвистического исследования, источником данных об исследуемом языке – наряду с
такими традиционными источниками, как языковая интроспекция исследователя,
грамматики и словари. Однако следует признать, что возможности корпусов все-таки еще
недостаточно усвоены лингвистической общественностью вообще и лингвистами в
частности. Обращение к корпусным данным еще не стало столь же привычным и
обязательным при формулировке и проверке тех или иных утверждений относительно
фактов языка, как обращение к грамматикам и словарям, к работам коллег [Перцов, 2006,
318]. 
В основе корпуса – ижемский диалект коми языка, который является одним из наиболее
своеобразных диалектов коми-зырянского языка. Он имеет широкую географию
функционирования и контактирования с разными языками.
Вначале необходимо отметить два важных момента: во-первых, расшифровка текстов
осуществлялась по принципу «верности звучащей речи», строго говоря, это не
транскрибированный текст, а письменный текст, максимально приближенный к устной речи.
Мы исходили из понимания, что «транскрибируя устный дискурс, следует основываться на
верности реальной аудиозаписи... Необходимо избегать искушения подгонки под привычные
шаблоны письменного языка. То, чего не может быть в письменном языке (или мы думаем,
116


что его там не может быть), вполне может встречаться в устном» [Кибрик, Подлесская, 2003,
3]. Во-вторых, расстановка знаков препинания не в полной мере соответствует правилам
литературного языка, поскольку «она служит прежде всего для того, чтобы дать некоторое
представление о членении диалектной речи и облегчить читателю восприятие текста»
[Летучий, 2005, 215]. 
На данный момент в рабочей базе корпуса около 60 обработанных интервью
продолжительностью от 15 минут до 1,5 часов, на сайте (в общем доступе) их меньше. Этот
массив текстов достаточно легко обрабатывать благодаря программе ELAN для различных
лингвистических исследований. В качестве примера можно взять исследования на фонетико-
фонологическом, лексико-семантическом и грамматическом уровнях.


Достарыңызбен бөлісу:
1   ...   96   97   98   99   100   101   102   103   ...   200




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет