Задача настоящего учебного пособия обобщить достижения пос ледних лет в области теории и практики лексикографии, проанализи


Глава XII КОМПЬЮТЕРНАЯ ЛЕКСИКОГРАФИЯ



Pdf көрінісі
бет22/24
Дата02.10.2019
өлшемі0,88 Mb.
#49139
түріЗадача
1   ...   16   17   18   19   20   21   22   23   24
Байланысты:
Dubichinskiy-V.V.-Leksikografiya-russkogo-yazyika-Uch-posobie

Глава XII
КОМПЬЮТЕРНАЯ ЛЕКСИКОГРАФИЯ
1. Компьютеризация словарной работы
Современная лексикография невозможна без широкой компь"
ютеризации. Постепенно традиционные методы заменяются ком
пьютерной обработкой лексикографических данных. Кроме очевид
ной экономии времени, интеллектуальных ресурсов и мн. др. это
даёт возможность поддерживать точность и тщательность контро
ля лексикографического процесса, оперативно исправлять допу
щенные, ранее не замеченные ошибки, создавать новые лексиког
рафические комплексы.
Компьютер может обеспечивать, по крайней мере, упрощать,
многие логические операции, основательно вмешиваться в сам про
цесс создания словаря. Только компьютер может предоставить не
медленный доступ к словнику, набору цитатного материала и т.п.,
обнаружить несогласованность различных кусков текста словар
ной (ых) статьи (статей), левой и правой частей словаря, дефини
ций, переводных эквивалентов etc. Компьютер может по желанию
лексикографа отслеживать семантические изменения лексемы,
сферу её употребления, фиксировать изменения в деривационном,
синтаксическом, грамматическом аспектах описываемой единицы.
Компьютер способен расположить словарный материал в любом
необходимом лексикографу порядке, выполнить рисунки, схемы,
графики с высокой степенью точности.
Очевидные практические преимущества компьютера в созда
нии словарей убедительно и кратко намечает Н. Кальцолари:
 исчерпывающая проверка различного рода ссылок и отсы
лочной информации;
 контроль за полной согласованностью как в терминологии
описываемого материала, так и в метаязыке словаря;
 нормализация толкований и дефиниций;
 обеспечение последовательности среди различных кусочков
информации;
 возможность избежать дефиниций «замкнутого круга» и т.д.
[Calzolari, 1989, с. 519].
Чего не может компьютер, так это предвидеть движений чело
веческого разума, установить тип возможных ассоциаций, вербаль
ных и невербальных реакций на ту или иную информацию. Важно
заметить, что компьютер «живёт» умом и чувствами лексикогра
фа, который использует его для совершенствования и ускорения
обработки данных. Лишь в общении, когда лексикограф и компь
ютер ведут диалог в режиме полного взаимопонимания, машина
преображается, она становится незаменимой в процессе создания
и использования словаря.
Компьютеризация лексикографической деятельности заклю
чается прежде всего в создании специализированных машинных
банков данных и в разработке методов формирования этих бан
ков, представления информации в банках и её использовании.
Современная лексикография всё шире пользуется машинны
ми банками данных, в частности, большими корпусами текстов на
магнитных носителях, в которых компьютер по запросу осуществ
ляет поиск нужных слов. На этой основе формируется целое новое
направление лингвистики и лексикографии – корпусная лингвис"
тика и лексикография [см. Quirk, 1992; Svartvik, 1992].
Создание машинных баз данных для разного рода лингвисти
ческих, в первую очередь лексикографических, работ началось ещё
в 60е годы ХХ в. и прошло два основных этапа. Корпусы первого
поколения насчитывали до миллиона словоупотреблений и были реп
резентативными, т.е. набирались по текстам различных жанров уст
ной и письменной речи, каждый из которых был представлен опреде
лённой выборкой. Корпусы второго поколения создаются в результа
те сплошного обследования текстов и по объёму превышают корпусы
первого поколения на полторадва порядка [Апресян, 1995а, с. 19].
Страны, первыми вступившие на этот путь, к настоящему вре
мени накопили громадные корпусы самых разнообразных источ
ников. Например, английский словарь Collins COBUILD, 1987 опи
КОМПЬЮТЕРНАЯ
 
ЛЕКСИКОГРАФИЯ

352
353
рается на корпус в 40 млн словоупотреблений – по 20 млн на лек
сику общего характера и специальную лексику. Крупнейший фран"
цузский словарь – Tre´sor, 1988 – опирается на машинную базу дан
ных объёмом в 100 млн словоупотреблений (70 млн словоупотреб
лений, извлечённых из приблизительно одной тысячи крупнейших
литературных произведения ХIХ–ХХ вв. на основе почти сплош
ной выборки; 20 млн словоупотреблений из научных и научнопо
пулярных тeкстов; остальное – из современных журнальных, га
зетных и других подобных текстов). Столько же словоупотребле
ний включает Британский Национальный корпус [Quirk, 1992].
Существуют исследовательские группы, чья работа уже сейчас опи
рается на корпусы численностью более чем в 360 млн словоупот
реблений [Svartvik, 1992, с. 18].
Качество базы лексикографических данных определяется не
только объёмом и разнообразием источников, но и развитостью
лексикографического сервиса, т.е. количеством услуг, которые она
может предоставить. В 1988 г. было завершено новое 20томное
издание Большого оксфордского словаря [Oxford, 1988]. Весь кор
пус словаря хранится в компьютере в виде базы данных, в которой
можно осуществлять поиск слов по большинству лексикографи
чески существенных признаков и по любым комбинациям таких
признаков. При этом скорость работы машины на несколько по
рядков превосходит скорость работы человека.
Корпусная лексикография развивается и в России. В частно
сти, в рамках осуществляемой с 1983 года в Институте русского
языка РАН программы формирования машинных фондов на маг
нитные носители были переведены разнообразные тексты [Апре
сян, 1995а, с. 20].
В Украине проблемой формирования машинного фонда украин
ского языка начали заниматься лишь в начале 90х годов ХХ в. Этим
занимаются лексикографы Киева (В.А. Широков, М.М. Пещак и др.),
Черновцов (Т.Р. Кияк и др.), Львова (В. Перхач и др.) и т.д.
В целях исторического взгляда на проблему машинных бан
ков данных предлагается краткий перечень первых словарей, сде"
ланных на основе компьютерной обработки информации:
1956 – Georgetown University Machine Translation Research and
Language Projects.
1963 – Webster’s Seventh ed.
1966 – Random House Dictionary of the English Language.
1967 – Brown University Corpus of PresentDay Edited American
English.
1969 – American Heritage Dictionary.
1973 – Webster’s Eighth ed.
1978 – Longman Dictionary of Contemporary English.
1979 – Collins COBUILD English Dictionary.
Б.Ю. Городецкий различает: а) банки эмпирических данных,
которые включают банк созданных ранее словарей и грамматик,
фонд наблюдаемых текстов, банк экспериментальных данных и
б) банки рабочих лексикографических результатов [Городецкий,
1986, с. 11–13].
Первые включают наблюдаемые или получаемые в экспери
менте факты (причём главный вид фактов – речевые произведе
ния), и вторые – результаты обработки фактов, т.е. различную сло
варную информацию, пополняемую и уточняемую в ходе работы
над проектом словаря.
Банк созданных ранее словарей и грамматик не представляет
принципиальных трудностей в плане его формирования, но зато
открывает богатые возможности в плане обработки существующих
лексикографических трудов с применением компьютера. Как толь
ко словарь попадает в машину, появляется возможность быстро ав
томатически получать новые произведения – вторичные словари.
Фонд наблюдаемых текстов связан с решением фундаменталь
ного вопроса о том, что же, собственно, является объектом модели
рования в лексикографии. Сознательное повышение адекватности
словаря по отношению к моделируемой реальности возможно лишь
в том случае, если признаем, что объект моделирования в словаре –
это всегда некоторый подъязык или комплекс подъязыков [Под
робнее о теории подъязыков см. в статье Б.Ю. Городецкого, 1988а].
Банк экспериментальных данных должен опираться на специ
ально разработанную систему экспериментов с целью получения
ГЛАВА
 XII
КОМПЬЮТЕРНАЯ
 
ЛЕКСИКОГРАФИЯ

354
355
исчерпывающей информации для определённых сегментов словар
ной статьи.
Банк рабочих лексикографических результатов позволяет за
писывать обобщающую информацию, которая организована в со
ответствии с типами создаваемых словарей, их крупных частей.
Автоматизированная обработка эмпирических данных может быть
нацелена на любые свойства лексических единиц.
Н.Ю. Русова считает лингвистическим обеспечением банка
данных: а) лингвистические средства представления семантики
данных: тезаурусы, элементы единиц языка, рубрикаторы, класси
фикаторы и т.п.; б) средства манипулирования с данными (рабо
чие языки и языки диалога) [Русова, 1991, с. 90].
В терминографии основой автоматизированной системы ин
формационнотерминологического обслуживания являются терми"
нологические банки данных.
Под терминологическим банком данных понимается динами
ческая система инвентаризации подъязыка, обслуживающего не
которую информационную область. Эта система включает машин
ное представление терминологических данных и соответствующий
набор программ.
По мнению Б.Ю. Городецкого, О.В. Зайцевой и др. [Городец
кий и др., 1988а, с. 251], основные типы лингвистических сведений,
полезных для разработчиков информационной системы и потен
циально выводимых из терминологического банка, таковы:
1) частотные инвентарисправочники, в которых каждая еди
ница (слово, словосочетание, морфема) снабжается морфологичес
кой, синтаксической, семантической, прагматической и статисти
ческой информацией;
2) могут выводиться обобщённые количественные сведения о
терминосистеме;
3) может проводиться анализ связей между терминами.
В принципе терминологический банк данных может быть орга
низован, с одной стороны, как документальнофактографическая
информационная система, выдающая сведения о понятиях и тер
минах, их обозначающих, а с другой стороны, как автоматизиро
ванная словарносправочная информационная система, ориенти
рованная на специальный текст.
Существующие в настоящее время терминологические банки
данных в основном ориентированы на решение двух задач:
1) обеспечение работ по переводу научнотехнических текстов,
документации;
2) обеспечение информацией о стандартизированной (реко
мендованной) научнотехнической терминологии.
С.В. Гринев и В.М. Лейчик выделяют [Гринёв, Лейчик, 1988,
с. 2] банки данных, предназначенные:
• для справочноинформационного обслуживания специали
стов различных областей знания, занимающихся разработкой стан
дартов на технологию и продукцию, составлением учебной и спра
вочной литературы, подготовкой специальных словарей, редакти
рованием научнотехнической литературы;
• для облегчения традиционного перевода научнотехнической
литературы;
• для обеспечения автоматизированных систем переработки
текста, в первую очередь – систем машинного перевода;
• для лингвистического обеспечения автоматизированных си
стем информации;
• для обеспечения терминологических работ, в первую очередь
упорядочения и стандартизации терминологии, а также для авто
матизации подготовки и издания терминологических словарей,
словников, указателей;
• для терминологических и лингвистических исследований.
Наиболее известные отечественные терминологические бан"
ки данных:
а) банк стандартизированных терминов ВНИИКИ России (на
его основе реализована АСИТО – Автоматизированная система
информационнотерминологического обслуживания);
б) автоматизированный банк данных по системам связи и уп
равления;
в) банк терминов для машинного перевода, который разраба
тывается центром переводов (ВЦП) в Москве;
ГЛАВА
 XII
КОМПЬЮТЕРНАЯ
 
ЛЕКСИКОГРАФИЯ

356
357
г) автоматизированная система Машинного фонда русского
языка, которая объединяет словарные и текстовые банки данных и
имеет в своём составе Терминологический фонд русского языка;
д) терминологический банк данных украинского языка в Кие
ве, Львове, Харькове.
Приведу несколько примеров известных зарубежных терми"
нологических банков данных:
NОRМАТЕRM – банк стандартизированной терминологии
(Франция),
ТЕRМUМ – двуязычный банк терминов правительства Канады,
ТЕАМ – многоязычный банк терминов фирмы «Сименс»
(ФРГ),
ТЕRМDОC (Швеция),
ТЕRА (Финляндия) и др.
В терминологических банках данных информация о каждом
термине заносится в определённое поле записи. В каждом поле за
писывается определённый вид информации – о произношении тер
мина в одном поле, дефиниция – в другом, грамматическая харак
теристика – в третьем и т.д.
В двуязычной лексикографии преимуществом терминологи
ческих банков данных является возможность по желанию пользо
вателя менять язык оригинала и язык перевода.
Кроме того, структура банков данных предоставляет выгодную
возможность оперативно вносить исправления в уже занесенную
информацию.
В контексте компьютерной лексикографии следует вспомнить
о таком виде словарей, как конкордансы. Способность компьюте
ра особым образом идентифицировать отличительные особеннос
ти единиц текста, рассортировать их используется главным обра
зом для изучения учебных и литературных текстов. Для этого важ
нейшим средством является конкорданс – лексикографическое
произведение, представляющее собой перечень (свод) всех случа
ев употребления каждого слова в определённом тексте. Каждый
случай словоупотребления доказывается информацией о контек
сте, о позиции лексической единицы, о её словесном окружении.
Конкордансы могут быть использованы: для исследования со
четаемостных возможностей лексических единиц, нюансов значе
ний, в качестве источника для лексикографических иллюстраций
того или иного употребления.
Разновидности конкордансов зависят от различного набора
параметров: исчерпанность описания, природы заголовочных еди
ниц, типографской вёрстки, организации контекста, языковой или
понятийной точки зрения на исследуемый материал и т.п. Каче
ственно различаются конкордансы типа KWIC (KeywordIn
Context) – ключевое слово в контексте и типа KWOC (Keyword
OutofContext) – ключевое слово вне контекста. В последнее вре
мя благодаря компьютерной обработке данных развивается
конкордансная лексикография языка писателей, философов, учё
ных [см., например, Crusca, 1971; Hanon, 1974, Spevack, 1968–1975;
Engwall, 1984; Русская авторская лексикография, 2003].
Основные проблемы, которые стоят сегодня перед компью"
терной лексикографией, обобщённо можно сформулировать сле
дующим образом:
1. Обеспечение нейтральности лексических и терминологичес
ких банков данных с учётом различных лингвистических теорий и
воззрений.
2. Нормализация и стандартизация различных компьютерных
словарей.
3. Адекватность позиций как описания, так и представления
данных в словаре.
4. Свободное распространение данных компьютерных словарей,
по крайней мере, в области научных исследований и обучения.
Современные средства автоматизации лексикографической ра
боты позволяют своевременно прослеживать изменения в употребле
нии тех или иных языковых единиц, составлять тексты и текстовые
комплексы для многократного использования их в различных целях.
Компьютеризация существенно изменяет не просто стиль рабо
ты лексикографов и повышает эффективность их деятельности, но
и позволяет ставить и решать новые задачи, о которых невозможно
было бы даже мечтать в рамках традиционной лексикографии.
ГЛАВА
 XII
КОМПЬЮТЕРНАЯ
 
ЛЕКСИКОГРАФИЯ

358
359
2. Машинный фонд и национальный корпус
русского языка
Началом развития корпусной лексикографии русского языка
можно считать осуществление с 1983 г. в Институте русского язы
ка РАН программы формирования машинных фондов.
Машинным фондом русского языка называется программа
комплексной информатизации исследований в русистике, разра
ботанная А.П. Ершовым и Ю.Н. Карауловым.
Под комплексной информатизацией научных исследований и
прикладных разработок понимается: 1) последовательное оснаще
ние современными вычислительными машинами с перспективой
их объединения в единую вычислительную сеть; 2) последователь
ное накопление на машинных носителях и в базах данных главней
ших источников, необходимых для научного изучения языка и осу
ществления прикладных разработок; 3) создание программных
средств, необходимых для подготовки научных трудов по филоло
гии и проведения прикладных разработок; развитие прикладных
направлений (лексикографии, терминоведения, машинного пере
вода, автоматической обработки данных на естественном языке)
как составной части академической и вузовской науки, являющих
ся, с одной стороны, проводником результатов фундаментальных
исследований в практику, а с другой – источником новых идей и
данных для фундаментальной науки.
В рамках проекта машинного фонда русского языка разраба
тываются  девять фондов"составляющих (генеральный словник,
словарный, текстовой, грамматический, терминологический, лин
гвогеографический, исторический, фонетический и лингвистичес
кий программноисточниковый фонды русского языка) и одна про
граммная система – типовой, лингвистический программноисточ
никовый пакет UNILEX.
Средствами комплектации фондовсоставляющих являются
так называемые лингвистические программноисточниковые па
кеты, т.е. программные комплексы, управляющие крупными лин
гвистическими источниками. К ним относятся, например, авто
матические конкордансы, автоматические словари, автоматичес
кий вариант «Диалектологического атласа русского языка», ин
формационная система по «Краткой русской грамматике», про
цессоры русского языка и другие средства автоматизации и ин
формационного обеспечения лингвистических исследований и
разработок.
В 1985–1996 гг. в машинном фонде русского языка на машин
ных носителях и частично в базах данных накоплены текстовые
источники русской литературы XIX–XX вв., главнейшие словари
русского языка, «Краткая русская грамматика» (1989), некоторые
другие материалы справочного характера, созданы текстовые кор
пусы поэзии, художественной прозы, общественнополитических
и технических текстов; разработан программноисточниковый па
кет UNILEX для персональных компьютеров, состоящий из 5 под
систем: подсистемы обработки лингвистических данных общего
назначения, текстоориентированной подсистемы, словарной под
системы, телекоммуникативной подсистемы и редакционноизда
тельской подсистемы. Каждая из этих подсистем может использо
ваться независимо от других.
Национальный корпус русского языка, представленный в
Интернете на сайте http://ruscorpora.ru, основан на большом набо
ре текстов русского языка в электронном виде. Корпус задуман как
информационносправочная система, которая может дать представ
ление о языке на том или ином этапе его существования.
Национальный корпус русского языка ориентирован на все
мирно признанные образцы, в том числе Британский нацио
нальный корпус (BNC; http://sara.natcorp.ox.ac.uk). Заметим, что
характеристика «национальный» в его названии изначально под
разумевала лишь определенный вариант языка, но теперь приоб
рела терминологическое значение и по традиции переносится на
представительные корпуса других языков. Среди корпусов сла
вянских языков, на которые ориентируется наш корпус, отметим
Чешский национальный корпус, созданный в Карловом универ
ситете Праги (http://ucnk.ff.cuni.cz).
Национальный корпус имеет следующие особенности:
ГЛАВА
 XII
КОМПЬЮТЕРНАЯ
 
ЛЕКСИКОГРАФИЯ

360
361
 он репрезентативен, т.е. содержит большой объем текстов,
достаточный для того, чтобы отразить тот или иной период разви
тия языка;
 он сбалансирован: корпус содержит по возможности все типы
письменных и устных текстов, представленных в данном языке (ху
дожественные разных жанров, публицистические, учебные, науч
ные, деловые, разговорные, диалектные и т.п.). Все эти тексты вхо
дят в корпус по возможности пропорционально их доле в языке
соответствующего периода;
 он несет лингвистическую разметку: текстам и словам при
писана лингвистически существенная информация [Ляшевская,
Плунгян, Сичинава, 2005].
Проект Российской академии наук по созданию национально
го корпуса русского языка был начат в 2003 г. в рамках программы
«Филология и информатика». Основными участниками проекта
являются Институт русского языка им. В.В. Виноградова РАН
(Москва), ВИНИТИ РАН (Москва); ИЛИ РАН (С.Петербург),
СПбГУ, научные коллективы из Воронежа и Ижевска. Техничес
кую поддержку корпуса осуществляет компания «Яндекс».
Национальный корпус объединяет несколько видов текстовых
корпусов:
• Так называемый основной, или большой, корпус: морфологи
чески размеченные современные русские тексты (с начала XIX в.).
В нем выделяется Корпус современных текстов (середина XX – на
чало XIX в.), который уже сейчас доступен в Интернете, и Корпус
ранних текстов (XIX в. и первая половина XX в.), который будет раз
мещен в открытом доступе до конца этого года. Основной корпус со
здается специалистами Института русского языка им. В.В. Виногра
дова РАН, ВИНИТИ РАН, Института языкознания РАН и МГУ им.
М.В. Ломоносова при участии СанктПетербургского университета.
• Синтаксически размеченный корпус (treebank) ИППИ РАН
(около 500 тыс. словоупотреблений).
• Параллельный корпус, в котором тексту на русском языке
сопоставлен перевод этого текста на другой язык или, наоборот,
тексту на иностранном языке сопоставлен его перевод на русский
язык. Между единицами оригинального и переводного текста
(обычно – между предложениями) с помощью специальной про
цедуры устанавливается соответствие; эта процедура называется
выравниванием, а тексты, соответственно, выровненными. Выров
ненный параллельный корпус представляет собой важный инст
румент для научных исследований (в том числе и для исследова
ний по теории и практике перевода); он может также использовать
ся при обучении русскому и иностранным языкам. В создании этого
корпуса принимают участие Институт русского языка им. В.В. Ви
ноградова РАН, Воронежский и СанктПетербургский универси
теты. В настоящее время на сайте Национального корпуса гото
вится к размещению небольшой (около 1 млн словоупотреблений
в каждой части) выровненный параллельный русскоанглийский
корпус, подготовленный в Воронежском университете совместно
с Институтом русского языка им. В.В. Виноградова РАН.
• Древнерусский корпус XI–XIV вв. – http://io.udsu.ru:1300/
mns/). На первом этапе работы в данный подкорпус вошли памят
ники древнерусской переводной письменности XI–XII вв. («Жи
тие Андрея Юродивого», «Житие Василия Нового», «Пчела» и др.),
снабженные детальной лексикоморфологической разметкой и си
стемой информационного поиска. Тексты планируется поместить
в Интернет в 2005 г. Работа над этими текстами ведется в Инсти
туте русского языка им. В.В. Виноградова РАН (Москва).
Корпус современного русского языка, по замыслу его созда
телей, планируется в объеме 200 млн словоупотреблений, из кото
рых 100 млн будут представлять тексты 2й половины XX в., а еще
100 млн – тексты раннего периода, начала XIX в. – 1й половины
XX в. В настоящее время для поиска доступно более 50 млн слово
употреблений [там же].
На основе Национального корпуса русского языка создаются
лексикографические произведения различных типов. Например,
Частотный словарь современного русского языка (составители –
О.Н. Ляшевская и С.А. Шаров) создается на базе текстов 1950–
2007 гг., общий объем которых составляет около 100 млн словоу
потреблений.


Достарыңызбен бөлісу:
1   ...   16   17   18   19   20   21   22   23   24




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет