11 Часть I. Компоненты 14 Глава Компьютерная



бет95/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   91   92   93   94   95   96   97   98   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

параллельные или переводные корпусы (parallel, translation corpora), представляющие множество текстов-оригиналов, написан- ных на каком-либо исходном языке, и переводов этих исходных тек- стов на один или несколько других языков;

  • псевдопараллельные, или сопоставимые, корпусы (comparable corpora), объединяющие тексты из одной и той же тематической об- ласти, написанные на двух или нескольких языках, но тексты ориги- нальные.

    Корпусы обоих типов используются для создания систем автомати- ческого перевода, для автоматического извлечения терминов, для сравни- тельных исследований языков, а также для изучения иностранного язы- ка.
    При подготовке параллельных корпусов первого типа возникает про- блема выравнивания (alignment) — установление соответствий между фрагментами текста оригинала и текста перевода. Для решения этой зада- чи используются различные методы автоматического выравнивания тек- стов, реализуемые разными программами: LF Aligner, Hunalign, TextAlign, ABBYY Aligner, GIZA++, Wordfast tools и др.


        1. Корпусы устной речи

    По типу языковых данных корпусы делятся на письменные, устные (речевые) и смешанные. Следует помнить, что более 90 % продуктов

    речевой деятельности — это речевые произведения и что по многих пара- метрам устная речь сильно отличается от письменной. Чем и как — до последнего времени мы знали об этом очень мало.


    Создание репрезентативного корпуса устной речи является сложной и трудоемкой задачей. Построение корпусов устной речи продвигается на- много медленнее, чем построение корпусов письменной речи. В первую очередь устную речь нужно как-то зафиксировать — например, с помо- щью магнитной ленты, цифровой записи или видеокассеты. Затем ее нуж- но записать буквами, что является утомительной и дорогой работой.
    Еще одна сложность создания фонетических лингвистических ресур- сов связана с необходимостью транскрибирования устной речи и марки- рования в записи для фонетического корпуса паралингвистических явле- ний, сопутствующих речи (паузы, смех, бормотание, кашель и т. п.).
    Несмотря на трудности создания, в мире создается достаточно много речевых корпусов. Яркими примерами таких корпусов для русского языка являются корпус «Один речевой день» (ОРД), разрабатываемый в Санкт- Петербургском университете [Асиновский и др. 2010] и мультимедийный корпус НКРЯ МУРКО, включающий кроме речи, еще и видеоряд [Гриши- на 2009].




      1. Достарыңызбен бөлісу:
  • 1   ...   91   92   93   94   95   96   97   98   ...   197




    ©engime.org 2024
    әкімшілігінің қараңыз

        Басты бет