параллельные или переводные корпусы (parallel, translation corpora), представляющие множество текстов-оригиналов, написан- ных на каком-либо исходном языке, и переводов этих исходных тек- стов на один или несколько других языков;
псевдопараллельные, или сопоставимые, корпусы (comparable corpora), объединяющие тексты из одной и той же тематической об- ласти, написанные на двух или нескольких языках, но тексты ориги- нальные.
Корпусы обоих типов используются для создания систем автомати- ческого перевода, для автоматического извлечения терминов, для сравни- тельных исследований языков, а также для изучения иностранного язы- ка.
При подготовке параллельных корпусов первого типа возникает про- блема выравнивания (alignment) — установление соответствий между фрагментами текста оригинала и текста перевода. Для решения этой зада- чи используются различные методы автоматического выравнивания тек- стов, реализуемые разными программами: LF Aligner, Hunalign, TextAlign, ABBYY Aligner, GIZA++, Wordfast tools и др.
Корпусы устной речи
По типу языковых данных корпусы делятся на письменные, устные (речевые) и смешанные. Следует помнить, что более 90 % продуктов
речевой деятельности — это речевые произведения и что по многих пара- метрам устная речь сильно отличается от письменной. Чем и как — до последнего времени мы знали об этом очень мало.
Создание репрезентативного корпуса устной речи является сложной и трудоемкой задачей. Построение корпусов устной речи продвигается на- много медленнее, чем построение корпусов письменной речи. В первую очередь устную речь нужно как-то зафиксировать — например, с помо- щью магнитной ленты, цифровой записи или видеокассеты. Затем ее нуж- но записать буквами, что является утомительной и дорогой работой.
Еще одна сложность создания фонетических лингвистических ресур- сов связана с необходимостью транскрибирования устной речи и марки- рования в записи для фонетического корпуса паралингвистических явле- ний, сопутствующих речи (паузы, смех, бормотание, кашель и т. п.).
Несмотря на трудности создания, в мире создается достаточно много речевых корпусов. Яркими примерами таких корпусов для русского языка являются корпус «Один речевой день» (ОРД), разрабатываемый в Санкт- Петербургском университете [Асиновский и др. 2010] и мультимедийный корпус НКРЯ МУРКО, включающий кроме речи, еще и видеоряд [Гриши- на 2009].
Достарыңызбен бөлісу: |