11 Часть I. Компоненты 14 Глава Компьютерная



бет127/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   123   124   125   126   127   128   129   130   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Гибридный перевод


Компьютерные лингвисты, разрабатывающие системы на основе пра- вил, давно поняли, что статистика тоже может им пригодиться. Например, синтаксический анализ известного предложения Time flies like an arrow может дать два разных варианта: Время летит как стрела и Мухи времени любят стрелу. Более удачный перевод можно выбрать с помощью стати- стики — посмотреть, например, как часто встречаются сочетания время летит и мухи времени, а также летит как стрела и любят стрелу.
Что касается математиков, специалистов по статистике, то они часто считают ненужной любую лингвистическую информацию. Для достиже- ния наибольшей эффективности (а может быть, для примирения матема- тиков и лингвистов), большинство систем машинного перевода сегодня используют и правила, и статистику. Такой подход называется гибридным. Объединять правила и статистику можно разными способами. Можно интегрировать статистический модуль в перевод, основанный на правилах

  • именно это мы описали, выбирая более удачный перевод предложения

Time flies like an arrow.
Другой подход связан с интеграцией правил в статистическую мо- дель. Как пример тут можно привести перевод с японского языка на рус- ский или на английский. В японском языке сказуемое обычно находится в конце предложения. Такой порядок слов сильно отличается от привычного нам порядка Маша ела кашу — подлежащее-сказуемое-дополнение. Это отличие может создать большие неудобства при формировании фразовых таблиц модели перевода. Ведь фразовая таблица состоит из параллельных фрагментов, а русское сочетание Маша ела может протянуться от начала до конца японского предложения: подлежащее в самом начале, а сказуемое в самом конце.
Чтобы сделать японские фразы более «похожими» на русские, можно перед применением статистики провести предобработку японского текста с помощью правил — просто найти в каждом предложении сказуемое и переместить его поближе к подлежащему. Конечно, получившийся текст будет уже не японским, а псевдо-японским, но перевести его на русский будет гораздо легче.

Интересный вариант гибридной технологии используется в компании PROMT. Там создан большой обучающий параллельный корпус «исправ- ленных ошибок». Он состоит из предложений, переведенных системой с помощью правил, в соответствие которым поставлены эти же предложе- ния, исправленные носителями языка. На основе этого корпуса работает модуль синтаксического постредактирования — система обучена перево- дить «с русского на русский». Таким образом, перевод происходит в два этапа: (1) перевод по правилам; (2) статистическая доработка переведен- ного текста с помощью системы, обученной на параллельном корпусе ис- правлений [Молчанов 2013].


Практически все разработчики систем машинного перевода исполь- зуют сейчас гибридные технологии, но исследования в этой области за- щищены коммерческой тайной. В мире пока нет ни одного учебника по гибридным технологиям, какие-то отдельные разработки иногда описы- ваются в выступлениях на конференциях.
Но будущее прикладной лингвистики и, в частности, машинного пе- ревода, связано именно с гибридными технологиями. Скорее всего, наибо- лее эффективные системы будут действовать на основе статистики, уси- ленной правилами.




  1. Достарыңызбен бөлісу:
1   ...   123   124   125   126   127   128   129   130   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет