Интерлингвистичесие системы (interlingual systems) используют язык-посредник, который называется интерлингвой (interlingua). Строго говоря, это даже не язык в привычном для нас смысле, а некоторое фор- мальное представление смысла человеческой речи и мыслей. На заре ком- пьютерной лингвистики идея создания такой системы была очень попу- лярна [Беляева, Откупщикова 1996], но создать полноценный универсаль- ный вспомогательный язык ученым пока не удалось.
Пословные переводчики и интерлингвистические системы сейчас практически не используются. Большинство RBMT систем применяют трансферный подход, поэтому мы рассмотрим его чуть подробнее.
Трансферный подход
Практически все компьютерные системы переводят текст по предло- жениям, поэтому текст должен быть разбит на предложения. В каждом из них надо выделить входящие в него слова, знаки препинания и другие элементы. Полученные элементы называются токенами (tokens), а сам процесс — токенизацией (tokenization).
Далее токены (то есть, слова и знаки) необходимо проанализировать, чтобы понять их роль в предложении. Об этом рассказывается во второй главе данной книги, которая посвящена компьютерной морфологии. В результате для каждого слова будут определена его часть речи и его грам- матические значения. Кроме того, для целей перевода необходимо сопос- тавить каждое слово с нужным разделом компьютерного словаря. Об этих словарях мы поговорим подробнее чуть позже.
После того, как все токены проанализированы, необходимо понять структуру предложения — найти связи между словами, объединить слова в группы. Об этом рассказывается во второй главе нашей книги, посвя- щенной компьютерному синтаксису. Так, многие переводчики на раннем этапе собирают именные группы. Например, сочетание Добрые живот- ные будет отмечено как целостная именная группа.
Когда структура предложения будет ясна, компьютер строит новое предложение на конечном языке, используя переводы слов. Но это в идеа- ле. На практике всегда оказывается, что существующих правил обработки недостаточно, а описание слов в словаре должно быть более подробным. После этого начинается этап совершенствования системы. Разработчик анализирует переводы и пополняет словари и правила новыми условиями, чтобы компьютер мог учитывать смысловые и формальные связи. Напри- мер, английское слово plant имеет два значения: растение и завод, поэто- му сочетание the strike at the plant может быть ошибочно переведено как забастовка на растении. Но предлог at в сочетании at the plant употреб- ляется обычно тогда, когда речь идет о заводе. Поэтому можно добавить в систему правило: если слово plant сочетается с предлогом at, значит, пере- водить его надо как завод.
Правильный вариант перевода можно выбирать на основе семантиче- ского типа слов. Например, если английский глагол to press употребляется с элементом одежды (the dress — «платье»), то его надо переводить как
«гладить» или «погладить», а не «нажимать».
Улучшить качество текста помогает база памяти переводов (translation memory) — сохраненные заранее сегменты текста и их перево- ды, выполненные человеком. Это могут сочетания слов и целые предло- жения, например, идиомы или фрагменты деловой и личной переписки. При переводе они могут вставляться в текст автоматически или по указа- нию пользователя.
Способы лингвистической настройки перевода весьма разнообразны, но они требуют много часов (точнее, много лет) работы квалифицирован- ных лингвистов. Наверное, самые подробные словари для русского языка существуют в компании PROMT. Они разрабатываются уже более 20 лет усилиями многих лингвистов и инженеров и могут быть интегрированы не только в системы перевода, но и в другие системы обработки языка.
Пример словарей и грамматик компании PROMT
Рассмотрим систему словарей компании PROMT — ведущей россий- ской организации, занимающейся машинным переводом. Сейчас перево- дчики PROMT используют гибридные технологии, но их основу составля- ет мощная система словарей и грамматик, позволяющая компании выиг- рывать международные конкурсы по машинному переводу на русский язык.
Система словарей в PROMTе содержит:
словари основ;
таблицы флексий;
вспомогательные таблицы.
В словаре основ хранится (1) базовая форма каждого слова, (2) его псевдооснова, (3) его грамматические и семантические признаки, а также
его переводы на другой язык с подсказками, какой перевод в каких случаях использовать.
Как, например, устроена словарная статья для слова площадь? Она хранит его базовую форму площадь, чтобы было понятно, о каком слове идет речь. Кроме того, в словарной статье хранится псевдооснова площад
именно эта часть слова не меняется при изменении числа и падежа. Некоторые грамматические признаки этого слова записываются в словар- ную статью, а другие признаки хранятся в виде ссылок. В словарную ста- тью можно записать, что это существительное мужского рода. И можно дать ссылку на ту строчку в таблице флексий, где хранятся окончания это- го слова для разных падежей. Это будет та же строчка, что и у слова кро- вать, потому два этих слова изменяются одинаково.
Семантические признаки удобно привязывать к переводу. Английский слово площадь можно перевести тремя способами: area (если речь идет о
территории), square (если подразумевается городская площадь) или ploschad (при транслитерации названий). Контекст слова площадь может подсказывать, как правильно его перевести. Например, если за ним идут цифры, а затем единицы измерения (100 кв. м.), то тогда это сочетание переводится как square of. Вся эта информация хранится в словаре основ.
В таблице флексий хранятся все типы изменения слов.
Достарыңызбен бөлісу: |