11 Часть I. Компоненты 14 Глава Компьютерная



бет145/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   141   142   143   144   145   146   147   148   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Таблица 2. Кореферентные цепи из примера (14) и соответствующие им идентификаторы





Кореферентная цепь

Индекс внутри документа



Индекс в репозитории

Ломоносов, его, него, юный помор

1

/m/mvlomonosov

Сабельников

2

/m/snsabelnikov

Смотрицкий

3

/m/msmotrickiy

Магницкий

4

/m/lfmagnickiy

Полоцкий

5

/m/spolockiy

    1. Автоматические подходы

Познакомившись с задачей РИС и родственными ей проблемами, пе- рейдем к краткому обзору методов их автоматического решения.
Как правило, системы автоматической обработки языка построены по принципу конвейера: все начинается с разбивки текста на слова и предло- жения, далее следует частеречная разметка и определение границ фраз, после чего делается синтаксический анализ и РИС. Поэтому перед тем как обратиться к примерам возможного решения задачи, которой посвящена эта статья, мы положим, что в тексте нам уже даны как имена собствен- ные, так и все другие именные группы. Таким образом, наша задача со- стоит в том, чтобы приписать уже найденным именным группам их кате- гории и установить их референтов в тех случаях, где это возможно и имеет смысл.
Также мы, как и многие другие исследователи, будем исходить из то- го, что в нашем распоряжении имеется обширный каталог именованных сущностей. Учитывая размер и постоянный рост Википедии и других ре- сурсов (Freebase, Wikidata), наше предположение совершенно реалистич-

но. Разумеется, ни один ресурс не является исчерпывающим, и об этом мы поговорим в конце раздела.


Как и в случае многих других модулей обработки текста, распростра- ненным подходом является обучение статистических моделей на разме- ченных текстах. Подобно частеречной разметке, многие подходы исполь- зуют варианты моделей марковских цепей, условных случайных полей или просто классификаторы. Многие модели позволяют нам использовать большое количество разнообразных сигналов, помогающих ответить на интересующие нас вопросы:
Имеет ли данная именная группа своим референтом некую именованную сущность?

    • Какая категория из списка лучше всего соответствует именной группе в данном контексте?

    • Кто или что является референтом данной именной группы?

Хотя во всех примерах, которые мы рассмотрели до сих пор, у имен собственных имелся референт, можно найти примеры, где это не так, как в следующем предложении, где вряд ли имеется в виду столица Франции:

  1. Дмитрий Рогозин: «Генералы в окопах должны быть, а не в парижах».

Эффективность сигналов для систем машинного обучения зависит от языка и жанра текста. Так, во многих языках важным признаком имено- ванных сущностей является их написание с заглавной буквы. Однако, на- пример, в немецком языке, где все существительные пишутся с заглавной буквы, и в текстах, полученных при автоматическом распознавании речи, этот сигнал оказывается гораздо менее полезным. Важным сигналом явля- ется также наличие леммы слова в списке известных именованных сущ- ностей. Для слов и именных групп, отсутствующих в списке, решение о том, идет ли речь об именованной сущности и, если да, то какого типа, принимается на основе рассмотрения ближайшего контекста. Например, слова Mrs. в английском, Frau в немецком или г-жа в русском с большой долей вероятности сигнализируют о том, что за ними следует имя челове- ка.
Как было сказано в разделе 2.6, задача разрешения анафоры и нахож- дение цепей кореферентных элементов тесно связана с РИС. Построение кореферентных цепей можно свести к проблеме классификации, где мы двигаемся от начала текста и при рассмотрении каждой новой именной группы оцениваем вероятности, с которыми она может относиться к каж- дой из уже начатых цепей, либо может начать новую цепь. Подобные классификаторы обучаются предсказывать вероятности, тренируясь на множестве размеченных текстов, используя всевозможные сигналы.

Снова обращаясь к примеру (14), мы начинаем с первой именной группы Михайло Ломоносов и создаем первую кореферентную цепь с единственным пока элементом. Следующая именная группа — дьячок местной Дмитровской церкви С. Н. Сабельников. Используя такие сигна- лы, как леммы слов, путь от этой группы в синтаксическом дереве к эле- менту единственной созданной цепи, мы, вероятно, получим крайне низ- кую вероятность того, что рассматриваемая нами именная группа отно- сится к уже существующей цепи, и примем решение начать новую цепь. Следующий кандидат для пополнения кореферентных цепей — место- имение его. Вероятность того, что местоимение начинает новую цепь крайне мала. Если учесть, что местоимение согласуется в роде с любой из двух существующих цепей, важным сигналом становится то, что текст посвящен Ломоносову, а не Сабельникову, и в результате натренирован- ный на размеченных текстах классификатор выдаст более высокую веро- ятность принадлежности местоимения к первой из двух цепей. Тот факт, что одна из цепей, а именно цепь, соответствующая Ломоносову, стано- вится все более весомой по мере того, как мы продвигаемся от начала тек- ста, делает еще более вероятным ее дальнейшее пополнение. Другими словами, важным сигналом для классификатора, обученного оценивать вероятность принадлежности именной группы к той или иной цепи, явля- ется не только априорная вероятность каждой из групп, но и набираемый ею вес.




    1. Использование экстратекстуальных сигналов

В литературе по разрешению кореферентности неоднократно говори- лось о том, что эта задача требует так называемых «знаний о мире» (world knowledge), в подтверждение чего приводились такие примеры как (2.6–2.7).



  1. Достарыңызбен бөлісу:
1   ...   141   142   143   144   145   146   147   148   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет