11 Часть I. Компоненты 14 Глава Компьютерная



бет147/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   143   144   145   146   147   148   149   150   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Извлечение отношений




    1. Какие отношения извлекаем

Рассмотрим теперь задачу извлечения отношений, которые возникают между двумя именованными сущностями.
Вряд ли кому-нибудь удастся составить исчерпывающий список всех возможных отношений, но можно определить те отношения, которые мо- гут оказаться нужными для конкретной практической задачи. Например, если нашей целью является отслеживание финансового рынка и составле- ние прогнозов о курсах акций, то к числу важных отношений стоит отне- сти изменение генерального директора компании, выпуск нового продук- та, покупка одной компанией другой, увольнение большого числа сотруд- ников или открытие нового офиса. Каждое из перечисленных отношений может быть выражено разными способами:

    • пер стал директором орг, орг выбрала пер своим новым управляю- щим;

    • орг объявила о выпуске новой модели прод, прод будет выпускаться орг

    • с января;

    • орг приобрела орг за нум рублей, орг была приобретена орг;

    • орг уволила нум сотрудников, нум работников орг остались без рабо- ты;

    • орг открывает новый офис в лок, лок станет вторым по размерам цен- тром исследований орг.

Извлечение отношений обычно предполагает, что в тексте уже разме- чены именованные сущности и указана их категория, причем речь идет не только об именах собственных, но и о местоимениях и других именных группах. Если кроме этого каждая из них привязана к идентификатору в базе данных, то извлеченное отношение может быть занесено туда же,

чтобы связать два идентификатора (человека и компанию, две компании, компанию и город).




    1. Обучение моделей на размеченных текстах

Как можно создать систему, автоматически распознающую и извле- кающую интересующие нас отношения? Если в нашем распоряжении есть множество размеченных текстов того же жанра, что и документы, с кото- рыми нам предстоит работать, то вопрос сводится к тому, какой метод машинного обучения и какие сигналы наилучшим образом подойдут для наших данных. Например, мы можем использовать стандартный класси- фикатор, который натренирован, чтобы определять, выражает ли предло- жение какое-либо отношение между двумя указанными сущностями. При утвердительном ответе на первый вопрос он может указать на наиболее вероятное отношение из интересующего нас списка.
Заметим, что в поисках ответа мы формулируем вопросы не столько по отношению к предложению, сколько по отношению к паре упомянутых в нем сущностей (например, двух компаний). Таким образом, все пары из размеченного корпуса, которые упоминаются в одном предложении и, как следует из разметки, находятся в каком-либо отношении, представляют собой «положительные» примеры для обучения. Те же пары, которые так- же упоминаются в одном предложении, но не состоят ни в каком отноше- нии становятся «отрицательными» примерами.
Рассмотрим следующее предложение:

  1. В прошлом году [Яндекс] приобрел [Кинопоиск], а

[Майкрософт] купил [Скайп].
Пары (Яндекс, Кинопоиск) и (Майкрософт, Скайп) образуют положи- тельные примеры, тогда как (Яндекс, Майкрософт) или (Яндекс, Скайп) становятся примерами отрицательными. В качестве сигналов для обуче- ния имеет смысл использовать категории упомянутых сущностей (напри- мер, ОРГ и ПЕР), леммы главных слов в задействованных именных груп- пах (например, скайп и яндекс), леммы слов на пути от одной сущности к другой в синтаксическом дереве (например, купить), расстояние между ними как в синтаксическом дереве, так и в предложении, расположение других сущностей между ними (да или нет), а также леммы слов, пред- шествующих или следующих за рассматриваемой нами конструкцией (это может быть, например, слово конкурент перед упоминанием первой ком- пании). Кроме этого, мы можем заранее извлечь и упорядочить часто встречающиеся конструкции и в качестве сигнала указывать их порядко- вый номер.

Как видно, сигналы совсем не обязательно должны иметь четкое тол- кование для создателей системы. Зачастую проще «покидать» всевозмож- ные сигналы в обучающуюся модель и предоставить ей самой отсеивать те, что не имеют практической ценности. Одна из причин, по которой та- кой подход предпочтительней, связана с несовершенством модулей авто- матической обработки, на которые мы полагаемся при извлечении отно- шений. Например, синтаксический парсер может последовательно припи- сывать сложным для него конструкциям определенный разбор, который, в свою очередь, будет сигналом для классификатора отношений, что парсер


«не уверен» и что из данного предложения лучше ничего не извлекать.
Полезными сигналами могут оказаться вероятности, с которыми предшествующие, вспомогательные модули размечали текст. Например, модуль РИС разметил одну из именных групп, первую в возможном отно- шении, приписав ей категорию компания с вероятностью 0.2. Кроме сиг- нала первый-актант: компания, мы можем добавить еще один, p(первый- актант = компания): 0.2. Он подскажет классификатору отношений, что у нас нет особой уверенности в том, что первый участник отношения — компания.


    1. Полуавтоматическое создание размеченного корпуса

К сожалению, чтобы натренировать точную систему, распознающую интересующие нас отношения в нужном жанре, мы редко можем восполь- зоваться уже существующим размеченным корпусом текстов. Поэтому в области извлечения отношений очень популярны методы, где изначально не существует никакой разметки и где отношения угадываются в тексте благодаря тем знаниям, которые заранее занесены в нашу базу данных.
Идея полуавтоматического создания размеченного корпуса привлека- тельна своей простотой. Допустим, в нашей базе данных уже содержится информация о том, что Аркадий Волож — генеральный директор компа- нии Яндекс, но про большинство других компаний такой информации у нас нет, как нет у нас и размеченного корпуса новостей, на котором мы могли бы натренировать систему распознавания этого интересующего нас отношения. Вместо того чтобы тратить усилия на ручную разметку соб- ранных новостей, мы собираем все предложения, где упоминаются Волож и Яндекс, и делаем серьезное допущение, заключающееся в том, что все эти предложения выражают именно это отношение. Если ограничить по- иск только сайтами новостей, то мы можем найти следующие фрагменты предложений:



  1. генеральный директор ООО «Яндекс» Аркадий Волож с 1 сентября

компания «Яндекс», которую в 2000 году основал Аркадий Во- лож
Аркадий Волож рассказывал о пробах «Яндекса» на этом по- ле


Достарыңызбен бөлісу:
1   ...   143   144   145   146   147   148   149   150   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет