Таблица 1. Именованные сущности, упомянутые в примере (11), и соответствующие им категории
Название (имя)
|
Возможные категории
|
СПбГУ
Академический университет Академия наук
|
организация, образовательное учреждение, вуз организация, образовательное учреждение, вуз организация, научная организация, академия
|
Россия
|
место, страна, государство
|
Петр I
М. В. Ломоносов
|
человек, исторический деятель, политик, правитель человек, ученый, химик, писатель, философ, художник
|
28 января 1724 года
1758–1765
|
время (дата)
время (временной отрезок)
|
Приведенный пример иллюстрирует некоторые сложности автомати- ческого РИС, о которых и пойдет речь ниже.
Зависимость категории от контекста
Как видно из неполного списка в табл. 1, помимо очевидного челове- ка, М. В. Ломоносову можно приписать различные другие категории, со- ответствующие его многогранной личности. Заметим, что речь идет не о более подробной детализации, как в случае с СПбГУ (от организации к учебному заведению и дальше к вузу), а о категориях одного порядка. Тем не менее, тот факт, что Ломоносов был в том числе и художником, в кон- тексте примера не имеет такого большого значения, как то, что Ломоносов был видным ученым своего времени.
Можно сказать, что из категорий одного порядка (например, профес- сий) в конкретном контексте, как правило (но не всегда), имеет значение только одна из возможных категорий, и ее выбор часто не является само- очевидным.
Более того, подобная проблема может возникнуть и с семантически несхожими категориями. Так, в примере (11) Россия, очевидно, является географическим объектом, местом, чего нельзя сказать о следующем при- мере из издания Утро.Ru:
Россия отказалась от американского мяса. Россельхознадзор вводит временные ограничения на поставки продукции птицеводства США в Россию.
Географические объекты не могут от чего-либо отказываться, и во втором предложении примера, которое развивает тему, заданную первым, речь уже идет об организации (Россельхознадзор). Для России во втором примере более подходящей категорией будет, скорее, СТРАНА.
Таким образом, выбор подходящей категории не обязательно следует из именованной сущности и не может быть просто считан из базы данных, но очень часто определяется контекстом, в котором она была упомянута.
Неоднозначность идентификации
Услышав пример (11), вряд ли кто-либо переспросит, какой Петр I или который М. В. Ломоносов имеется в виду. В случае Петра I, вероятно, нет и не будет ни одного другого известного человека, так называемого. Русская версия Википедии приводит список из шести ломоносовых, но только один из них имеет инициалы М. В. Совершенно иначе восприни- мается имя Толстой в следующем отрывке из «Театрального романа». М. А. Булгакова:
В час ночи мы выпили чаю, а в два Рудольфи дочитал послед- нюю страницу. Я заерзал на диване.
Так, — сказал Рудольфи. Помолчали.
Толстому подражаете, — сказал Рудольфи. Я рассердился.
Кому именно из Толстых? — спросил я. — Их было много… Алексею ли Константиновичу, известному писателю, Петру ли Анд- реевичу, поймавшему за границей царевича Алексея, нумизмату ли Ивану Ивановичу или Льву Николаичу?
В этом примере нельзя однозначно сказать, которая из известных ис- торических личностей имеется в виду, хотя с большой долей вероятности можно предположить, что речь идет о последнем из перечисленных в от- рывке. В отличие от этого примера, в абсолютном большинстве случаев неоднозначность не предполагается автором, и идентификация референта редко вызывает трудности у собеседников, но для автоматических систем однозначное распознавание остается далеко не простой задачей. Главным образом из-за того, что у значительного числа имен собственных есть не- сколько возможных референтов.
Концептуальные сложности
В некоторых случаях возникает вопрос о том, нужно ли провести гра- ницу между двумя сущностями или можно их считать единым объектом. Возвращаясь к примеру (11), посмотрим на Академический университет и СПбГУ. Из текста следует, что один является преемником другого и что именно это дает основания говорить о том, что дата основания СПбГУ — 1724 год. С другой стороны, признавая, что СПбГУ и Академический уни-
верситет — одно и то же заведение, мы как бы лишаем текст смысла, по- тому что утверждение СПбГУ является преемником СПбГУ не несет в себе никакой информации. Получается, что в этом контексте имеет смысл приписать этим двум заведениям разные идентификационные номера, но в других контекстах, напротив, нужно считать, что речь идет об одном и том же заведении.
Можно сказать, что подобные сложности возникают, когда нарушает- ся исходное положение о том, что сущности являются инвариантами, то есть, что они не подвержены изменениям во времени. Особенно очевидна неоправданность этого допущения, когда речь идет, например, о странах, чьи границы неминуемо изменяются на протяжении их существования. К счастью, для решения прикладных задач редко требуется обрабатывать тексты, создаваемые столетиями, и такие «философские» сложности вряд ли можно отнести к основным проблемам извлечения информации. Тем не менее, важно отдавать себе отчет, что используемые схемы и классифика- ции условны и неминуемо содержат в себе неточности и ошибки.
Разрешение анафоры и кореферентности
Задача, близко связанная с РИС, касается автоматического разреше- ния анафоры и кореферентности (anaphora and coreference resolution). Если до этого мы исходили из того, что нам нужно понять, кто или что является референтом имен собственных, то в данном случае нас интере- суют все другие возможные способы указать на именованную сущность, будь то местоимение или именная группа:
Грамоте обучил [Михайла Ломоносова] [дьячок местной Дмитровской церкви С. Н. Сабельников]. «Вратами учёности», по [его] собственному выражению, для [него] делаются «Грамматика» [Мелетия Смотрицкого], «Арифметика» [Л. Ф. Магницкого], «Сти- хотворная Псалтырь» [Симеона Полоцкого]. В четырнадцать лет [юный помор] грамотно и чётко писал.
Если не считать названия текстов, в примере (14), взятом из Википе- дии, упомянуто пять имен. Кроме этого, в нем использованы два место- имения (его, него) и именная группа юный помор, которые все относятся к М. В. Ломоносову. Зная, что отрывок извлечен из биографической статьи о Ломоносове, а также учитывая сравнительную редкость катафоры в рус- ском языке, мы без труда понимаем, что и местоимения, и юный помор могут относиться только к Ломоносову. Подобного рода информация мо- жет быть использована и при создании автоматических систем, о чем мы поговорим в разделе 2.7.
Установление референта
С появлением обширных репозиториев (repository), включающих в себя многие миллионы именованных сущностей, задача нахождения ко- референтных цепей (coreference chains) трасформировалась в задачу ус- тановления внетекстового идентификатора (entity linking). Если в пер- вом случае в задачу алгоритма входило приписать каждому референту индекс внутри документа, то во втором ему приписывается идентифика- тор, не привязанный к какому-либо тексту, а связанный с определенным репозиторием, например Википедией или Freebase (см. табл. 2, составлен- ную для примера (14)).
Достарыңызбен бөлісу: |