11 Часть I. Компоненты 14 Глава Компьютерная



бет143/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   139   140   141   142   143   144   145   146   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Распознавание сущностей




    1. Какие сущности извлекаем

Начнем с определения: под именованной сущностью (named entity) мы будем понимать что-либо реально существующее или вымышленное, на что можно указать или к чему можно обратиться при помощи имени собственного. В соответствии с этим определением в задачу распознава- ния именованных сущностей входит не только (1) нахождение в тексте их упоминаний, но и (2) однозначное указание на подразумеваемый объект или лицо, а также (3) приписывание ему категории. Как правило, исполь- зуется очень простая классификация, включающая в себя всего лишь три категории: ЧЕЛОВЕК, МЕСТО, ОРГАНИЗАЦИЯ. Аналогично терминоло- гии, принятой в англоязычной литературе, мы будем использовать сокра- щения ПЕР (от персона), ЛОК (от локация) и ОРГ. Разумеется, такая клас- сификация является довольно грубой, поскольку легко представить себе задачи, где важно различать между подтипами: идет ли речь о компании или стране, об актере или политике, и т. п. В англоязычной литературе грубая классификация часто называется coarse-grained, она противопос- тавляется более точным классификациям (fine-grained classification). Тем не менее, простая схема универсальна и является удобным компромиссом, тогда как определить более подробную схему, удовлетворительную для разных текстовых жанров, гораздо сложнее.
Хотя ни время, ни числа не соответствуют данному выше определе- нию, они часто размечаются алгоритмами распознавания именованных сущностей (далее РИС) наряду с ПЕР, ЛОК, ОРГ. Для них мы будем ис- пользовать теги ТЕМП (темпоральные выражения — temporal expressions) и НУМ (нумерические выражения — numeric expressions). Заметим, что, в отличие от трех других категорий, распознавание как чисел, так и времени представляется значительно более простой задачей, поскольку существует ограниченный набор способов их выразить.
В табл. 1 приведены различные именованные сущности и соответствую- щие им категории, содержащиеся в примере (11), который взят из Википе- дии:

  1. Современный [СПбГУ] в [России] — преемник [Академиче- ского университета], который был учреждён одновременно с [Ака- демией наук] указом [Петра I] от [28 января 1724 года] (в частно- сти, в [1758—1765] годах ректором [Академического университета] был [М. В. Ломоносов]).





Достарыңызбен бөлісу:
1   ...   139   140   141   142   143   144   145   146   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет