11 Часть I. Компоненты 14 Глава Компьютерная



бет150/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   146   147   148   149   150   151   152   153   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Таблица 3. Примеры шаблонов, выражающих события бракосочетания и приобретения одной компании другой компанией


Бракосочетание

ПЕР и ПЕР поженились в ТЕМП ТЕМП стало датой свадьбы ПЕР и ПЕР ПЕР стала женой ПЕР ТЕМП
ПЕР назвал ПЕР своей супругой перед алтарем в ЛОК

Приобретение компании

ОРГ приобрела контрольный пакет ОРГ ОРГ стала частью ОРГ ТЕМП
ОРГ и ОРГ принадлежат одному холдингу владелицей ОРГ начиная с ТЕМП будет ОРГ

События, как правило, описываются предикатом и его актантами, хо- тя они могут выражаться и отглагольными существительными.


Первым шагом к построению модели событий является вычленение из предложения смыслового ядра — минимальной его части, выражающей необходимую информацию, которая потом послужит нам шаблоном. Хотя во многих случаях эта задача может быть решена при помощи очень про- стых правил, составить алгоритм для общего случая вряд ли представля- ется возможным. Рассмотрим несколько примеров.

  1. К прискорбию родных и друзей, г-н Иванов скончался у себя дома на 50-м году жизни.

  2. Сообщается, что г-н Иванов трагически ушел из жизни вче- ра вечером, 13 февраля, окруженный домочадцами.

Оба приведенных предложения описывают смерть (ПЕР скончался, ПЕР ушел из жизни), но также содержат взаимодополняющие детали (на НУМ году жизни, ТЕМП). Если центральное содержание предложения

  1. можно извлечь при помощи правила извлечь глагол с подлежащим и прямым дополнением, то в случае (25) мы бы получили неполный преди- кат с совершенно другим значением: ПЕР ушел. Автоматическим систе- мам крайне сложно уловить разницу между, например, ушел из дома и ушел из жизни (в первом случае предложная группа является адъюнктом, а во втором — частью предиката), поэтому правил, сформулированным в терминах глагола и его актантов, будет недостаточно. Кроме того, неясно, как можно было бы сформулировать подобные правила в отношении важ-

ных с семантической, но второстепенных с синтаксической точек зрения частей предложения. В примерах выше из шаблонов можно опустить све- дения о том, что человек скончался трагически или к прискорбию родных, тогда как возраст на момент смерти и точная дата несут нужную инфор- мацию.


Предположим, что задача вычленения сути предложения, то есть, за- дача создания шаблонов, нами решена. Любое предложение, в котором упоминаются именованные сущности, числа или даты, может быть преоб- разовано в минимальную грамматически правильную конструкцию, опи- сывающую событие с его основными участниками. Вместо конкретных имен и дат мы используем семантические категории, уже размеченные в тексте (ПЕР, ЛОК, ОРГ, ТЕМП, НУМ). Более того, шаблон сохраняет со- ответствующую ему синтаксическую структуру предложения (Рис. 1), чтобы его можно было обнаружить в предложениях с отличающимся по- рядком слов (26) и чтобы его не находили там, где не следует (27). Второй, но не первый из этих примеров, содержит в нужном порядке необходимые слова (ушел, из, жизни) и участников (ПЕР, ТЕМР), но временное обстоя- тельство (1-го декабря) относится не к событию, которое мы хотим из- влечь, а к глаголу рассказали.




Рис. 1. Часть синтаксического дерева, соответствующая шаблону, извлеченному из (25)

  1. В начале ноября ушел из жизни Сидоров.

  2. О том, как Сидоров ушел из жизни, мне рассказали 1-го де- кабря.

Сами по себе шаблоны не могут сообщить системе автоматического извлечения информации о том, какое событие за ними скрывается и какие шаблоны описывают одно и то же событие, а какие — разные. Научиться группировать шаблоны мы можем, например, используя процедуру, сход- ную той, о которой говорилось в предыдущем разделе. Имея базу данных, где для некоторых людей указана дата их смерти, мы можем найти все предложения, где упоминается человек из списка вместе в соответствую- щей ему датой. Но этот подход, помимо проблем, описанных ранее, имеет

еще один недостаток: весь список типов событий будет исчерпываться тем, что уже есть в базе данных. Например, если в ней содержится только информация о рождении и смерти, но не о датах заключения брака, то мы никогда не сможем собрать шаблоны, их описывающие.


Одним из способов существенно расширить список событий является метод, использующий избыточность информации. Суть этого метода за- ключается в том, что новости об одних и тех же участниках, появившиеся в один день, с большой долей вероятности повествуют об одном и том же событии. Например, новости, опубликованные 14 февраля, где речь идет об одном и том же Иванове, скорее всего, сообщают об одном и том же событии (в данном случае: его смерти). Сгруппировав шаблоны по дате публикации и совокупности их участников, мы можем использовать ста- тистические методы для создания глобальной модели событий. Не вдава- ясь в подробности этих методов, заметим, что если в один день из ново- стей об Иванове мы собрали шаблоны ПЕР скончался и ПЕР ушел из жиз- ни, а в какой-либо другой день в отношении другого человека (Сидорова) мы сгруппировали ПЕР скончался, ПЕР умер и ПЕР погиб, то в глобаль- ной модели все эти шаблоны могут оказаться в одной группе. Кроме того, шаблоны, занесенные по ошибке (ПЕР был уважаем коллегами), будут отсеяны или отнесены к соответствующей им группе.
Модели событий, построенные без вовлечения лингвистов, но ис- пользующие идеи избыточности информации, в том числе взятой из ново- стей, весьма популярны. Они описывают тысячи разнообразных событий. К их явным недостаткам можно отнести то, что при поиске шаблона в но- вых документах игнорируется контекст, который может изменить значе- ние шаблона. Для распознавания явного отрицания можно сформулиро- вать простые правила, но сложно составить исчерпывающий список таких слов, как почти, которые существенно дополняют или даже меняют смысл предиката. Кроме того, предикат может быть использован в метафориче- ском смысле или находиться в конструкции, напрямую его отрицающей (Это ложь, что Иванов скончался в возрасте 50 лет). Поэтому такие мо- дели должны быть либо дополнены модулями распознавания смысла кон- текста, либо они должны использоваться в качестве сигналов в системах, способных обрабатывать разные источники информации в совокупности. Простейшая такая система решала бы, что событие действительно имело место, если ей удалось найти значительное число подтверждений, про- порциональное популярности человека или организации. Например, что- бы быть уверенным в смерти известного лица, нужно найти указания на это в новостях при помощи по меньшей мере пяти разных соответствую- щих этому событию шаблонов не менее чем в десяти источниках.




  1. Достарыңызбен бөлісу:
1   ...   146   147   148   149   150   151   152   153   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет