11 Часть I. Компоненты 14 Глава Компьютерная



бет142/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   138   139   140   141   142   143   144   145   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Извлечение информации


Автор: Екатерина Александровна Филиппова, выпускница 2003 года, инженер-исследователь в компании Google


  1. Какую информацию извлекаем?


Тема этой главы — извлечение информации (information extraction) из текста на естественном языке. В обычной жизни под инфор- мацией подразумевается знание любого рода, но в прикладной лингвисти- ке подразумевается, что извлеченные данные касаются одного или не- скольких точно определенных именованных сущностей (named entities) и относятся к одной из заранее определенных категорий. Кроме того, пред- полагается, что извлеченная информация структурируется, чтобы ее мож- но было занести в базу данных.
Задачи извлечения информации можно разделить на несколько групп. Прежде чем познакомиться с некоторыми из них подробно, рассмотрим несколько примеров, чтобы понять, почему извлечение информации стало стандартным модулем систем обработки естественного языка.
Время от времени у каждого из нас возникают вопросы, ответа на ко- торые мы не знаем. Вопросы могут быть вызваны как необходимостью принятия важных решений, так и праздным любопытством:

    1. Как снять головную боль?

    2. Телефон службы газа в Центральном районе.

    3. Сколько обычно стоит ремонт кухни?

    4. Что подарить теще на юбилей?

    5. Вегетарианские рестораны в Петербурге с неиндийской кух-

ней.
Неудивительно, что создание вопросно-ответных систем, способных мгновенно выдать верный ответ, является темой активных исследований как в университетах, так и в коммерческих организациях. Благодаря мас- совому использованию интернета и мобильных устройств, теперь есть все необходимые ресурсы, для того чтобы найти необходимую информацию и ответить на практически любой вопрос. Например, почти на каждый из приведенных выше вопросов где-то в интернете есть страница, параграф,

предложение, дающие однозначный ответ. Тем не менее, поиск такого от- вета при помощи современных поисковых систем может занять несколько минут, в течение которых будут открыты, пролистаны и снова закрыты несколько сайтов. Особенно очевидно несовершенство существующих поисковых систем, если вопрос требует краткого ответа длиной в одно слово или одну фразу:



    1. Когда был основан петербургский университет? В 1724 году.

    2. Кто хотел купить Скайп? Фейсбук и Майкрософт.

    3. Как звали сына Анны Ахматовой? Лев Гумилев.

Как правило, такие ответы находятся в одном предложении и не тре- буют обработки множества страниц, как (3 и 5), развернутого ответа, как (1), или дополнительных уточнений, как (4). Что же необходимо, чтобы ответить на такие простые вопросы? Разумеется, можно преобразовать вопрос в регулярное выражение и таким образом попробовать найти ответ. Например, (6) можно преобразовать в петербургский университет был основан в [0-9]{4} году. Здесь [0-9]{4} означает, что мы ищем ответы из четырех цифр. Скорее всего, страница с такой последовательностью слов действительно существует, и ответ будет найден.
Но пользователь может сформулировать вопрос следующим образом:

    1. Когда был основан университет в Петербурге?

Последовательность (политехнический) университет в Петербурге был основан в 1899 году также находится, правда, в единственном экземп- ляре, и из контекста пользователю, но не алгоритму, было бы понятно, что речь идет не о СПбГУ, а о Политехническом университете. Поэтому пола- гаться только на слова из запроса не стоит, чтобы избежать досадных ошибок.
Как можно сделать программу «умнее», чтобы она «не путала» СПбГУ с Политехом? Можно разбираться для каждого нового описания, о том ли объекте идет речь в найденном документе, то есть решать, как со- относятся петербургский университет с университетом в петербурге, университет в петербурге с политехническим университетом в петер- бурге, и т. д. Но легче приписать каждому объекту или существу уникаль- ный номер или идентификатор. Тогда запросы (6 и 9) преобразуются в когда был основан /m/СПбГУ?, а предложения, упомянутые выше, преоб- разуются в /m/СПбГУ был основан в 1724 году и /m/политех был основан в 1899 году. О распознавании имен собственных, определении их категорий и приписывании им идентификатора мы поговорим в разделе 2.
Вторая важная категория задач извлечения информации касается оп- ределения отношений между сущностями (relation extraction). Вернемся к примеру (5), где речь идет о вегетарианских ресторанах. Если бы в рас-

поряжении поисковой системы была огромная база данных, перечисляю- щая всевозможные организации, то для ответа на вопрос потребовалось бы выбрать те из них, что соответствуют запрашиваемой категории (рес- торан, вегетарианский) и расположены в Санкт-Петербурге. Действительно, расположен-в является распространенным отношением, связывающим организации с их местоположением, оно автоматически распознается многими системами. Как и с распознаванием имен собствен- ных, за отношением закреплен не единственный выражающий его шаб- лон, но набор синонимичных выражений. Так, расположен-в могут соот- ветствовать такие фрагменты контекста, как … находится в …, … был построен … или даже просто … в … К примерам других часто извлекае- мых отношений между двумя сущностями относятся является-частью, основан-в, в-браке-с, является-владельцем, работал-в. В разделе 3 мы раз- берем основные подходы к извлечению этих и других отношений автома- тически, а также обсудим такой важный атрибут отношений, как времен- ные границы, в которых они имели место.


Несмотря на простоту в обращении с бинарными отношениями, за- частую удобнее говорить о сложном событии целиком, как в следующем примере:

    1. Яндекс купил Кинопоиск за $80 миллионов в октябре 2013 года.

В такое событие (event), как приобретение в собственность, обычно вовлечены две сущности, продавец и покупатель, а также дата и сумма, за которую была совершена сделка. Каждое событие имеет фиксированный набор ролей, которые могут быть заданы как на самом общем уровне (ор- ганизация, человек, место), так и иметь более подробную характеристику (покупатель, IT-компания).
В зависимости от события набор участников и ролей может отличать- ся, хотя, как правило, события имеют временной и географический атри- бут. Так же как с отношениями, каждому событию соответствует целый набор синонимичных шаблонов. Так, (10) можно выразить как Осенью Кинопоиск был приобретен Яндексом за сумму в $80 миллионов или Ян- декс стал владельцем Кинопоиска в октябре 2013 года, заплатив $80 мил- лионов. В разделе 4 мы поговорим подробнее о том, как строятся модели событий, то есть, как находить такие шаблоны и группировать их в соот- ветствии с выражаемыми ими значениями.
В завершении статьи, в разделе 5, мы приведем рекомендации для за- интересованных читателей, желающих самостоятельно отслеживать ис- следования в этой области.




  1. Достарыңызбен бөлісу:
1   ...   138   139   140   141   142   143   144   145   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет