Аня подарила Маше конфеты, потому что у нее был день рождения.
Аня подарила Маше конфеты, потому что у нее было две ко- робки.
Эти два предложения очень похожи, их синтаксические структуры мало отличаются. Только благодаря нашему знанию о том, что на день рождения принято дарить подарки, в том числе конфеты, мы без колеба- ний относим местоимение нее из первого примера к Маше (если где-то существует обычай дарить конфеты в свой день рождения, то представи- тель той культуры решит, что нее относится к Ане). Также для большинст- ва будет естественным представить себе ситуацию, где кто-то дарит лиш- нюю коробку конфет, поэтому во втором примере логично предположить,
что нее относится к Ане. Кодирование такого рода знаний при помощи сигналов, которые могли бы использовать системы машинного обучения, является трудной задачей. Тем не менее, знания о мире могут быть успеш- но использованы в системах разрешения кореферентности и нахождения идентификатора. В завершении этого раздела рассмотрим еще два связан- ных с этой темой примера.
По мнению многих туристов, [Эрмитаж] и [Мариинский те- атр] стали достопримечательностями, поразившими их больше все- го. На обзор коллекций [знаменитого музея] туристы тратят в среднем три часа.
Представим себе, что, двигаясь по тексту, мы подошли к именной группе знаменитый музей, и теперь должны решить, к какой кореферент- ной цепи ее отнести. Для нас очевидно, что под музеем подразумевается Эрмитаж, но такое же знание можно косвенно передать автоматической системе. Например, в качестве сигнала мы можем использовать меру по- хожести между знаменитым музеем и существующими цепями: Эрмитаж и Мариинский театр. В свою очередь сходство или семантическая бли- зость может быть измерена автоматически как при помощи методов рас- пределительного сходства (distributional similarity), так и с помощью об- ширных ресурсов, например, энциклопедий. Например, можно посчитать количество «шагов» по категориям Википедии, которые нужно совершить, чтобы попасть со страниц, посвященных Эрмитажу и Мариинскому теат- ру, на страницу о музеях. Или можно посмотреть на количество общих ссылок или слов между статьями о музеях и Эрмитаже, с одной стороны, и музеях и Мариинском театре, с другой. Измеренная одним из этих спосо- бов степень сходства в случае Эрмитажа окажется выше, что в свою оче- редь окажется полезным сигналом для алгоритма поиска референтов.
Наконец, знания о мире становятся чрезвычайно важны для нахожде- ния идентификаторов. Например, в предложениях (2.9–2.11) речь идет о Евгении Онегине, хотя очевидно, что в одном случае имеется в виду ро- ман, во втором — герой, а в третьем — опера.
«Евгений Онегин» стал одним из самых значительных произ- ведений Пушкина.
Евгений Онегин — молодой дворянин, отправляющийся в на- чале романа к умирающему дяде.
«Евгений Онегин» состоит из трех действий и семи картин.
Если представить себе, что в имеющемся в нашем распоряжении ре- позитории Евгений Онегин может иметь три идентификатора (/m/EO- kniga, /m/EO-geroj, /m/EO-opera), то для правильного выбора одного из
них достаточно рассмотреть контекст и оценить тематическое соответст- вие между текстом и идентификатором. Например, если мы обратимся к статье об опере «Евгений Онегин» в Википедии или Freebase, то найдем в ней такие слова, как опера, Чайковский, либретто, действие и другие. Напротив, в статьях о романе находятся такие слова, как роман, Пушкин, литература. Сравнивая контекст словоупотребления с текстами статей, мы, вероятно, придем к выводу, что каждому из указанных примеров со- ответствует свой идентификатор.
Достарыңызбен бөлісу: |