11 Часть I. Компоненты 14 Глава Компьютерная

жүктеу/скачать 4,29 Mb.

бет	146/197
Дата	19.03.2022
өлшемі	4,29 Mb.
	#136225
түрі	Литература

1 ... 142 143 144 145 146 147 148 149 ... 197

Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Аня подарила Маше конфеты, потому что у нее был день рождения.

Аня подарила Маше конфеты, потому что у нее было две ко- робки.

Эти два предложения очень похожи, их синтаксические структуры мало отличаются. Только благодаря нашему знанию о том, что на день рождения принято дарить подарки, в том числе конфеты, мы без колеба- ний относим местоимение нее из первого примера к Маше (если где-то существует обычай дарить конфеты в свой день рождения, то представи- тель той культуры решит, что нее относится к Ане). Также для большинст- ва будет естественным представить себе ситуацию, где кто-то дарит лиш- нюю коробку конфет, поэтому во втором примере логично предположить,

что нее относится к Ане. Кодирование такого рода знаний при помощи сигналов, которые могли бы использовать системы машинного обучения, является трудной задачей. Тем не менее, знания о мире могут быть успеш- но использованы в системах разрешения кореферентности и нахождения идентификатора. В завершении этого раздела рассмотрим еще два связан- ных с этой темой примера.

По мнению многих туристов, [Эрмитаж] и [Мариинский те- атр] стали достопримечательностями, поразившими их больше все- го. На обзор коллекций [знаменитого музея] туристы тратят в среднем три часа.

Представим себе, что, двигаясь по тексту, мы подошли к именной группе знаменитый музей, и теперь должны решить, к какой кореферент- ной цепи ее отнести. Для нас очевидно, что под музеем подразумевается Эрмитаж, но такое же знание можно косвенно передать автоматической системе. Например, в качестве сигнала мы можем использовать меру по- хожести между знаменитым музеем и существующими цепями: Эрмитаж и Мариинский театр. В свою очередь сходство или семантическая бли- зость может быть измерена автоматически как при помощи методов рас- пределительного сходства (distributional similarity), так и с помощью об- ширных ресурсов, например, энциклопедий. Например, можно посчитать количество «шагов» по категориям Википедии, которые нужно совершить, чтобы попасть со страниц, посвященных Эрмитажу и Мариинскому теат- ру, на страницу о музеях. Или можно посмотреть на количество общих ссылок или слов между статьями о музеях и Эрмитаже, с одной стороны, и музеях и Мариинском театре, с другой. Измеренная одним из этих спосо- бов степень сходства в случае Эрмитажа окажется выше, что в свою оче- редь окажется полезным сигналом для алгоритма поиска референтов.
Наконец, знания о мире становятся чрезвычайно важны для нахожде- ния идентификаторов. Например, в предложениях (2.9–2.11) речь идет о Евгении Онегине, хотя очевидно, что в одном случае имеется в виду ро- ман, во втором — герой, а в третьем — опера.

«Евгений Онегин» стал одним из самых значительных произ- ведений Пушкина.
Евгений Онегин — молодой дворянин, отправляющийся в на- чале романа к умирающему дяде.
«Евгений Онегин» состоит из трех действий и семи картин.

Если представить себе, что в имеющемся в нашем распоряжении ре- позитории Евгений Онегин может иметь три идентификатора (/m/EO- kniga, /m/EO-geroj, /m/EO-opera), то для правильного выбора одного из

них достаточно рассмотреть контекст и оценить тематическое соответст- вие между текстом и идентификатором. Например, если мы обратимся к статье об опере «Евгений Онегин» в Википедии или Freebase, то найдем в ней такие слова, как опера, Чайковский, либретто, действие и другие. Напротив, в статьях о романе находятся такие слова, как роман, Пушкин, литература. Сравнивая контекст словоупотребления с текстами статей, мы, вероятно, придем к выводу, что каждому из указанных примеров со- ответствует свой идентификатор.

жүктеу/скачать 4,29 Mb.

Достарыңызбен бөлісу:

1 ... 142 143 144 145 146 147 148 149 ... 197