Руководитель группы компаний «Яндекс» Аркадий Волож под- держал …
…генеральный директор группы «Яндекс» Аркадий Волож рас- сказывал в…
Как видно из этих примеров, наше допущение не лишено смысла, но и не гарантирует качества, сходного с разметкой, выполненной вручную. Разумеется, если мы остановимся на этом варианте, то использование не- которых сигналов, например, лемм именованных сущностей, станет про- блематичным. Так, алгоритм может решить, что использование слов Ян- декс или Волож обязательно сигнализирует интересующие нас отноше- ние. Кроме того, в нашем корпусе отсутствуют отрицательные примеры, что делает обучение стандартных методов малопродуктивным.
Для дальнейшего наращивания корпуса мы можем использовать об- наруженные шаблоны, чтобы найти новые пары сущностей, которые с высокой долей вероятности находятся в том же отношении, что Яндекс и Волож. Например, используя шаблон генеральный директор ОРГ ПЕР с ТЕМП, мы можем найти пару (Озон, Д. Перекальски), которая, в свою оче- редь, может пополнить наш размеченный корпус новыми предложениями. Сделав еще одно допущение, что один и тот же человек редко оказывается управляющим нескольких компаний, мы можем набрать отрицательные примеры, собрав предложения, где упоминаются Яндекс и Перекальски.
При таком постепенном наращивании размеченного корпуса количе- ство ошибок может быстро увеличиваться, поэтому некоторая ручная ра- бота может понадобиться, чтобы избавиться от них хотя бы частично. Скорость, с которой корпус накапливает в себе ошибочные примеры, за- висит как от самого отношения, так и от количества исходных пар, с кото- рых мы начали его создание. Кроме этого, при создании отрицательных примеров нужно учитывать неполноту баз данных: то, что в нашей базе не содержится какая-то информация, не исключает ее истинности. Несмотря на неизбежные ошибки метода, его «дешевизна» и простота исполнения зачастую перевешивает недостатки.
Временное измерение
Говоря об извлечении отношений, мы не можем обойти стороной во- прос временных рамок. Хотя существуют отношения, не подверженные изменениям (например, рождение в каком-либо месте), многие отноше- ния, в том числе те, что мы только что рассмотрели, могут изменяться произвольное количество раз и с практически любой частотой. Поэтому, как правило, важно уметь приписывать извлеченным отношениям времен- ные рамки, внутри которых это отношение имело место. Простых и на- дежных способов определения таких рамок из текста не существует, по- этому одним из способов извлечения временной информации становится использование даты публикации документа. Например, если в нашем рас- поряжении есть архив новостей за продолжительное время, то мы можем извлечь из него информацию о том, что до сентября 2014 года генераль- ным директором Яндекса был Аркадий Волож. Новости 1 сентября 2014 года последующих дней будут указывать на то, что директором компании стал другой человек, Александр Шульгин.
Достарыңызбен бөлісу: |