РИС входит в стандартный набор модулей автоматической обработки языка: GATE, LingPipe, NLTK, OpenNLP, Stanford CoreNLP и др. Для экс- периментов с такими методами машинного обучения как марковские цепи [Bikel et al. 1997] и условные случайные поля [McCallum & Li 2003], мож- но использовать, например, систему Mallet. Интерес к исследованиям в области извлечения информации сначала поддерживался регулярно про- водимыми соревнованиями при MUC [Grishman & Sundheim 1996]. Прав- да, при использовании размеченных ими текстов нельзя не заметить узкой военно-политической направленности заданий. Преемницей MUC стала программа ACE, где типовыми задачами стали РИС, разрешение анафоры и кореферентности, извлечение отношений и временных атрибутов и ра- мок. Кроме этого, конкурс по РИС в разных языках проводился дважды при CoNLL в 2002 и 2003 годах [Tjong Kim Sang 2002; Tjong Kim Sang & De Meulder 2003]. Для тренировки систем, способных размечать времен- ные рамки, часто используется ресурс TimeBank, размеченный в соответ- ствии с правилами TimeML.
С идеями использования семантического сходства для нахождения идентификаторов именованных сущностей можно познакомиться поближе через статьи [Ponzetto & Strube 2006, Gabrilovich & Markovitch 2007, Milne & Witten 2008]. Сравнение методов измерения распределительного сход- ства проводится в [Baroni et al. 2014]. Литература по разрешению анафоры и кореферентности чрезвычайно обширна, поэтому для более близкого знакомства с этой темой мы рекомендуем просмотреть статьи участников последних соревнований.
Один из методов создания размеченных текстов автоматически был представлен в работе [Mintz et al. 2009]. О проблеме неполноты баз дан- ных и вызванных ею ошибках при создании размеченного корпуса гово- рится в [Min et al. 2013]. Примерами систем автоматического извлечения отношений, которые не нуждаются в размеченном корпусе текстов вооб- ще, объединенные понятием OpenIE, являются TextRunner [Banko et al.,2007], ReVerb [Fader et al. 2011], Ollie [Mausam et al. 2012]. NELL пред- ставляет собой автоматическую самообучающуюся систему, ежедневно сканирующую новости и извлекающую из них информацию об отношени- ях между всевозможными сущностями.
Раздел 4, помимо отсылок к соревнованиям, организованным ACE, большей частью основывается на работе моих коллег [Alfonseca et al. 2013; Pighin et al. 2014; Krause et al. 2015].
В этой статье мы оставили без рассмотрения проблему оценки каче- ства (evaluation) систем извлечения информации. Заинтересованный чи- татель может познакомиться с широко используемыми метриками, если
просмотрит публикации последних лет, появившиеся на таких конферен- циях как ACL, EMNLP, NAACL. Краткий исторический обзор систем из- влечения информации, появившихся до 2005 года содержится в [Kaiser & Miksch 2005].
Достарыңызбен бөлісу: |