11 Часть I. Компоненты 14 Глава Компьютерная



бет33/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   29   30   31   32   33   34   35   36   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute
Латын тілі 4,5 - дәріс 2, 169-182 фил, Вопросы на русском языке, 6 үж

Статистический парсинг


Весьма популярна идея использования при синтаксическом анализе статистических данных ([Jurafsky, Martin 2008]), позволяющая парсерам рассматривать в первую очередь наиболее вероятные варианты анализа. В основе современных статистических алгоритмов лежит формализм веро- ятностных контекстно-свободных грамматик (probability context-free grammars, PCFG). При таком подходе к каждому правилу переписывания добавляется вероятность применения этого правила. Эта вероятность оце- нивается статистически, на материале синтаксически размеченных тексто- вых коллекций, и на самом деле отражает то, как часто в реальных текстах реализуется то или иное синтаксическое правило.
Добавление вероятностной меры в формальную грамматику действи- тельно позволяет строить алгоритмы, ранжирующие свои версии и в пер- вую очередь обнаруживающие наиболее вероятные (частотные) синтакси- ческие конструкции. К числу таких алгоритмов относятся алгоритмы CKY, Viterbi parser (реализован в пакете NLTK), тензорная декомпозиция ([Cohen, Satta, Collins 2013]), Coarse-to-fine algorithm и другие алгоритмы.
Основным недостатком PCFG и основанных на ней алгоритмов явля- ется то, что вероятности оцениваются, как правило, в отрыве от лексиче- ского контекста, то есть реальных слов или словоформ, в то время как, очевидно, фактическая вероятность употребления синтаксических конст- рукций не является безусловной и существенно зависит от их лексическо- го наполнения (вспомним пример с костюмом и коридором). Для решения этой проблемы был разработан формализм лексических PCFG (lexicalized context-free grammars, LCFG), однако этот формализм и основанные на нём алгоритмы сталкиваются уже с другой проблемой — проблемой лек- сической неоднозначности.
Для оценки качества существующих решений, как и в прочих облас- тях компьютерной лингвистики, в компьютерном синтаксисе принято ис- пользовать стандартную F-меру (меру Рисбергена), представляющую со- бой гармоническое среднее точности и полноты анализа, где точность (precision, p) — отношение количества корректных выданных результатов к общему количеству выданных результатов; полнота (recall, r) — отноше- ние количества корректных выданных результатов к общему количеству

возможных корректных результатов в коллекции; среднее гармоническое



  • удвоенное произведение точности и полноты, делённое на их сумму:

2 pr p r
К сожалению, эти метрики позволяют корректно оценить эффектив- ность лишь одноцелевых парсеров; в случае с многоцелевыми парсерами учитывается только первая версия анализа, что не вполне корректно в слу- чае неоднозначности. При этом корректность самой расстановки вероят- ностей не учитывается вообще. Кроме того, важно, чтобы расчёты F-меры не производились на той же коллекции текстов, что и расчёты вероятно- стей синтаксических правил. Использование одной и той же коллекции приводит к завышенным показателям (более 90 % F-меры) и не позволяет с уверенностью говорить об их корректности.
Статистические модели позволяют лишь частично улучшить резуль- таты анализа, но даже существующие метрики и основанные на них «до- рожки» («соревнования» синтаксических парсеров, например, РОМИП 2012) показывают, что описанные методы уступают в качестве методам, основанным на взаимодействии синтаксиса и семантики (системы Compreno и ЭТАП-3 показали более 95 % F-меры, в то время как F-мера для парсера АОТ составила 87 %), в которых, выстроив любую синтакси- ческую связь, парсер может двигаться дальше, только получив от семан- тического компонента подтверждение: у этой связи действительно есть осмысленная непротиворечивая трактовка.
Это означает, что синтаксический и семантический анализ вряд ли целесообразно производить в современных системах по отдельности. Да- лее мы обсудим, к чему приводит соблюдение или нарушение этого прин- ципа в современных синтаксических анализаторах.




  1. Достарыңызбен бөлісу:
1   ...   29   30   31   32   33   34   35   36   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет