11 Часть I. Компоненты 14 Глава Компьютерная


Как это выглядит на практике



бет168/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   164   165   166   167   168   169   170   171   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Как это выглядит на практике


Уже сейчас доступны программы, благодаря которым можно увидеть, как происходит определение тональности текста.
В Стенфордском университете был предложен алгоритм, который предполагает использование нейронных сетей [Socher, Perelygin, Wu et al. 2013]. Работа программы основана на следующем. Для каждого предло- жения строится синтаксическое дерево с оценкой тональности всех вхо- дящих в него слов (см. рис. 1). Далее на основе весов слов высчитывается общий вес словосочетаний и предложений. Данная модель была «натре- нирована» на 11855 предложениях, взятых из отзывов о фильмах. Авторы демонстрируют, что предложенный алгоритм успешно распознает конст- рукции с отрицанием, как в позитивно, так и негативно окрашенных пред- ложениях, уверенно определяя верную тональность.




Рис. 1. Пример размеченных предложений на основе нейронных сетей
На схеме (рис. 1) приведен пример разбора предложения «Qualities that were once amusing are becoming irritating» (рус. «Качества, которые когда-то забавляли, начинают раздражать»). Оттенками синего отмечены слова, получившие положительную оценку (qualities, amusing, becoming),

оттенками красного обозначены слова с отрицательной оценкой (irritating).


На сайте уже упомянутых разработчиков из Стенфорда представлены более 9000 размеченных предложений [Stanford Sentiment Treebank], по которым можно вести расширенный поиск. Пользователь может задавать слова, длину предложений, веса оценочных слов (в интервале от 1 до 25, где 25 — максимальная оценка для положительно окрашенной лексики). Также в режиме онлайн возможно построение дерева и приписывание тональности произвольному предложению [Stanford Live Demo]. Разра- ботчики предлагают принять участие в разметке предложений, корректи- руя уже приписанные оценки.
Еще одной системой, позволяющей узнать тональность для текста, является программа SentiStrength [Thelwall 2010], алгоритм которой ис- пользует словарь эмотивной лексики и дополнительную лингвистическую информацию для автоматического распознавания эмоциональной окраски в коротких текстах на английском языке (система также адаптирована для русского языка). Для каждого текста результатом является две оценки по пятибалльной шкале от 1 до 5. Например, нейтральный текст получит оценку [1, –1], в то время как оценка [5, –2] будет означать, что в тексте выражается сильно позитивное и умеренно негативное отношение. Разра- ботчиками используются две шкалы, так как в текст может быть одновре- менно окрашен и положительно, и отрицательно. При этом целью являет- ся распознать эти типы тональности, а не определить общую полярность текста.
Программа LIWC [Linguistic Inquiry and Word Count] позволяет про- вести анализ текстов, в том числе по их эмоциональной окраске, подсчи- тывая количество слов, принадлежащих к разным категориям. Получен- ные результаты можно сравнить со средними значениями для разных ти- пов текстов (твиты, личные письма, официальная корреспонденция и дру- гие).
На сайте [Sentiment 140] пользователи могут узнать, положительно или отрицательно оценивается тот иной продукт на основе проанализиро- ванных сообщений Твиттера.




  1. Достарыңызбен бөлісу:
1   ...   164   165   166   167   168   169   170   171   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет