11 Часть I. Компоненты 14 Глава Компьютерная



бет167/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   163   164   165   166   167   168   169   170   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute
Латын тілі 4,5 - дәріс 2, 169-182 фил, Вопросы на русском языке, 6 үж
Таблица 2



Слово



Эмоция или тональная
оценка

Значение
(1 — присутствует соответствие;
0 — отсутствует соответствие)

frank

anger

0

frank

anticipation

0

frank

disgust

0

frank

fear

0

frank

joy

0

frank

negative

0

frank

positive

1

frank

sadness

0

frank

surprise

0

frank

trust

1

Словарь NRC Hashtag Sentiment Lexicon [Mohammad et al. 2013] соз- давался на основе твитов, которые отбирались по хештегам, обозначаю- щим позитивно или негативно окрашенные тексты (к ним относились, например, #good, #excellent, #bad и #terrible). Словам, биграммам и их со- четаниям были приписаны тройки значений: тональная оценка, количест- во сочетаний данной единицы с положительно окрашенным маркером (это мог быть хештег или эмотикон) лексикой и количество сочетаний данной единицы с отрицательно окрашенным маркером (см. табл. 3). Тональная оценка могла быть как больше нуля (это было свидетельством позитивно- го сентимента), так и меньше нуля (что говорило о негативном сентимен- те).




Таблица 3



Слово/ словосочетание

Значение тональной оценки

Частота позитивной связи

Частота негативной связи

elegant («элегант- ный»)

5,665

537

3

excellent movie («ве- ликолепный фильм»)

5

7

0

kindness («доброта»)

1,006

39

23

sinister («зловещий»)

–3,12

7

256

Такие словари можно создавать вручную и автоматически. Второй способ, конечно, гораздо удобнее.


Вручную подобные словари могут создаваться по-разному. Во- первых, можно создать подобный список слов с нуля, используя для этой цели в том числе толковые словари или корпусы текстов. В них данная лексика сопровождается специальными пометами. Так, в Национальном корпусе русского языка [НКРЯ] слова помечаются как ev:posit (например,
«гений» или «малыш») и ev:neg (например, «обжора» или «прилипала»). Во-вторых, в случае языков, для которых пока нет подобных ресурсов, списки слов могут быть переведены с другого языка (например, с англий- ского, как это было сделано для NRC Word-Emotion Association Lexicon).
Далее полученные списки слов можно расширять, включая в них но- вую лексику. Одним из автоматических способов пополнения таких сло- варей является разработка правил, которые используются для извлечения новых оценочных слов из текстов (т. е. тех, которые не попали в словарь). Например, если прилагательные объединены сочинительным союзом «и», а первое из них содержится в словаре, то и второму можно приписать та- кой же вес. На выходе список этих слов пополнит лексикон.
Также возможно определить, как часто данное слово или словосоче- тание встречается с положительно окрашенной или отрицательно окра- шенной лексикой (наиболее простой вариант: «хороший» /«хорошо» и
«плохой» /«плохо»). В качестве инструмента для измерения такой совме- стной встречаемости лексических единиц используются статистические меры — хи-квадрат, мера поточечной взаимной информации (PMI) и др. Данные меры учитывают частоты встречаемости слов A и B в корпусе, а также их совместную встречаемость (слово A рядом со словом B). По спе- циальным формулам вычисляются значения этих мер. Например, для PMI:

𝑃𝑀𝐼 = log2


𝑝(слово 𝐴 ОКОЛО слово 𝐵),
𝑝(слово 𝐴) ∗ 𝑝(слово 𝐵)

где p (слово) — вероятность такого события, что слово встретится в доку- менте.


Под словом A может пониматься не только отдельное слово, но и сло- восочетание (например, «красивое платье»). В качестве слова B использу- ется как раз эмоциональная лексика с известной окраской (которая была приписана человеком). Далее тональность слова A (SO — sentiment orientation) находится как разница между значениями меры, то есть:
𝑆𝑂 = 𝑃𝑀𝐼("хорошо" или хороший\, слово 𝐴) −
−𝑃𝑀𝐼 ("𝑘лохо" или 𝑘лохой, слово 𝐴)
Для данного алгоритма желательно иметь достаточно большой кор- пус, в котором слова будут встречаться вместе довольно часто. В против- ном случае, например, если слово встретилось один раз с положительной окраской и один раз с отрицательной, будет довольно сложно сделать вы- вод о его эмоциональной оценке.
Существуют также специальные тезаурусы, в которых размечена эмоциональная составляющая лексики. Для английского языка это SenticNet, SentiWordNet и WordNet-Affect.
SenticNet [Cambria, Havasi, Hussain 2012] — это семантический тезау- рус, в котором отражена не только тональность лексики, но и некоторые смысловые связи. Последнее стало возможным благодаря специальным вычислениям, использующим алгоритмы семантических сетей и искусст- венного интеллекта. Так, для понятия «празднование дня рождения» сис- темой будет выданы его принадлежность к домену верхнего уровня «со- бытия», а также набор семантически связанных понятий (например, «кло- ун» или «сладкое»).
В лексическом семантическом тезаурусе SentiWordNet [Esuli, Sebastiani, 2006] представлены результаты работы по автоматической раз- метке синсетов WordNet. Наряду с весами для положительной и отрица- тельной эмоциональных составляющих, приписанных лексике, в нем есть также индекс для нейтральности, или объективности. Последняя оценка вычисляется на основании первых двух по следующей формуле:
𝑂𝑏j(𝑠) = 1 − (𝑃o𝑠(𝑠) + 𝑁e𝑔(𝑠)),
где s — слово.
Как видно из этой формулы, в сумме три индекса равны 1.
Подобная работа ведется также в рамках проекта RussNet [Дегтева, Азарова 2013], который представляет собой электронный тезаурус типа WordNet для русского языка.
В тезаурусе WordNet-Affect [Strapparava, Valitutti 2004] наряду с мет- ками, описывающими эмоции (такими как «физическое состояние», «на- строение», «поведение», «отношение», «чувство» и др.), синсетам вруч-

ную были приписаны валентности (позитивная, негативная, неоднознач- ная и нейтральная). Также синсетам были сопоставлены так называемые эмоциональные категории: «радость», «страх», «гнев», «печаль», «отвра- щение» и «удивление». Синсеты этого тезауруса переведены с английско- го языка на русский и румынский [Sokolova, Bobicev 2009].




    1. Подход с использованием машинного обучения

      1. Метод, основанный на применении машинного обучения с учителем

При обучении с учителем алгоритм классификации тренируется на основе обучающей выборки. Эту выборку нужно собрать и разметить. Рассмотрим отдельно каждую из двух этих операций.
Документы могут содержать разметку, которая была выполнена са- мим автором (например, наряду с написанным отзывом автор присвоил рейтинг товару). Так же документам могут быть присвоены оценки дру- гими людьми. Желательно, чтобы оценку тексту проставляло несколько человек, так как эксперты могут по-разному воспринимать высказывание. Например, создание тонального словаря в НИУ «Высшая школа экономи- ки» выглядит следующим образом. Любой желающий может зайти на сайт проекта [Linis Crowd] и принять участие в его разработке. Необходимо оценить текст и определенные слова, которые в нем встретились, с точки зрения их эмоциональной окраски по пятибалльной шкале от –2 до +2. После данные поступают для проверки лингвистам, которые анализируют полученные результаты и проверяют, добросовестно ли пользователи рас- ставляли оценки, нажимая на кнопки с соответствующими баллами (дело в том, что авторы проекта пообещали денежные призы тем людям, кто разметит наибольшее число текстов и слов).
Каждый такой размеченный текст представляет собой пару — вектор признаков текста и приписанную ему тональность. Под вектором призна- ков понимается представление текста как набора терминов (слов и слово- сочетаний) с соответствующими им весами. На основе данной выборки строится статистический классификатор, который используется для опре- деления тональности новой коллекции документов.



      1. Метод, основанный на применении машинного обучения без учителя

При этом подходе в используемой для тренировки обучающей выбор- ке неизвестны присвоенные документам тональности. Наибольший вес при этом подходе получают термины, которые наиболее часто встречают- ся в данном тексте, но при этом присутствуют только в ограниченном ко-

личестве текстов всего множества [Turney 2002]. Таким образом, данные слова могут отражать тональность определенных текстов и, следователь- но, на их основе можно сделать вывод о тональности этих документов.






  1. Достарыңызбен бөлісу:
1   ...   163   164   165   166   167   168   169   170   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет