Таблица 2
Слово
|
Эмоция или тональная
оценка
|
Значение
(1 — присутствует соответствие;
0 — отсутствует соответствие)
|
frank
|
anger
|
0
|
frank
|
anticipation
|
0
|
frank
|
disgust
|
0
|
frank
|
fear
|
0
|
frank
|
joy
|
0
|
frank
|
negative
|
0
|
frank
|
positive
|
1
|
frank
|
sadness
|
0
|
frank
|
surprise
|
0
|
frank
|
trust
|
1
|
Словарь NRC Hashtag Sentiment Lexicon [Mohammad et al. 2013] соз- давался на основе твитов, которые отбирались по хештегам, обозначаю- щим позитивно или негативно окрашенные тексты (к ним относились, например, #good, #excellent, #bad и #terrible). Словам, биграммам и их со- четаниям были приписаны тройки значений: тональная оценка, количест- во сочетаний данной единицы с положительно окрашенным маркером (это мог быть хештег или эмотикон) лексикой и количество сочетаний данной единицы с отрицательно окрашенным маркером (см. табл. 3). Тональная оценка могла быть как больше нуля (это было свидетельством позитивно- го сентимента), так и меньше нуля (что говорило о негативном сентимен- те).
Таблица 3
Слово/ словосочетание
|
Значение тональной оценки
|
Частота позитивной связи
|
Частота негативной связи
|
elegant («элегант- ный»)
|
5,665
|
537
|
3
|
excellent movie («ве- ликолепный фильм»)
|
5
|
7
|
0
|
kindness («доброта»)
|
1,006
|
39
|
23
|
sinister («зловещий»)
|
–3,12
|
7
|
256
|
Такие словари можно создавать вручную и автоматически. Второй способ, конечно, гораздо удобнее.
Вручную подобные словари могут создаваться по-разному. Во- первых, можно создать подобный список слов с нуля, используя для этой цели в том числе толковые словари или корпусы текстов. В них данная лексика сопровождается специальными пометами. Так, в Национальном корпусе русского языка [НКРЯ] слова помечаются как ev:posit (например,
«гений» или «малыш») и ev:neg (например, «обжора» или «прилипала»). Во-вторых, в случае языков, для которых пока нет подобных ресурсов, списки слов могут быть переведены с другого языка (например, с англий- ского, как это было сделано для NRC Word-Emotion Association Lexicon).
Далее полученные списки слов можно расширять, включая в них но- вую лексику. Одним из автоматических способов пополнения таких сло- варей является разработка правил, которые используются для извлечения новых оценочных слов из текстов (т. е. тех, которые не попали в словарь). Например, если прилагательные объединены сочинительным союзом «и», а первое из них содержится в словаре, то и второму можно приписать та- кой же вес. На выходе список этих слов пополнит лексикон.
Также возможно определить, как часто данное слово или словосоче- тание встречается с положительно окрашенной или отрицательно окра- шенной лексикой (наиболее простой вариант: «хороший» /«хорошо» и
«плохой» /«плохо»). В качестве инструмента для измерения такой совме- стной встречаемости лексических единиц используются статистические меры — хи-квадрат, мера поточечной взаимной информации (PMI) и др. Данные меры учитывают частоты встречаемости слов A и B в корпусе, а также их совместную встречаемость (слово A рядом со словом B). По спе- циальным формулам вычисляются значения этих мер. Например, для PMI:
𝑃𝑀𝐼 = log2
𝑝(слово 𝐴 ОКОЛО слово 𝐵) ,
𝑝 (слово 𝐴 ) ∗ 𝑝(слово 𝐵)
где p (слово) — вероятность такого события, что слово встретится в доку- менте.
Под словом A может пониматься не только отдельное слово, но и сло- восочетание (например, «красивое платье»). В качестве слова B использу- ется как раз эмоциональная лексика с известной окраской (которая была приписана человеком). Далее тональность слова A (SO — sentiment orientation) находится как разница между значениями меры, то есть:
𝑆𝑂 = 𝑃𝑀𝐼("хорошо" или хороший\, слово 𝐴) −
−𝑃𝑀𝐼 ("𝑘лохо" или 𝑘лохой, слово 𝐴)
Для данного алгоритма желательно иметь достаточно большой кор- пус, в котором слова будут встречаться вместе довольно часто. В против- ном случае, например, если слово встретилось один раз с положительной окраской и один раз с отрицательной, будет довольно сложно сделать вы- вод о его эмоциональной оценке.
Существуют также специальные тезаурусы, в которых размечена эмоциональная составляющая лексики. Для английского языка это SenticNet, SentiWordNet и WordNet-Affect.
SenticNet [Cambria, Havasi, Hussain 2012] — это семантический тезау- рус, в котором отражена не только тональность лексики, но и некоторые смысловые связи. Последнее стало возможным благодаря специальным вычислениям, использующим алгоритмы семантических сетей и искусст- венного интеллекта. Так, для понятия «празднование дня рождения» сис- темой будет выданы его принадлежность к домену верхнего уровня «со- бытия», а также набор семантически связанных понятий (например, «кло- ун» или «сладкое»).
В лексическом семантическом тезаурусе SentiWordNet [Esuli, Sebastiani, 2006] представлены результаты работы по автоматической раз- метке синсетов WordNet. Наряду с весами для положительной и отрица- тельной эмоциональных составляющих, приписанных лексике, в нем есть также индекс для нейтральности, или объективности. Последняя оценка вычисляется на основании первых двух по следующей формуле:
𝑂𝑏j(𝑠) = 1 − (𝑃o𝑠(𝑠) + 𝑁e𝑔(𝑠)),
где s — слово.
Как видно из этой формулы, в сумме три индекса равны 1.
Подобная работа ведется также в рамках проекта RussNet [Дегтева, Азарова 2013], который представляет собой электронный тезаурус типа WordNet для русского языка.
В тезаурусе WordNet-Affect [Strapparava, Valitutti 2004] наряду с мет- ками, описывающими эмоции (такими как «физическое состояние», «на- строение», «поведение», «отношение», «чувство» и др.), синсетам вруч-
ную были приписаны валентности (позитивная, негативная, неоднознач- ная и нейтральная). Также синсетам были сопоставлены так называемые эмоциональные категории: «радость», «страх», «гнев», «печаль», «отвра- щение» и «удивление». Синсеты этого тезауруса переведены с английско- го языка на русский и румынский [Sokolova, Bobicev 2009].
Подход с использованием машинного обучения
Метод, основанный на применении машинного обучения с учителем
При обучении с учителем алгоритм классификации тренируется на основе обучающей выборки. Эту выборку нужно собрать и разметить. Рассмотрим отдельно каждую из двух этих операций.
Документы могут содержать разметку, которая была выполнена са- мим автором (например, наряду с написанным отзывом автор присвоил рейтинг товару). Так же документам могут быть присвоены оценки дру- гими людьми. Желательно, чтобы оценку тексту проставляло несколько человек, так как эксперты могут по-разному воспринимать высказывание. Например, создание тонального словаря в НИУ «Высшая школа экономи- ки» выглядит следующим образом. Любой желающий может зайти на сайт проекта [Linis Crowd] и принять участие в его разработке. Необходимо оценить текст и определенные слова, которые в нем встретились, с точки зрения их эмоциональной окраски по пятибалльной шкале от –2 до +2. После данные поступают для проверки лингвистам, которые анализируют полученные результаты и проверяют, добросовестно ли пользователи рас- ставляли оценки, нажимая на кнопки с соответствующими баллами (дело в том, что авторы проекта пообещали денежные призы тем людям, кто разметит наибольшее число текстов и слов).
Каждый такой размеченный текст представляет собой пару — вектор признаков текста и приписанную ему тональность. Под вектором призна- ков понимается представление текста как набора терминов (слов и слово- сочетаний) с соответствующими им весами. На основе данной выборки строится статистический классификатор, который используется для опре- деления тональности новой коллекции документов.
Метод, основанный на применении машинного обучения без учителя
При этом подходе в используемой для тренировки обучающей выбор- ке неизвестны присвоенные документам тональности. Наибольший вес при этом подходе получают термины, которые наиболее часто встречают- ся в данном тексте, но при этом присутствуют только в ограниченном ко-
личестве текстов всего множества [Turney 2002]. Таким образом, данные слова могут отражать тональность определенных текстов и, следователь- но, на их основе можно сделать вывод о тональности этих документов.
Достарыңызбен бөлісу: |