11 Часть I. Компоненты 14 Глава Компьютерная

жүктеу/скачать 4,29 Mb.

бет	167/197
Дата	19.03.2022
өлшемі	4,29 Mb.
	#136225
түрі	Литература

1 ... 163 164 165 166 167 168 169 170 ... 197

Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Таблица 2

Слово	Эмоция или тональная оценка	Значение (1 — присутствует соответствие; 0 — отсутствует соответствие)
frank	anger	0
frank	anticipation	0
frank	disgust	0
frank	fear	0
frank	joy	0
frank	negative	0
frank	positive	1
frank	sadness	0
frank	surprise	0
frank	trust	1

Словарь NRC Hashtag Sentiment Lexicon [Mohammad et al. 2013] соз- давался на основе твитов, которые отбирались по хештегам, обозначаю- щим позитивно или негативно окрашенные тексты (к ним относились, например, #good, #excellent, #bad и #terrible). Словам, биграммам и их со- четаниям были приписаны тройки значений: тональная оценка, количест- во сочетаний данной единицы с положительно окрашенным маркером (это мог быть хештег или эмотикон) лексикой и количество сочетаний данной единицы с отрицательно окрашенным маркером (см. табл. 3). Тональная оценка могла быть как больше нуля (это было свидетельством позитивно- го сентимента), так и меньше нуля (что говорило о негативном сентимен- те).

Таблица 3

Слово/ словосочетание	Значение тональной оценки	Частота позитивной связи	Частота негативной связи
elegant («элегант- ный»)	5,665	537	3
excellent movie («ве- ликолепный фильм»)	5	7	0
kindness («доброта»)	1,006	39	23
sinister («зловещий»)	–3,12	7	256

Такие словари можно создавать вручную и автоматически. Второй способ, конечно, гораздо удобнее.

Вручную подобные словари могут создаваться по-разному. Во- первых, можно создать подобный список слов с нуля, используя для этой цели в том числе толковые словари или корпусы текстов. В них данная лексика сопровождается специальными пометами. Так, в Национальном корпусе русского языка [НКРЯ] слова помечаются как ev:posit (например,
«гений» или «малыш») и ev:neg (например, «обжора» или «прилипала»). Во-вторых, в случае языков, для которых пока нет подобных ресурсов, списки слов могут быть переведены с другого языка (например, с англий- ского, как это было сделано для NRC Word-Emotion Association Lexicon).
Далее полученные списки слов можно расширять, включая в них но- вую лексику. Одним из автоматических способов пополнения таких сло- варей является разработка правил, которые используются для извлечения новых оценочных слов из текстов (т. е. тех, которые не попали в словарь). Например, если прилагательные объединены сочинительным союзом «и», а первое из них содержится в словаре, то и второму можно приписать та- кой же вес. На выходе список этих слов пополнит лексикон.
Также возможно определить, как часто данное слово или словосоче- тание встречается с положительно окрашенной или отрицательно окра- шенной лексикой (наиболее простой вариант: «хороший» /«хорошо» и
«плохой» /«плохо»). В качестве инструмента для измерения такой совме- стной встречаемости лексических единиц используются статистические меры — хи-квадрат, мера поточечной взаимной информации (PMI) и др. Данные меры учитывают частоты встречаемости слов A и B в корпусе, а также их совместную встречаемость (слово A рядом со словом B). По спе- циальным формулам вычисляются значения этих мер. Например, для PMI:

𝑃𝑀𝐼 = log₂

𝑝(слово 𝐴 ОКОЛО слово 𝐵)_,
𝑝⁽слово 𝐴⁾∗ 𝑝(слово 𝐵)

где p (слово) — вероятность такого события, что слово встретится в доку- менте.

Под словом A может пониматься не только отдельное слово, но и сло- восочетание (например, «красивое платье»). В качестве слова B использу- ется как раз эмоциональная лексика с известной окраской (которая была приписана человеком). Далее тональность слова A (SO — sentiment orientation) находится как разница между значениями меры, то есть:
𝑆𝑂 = 𝑃𝑀𝐼("хорошо" или хороший\, слово 𝐴) −
−𝑃𝑀𝐼 ("𝑘лохо" или 𝑘лохой, слово 𝐴)
Для данного алгоритма желательно иметь достаточно большой кор- пус, в котором слова будут встречаться вместе довольно часто. В против- ном случае, например, если слово встретилось один раз с положительной окраской и один раз с отрицательной, будет довольно сложно сделать вы- вод о его эмоциональной оценке.
Существуют также специальные тезаурусы, в которых размечена эмоциональная составляющая лексики. Для английского языка это SenticNet, SentiWordNet и WordNet-Affect.
SenticNet [Cambria, Havasi, Hussain 2012] — это семантический тезау- рус, в котором отражена не только тональность лексики, но и некоторые смысловые связи. Последнее стало возможным благодаря специальным вычислениям, использующим алгоритмы семантических сетей и искусст- венного интеллекта. Так, для понятия «празднование дня рождения» сис- темой будет выданы его принадлежность к домену верхнего уровня «со- бытия», а также набор семантически связанных понятий (например, «кло- ун» или «сладкое»).
В лексическом семантическом тезаурусе SentiWordNet [Esuli, Sebastiani, 2006] представлены результаты работы по автоматической раз- метке синсетов WordNet. Наряду с весами для положительной и отрица- тельной эмоциональных составляющих, приписанных лексике, в нем есть также индекс для нейтральности, или объективности. Последняя оценка вычисляется на основании первых двух по следующей формуле:
𝑂𝑏j⁽𝑠⁾= 1 − (𝑃o𝑠⁽𝑠⁾+ 𝑁e𝑔⁽𝑠⁾),
где s — слово.
Как видно из этой формулы, в сумме три индекса равны 1.
Подобная работа ведется также в рамках проекта RussNet [Дегтева, Азарова 2013], который представляет собой электронный тезаурус типа WordNet для русского языка.
В тезаурусе WordNet-Affect [Strapparava, Valitutti 2004] наряду с мет- ками, описывающими эмоции (такими как «физическое состояние», «на- строение», «поведение», «отношение», «чувство» и др.), синсетам вруч-

ную были приписаны валентности (позитивная, негативная, неоднознач- ная и нейтральная). Также синсетам были сопоставлены так называемые эмоциональные категории: «радость», «страх», «гнев», «печаль», «отвра- щение» и «удивление». Синсеты этого тезауруса переведены с английско- го языка на русский и румынский [Sokolova, Bobicev 2009].

Подход с использованием машинного обучения
1. Метод, основанный на применении машинного обучения с учителем

При обучении с учителем алгоритм классификации тренируется на основе обучающей выборки. Эту выборку нужно собрать и разметить. Рассмотрим отдельно каждую из двух этих операций.
Документы могут содержать разметку, которая была выполнена са- мим автором (например, наряду с написанным отзывом автор присвоил рейтинг товару). Так же документам могут быть присвоены оценки дру- гими людьми. Желательно, чтобы оценку тексту проставляло несколько человек, так как эксперты могут по-разному воспринимать высказывание. Например, создание тонального словаря в НИУ «Высшая школа экономи- ки» выглядит следующим образом. Любой желающий может зайти на сайт проекта [Linis Crowd] и принять участие в его разработке. Необходимо оценить текст и определенные слова, которые в нем встретились, с точки зрения их эмоциональной окраски по пятибалльной шкале от –2 до +2. После данные поступают для проверки лингвистам, которые анализируют полученные результаты и проверяют, добросовестно ли пользователи рас- ставляли оценки, нажимая на кнопки с соответствующими баллами (дело в том, что авторы проекта пообещали денежные призы тем людям, кто разметит наибольшее число текстов и слов).
Каждый такой размеченный текст представляет собой пару — вектор признаков текста и приписанную ему тональность. Под вектором призна- ков понимается представление текста как набора терминов (слов и слово- сочетаний) с соответствующими им весами. На основе данной выборки строится статистический классификатор, который используется для опре- деления тональности новой коллекции документов.

Метод, основанный на применении машинного обучения без учителя

При этом подходе в используемой для тренировки обучающей выбор- ке неизвестны присвоенные документам тональности. Наибольший вес при этом подходе получают термины, которые наиболее часто встречают- ся в данном тексте, но при этом присутствуют только в ограниченном ко-

личестве текстов всего множества [Turney 2002]. Таким образом, данные слова могут отражать тональность определенных текстов и, следователь- но, на их основе можно сделать вывод о тональности этих документов.

жүктеу/скачать 4,29 Mb.

Достарыңызбен бөлісу:

1 ... 163 164 165 166 167 168 169 170 ... 197

11 Часть I. Компоненты 14 Глава Компьютерная

Подход с использованием машинного обучения