Прежде всего, необходимо разобраться, в каких типах текстов может содержаться эмоциональная оценка. Маловероятно, что это будут научные книги. Скорее всего, это будут записи в блогах, социальных сетях, твиты, тексты комментариев и отзывов на сайтах Интернет-магазинов, электрон- ных библиотек или фото- и видеохостингов, — то есть записи, которые оставляют пользователи и которые отражают их мнение. Затем необходи- мо собрать корпус данных текстов. Можно, конечно, делать это вручную, но потребует очень большого количества времени. Поэтому для этой цели используются специальные программы, которые позволяют автоматически собрать материал по заданным параметрам (бесплатная программа Webometric Analyst).
Язык социальных медиа, входящий в пользовательский контент (user- generated content, или UGC) вообще довольно сильно отличается от более стандартизованных источников, таких как СМИ или обычные тексты на сайтах. В них часто можно встретить эмотиконы (смайлики), опечатки, неологизмы, окказионализмы и многое другое. Поэтому если требуется дальнейшая частеречная разметка таких текстов, то часто используют про- граммы, «заточенные» для работы с UGC текстами (например, для анг- лийского языка GATE Twitter PoS tagger [GATE Twitter PoS tagger] или Tweet NLP [Tweet NLP]).
Далее необходимо понять, что следует искать. При анализе тонально- сти необходимо выявить несколько составляющих.
Во-первых, источник мнения, или субъект тональности, — кто явля- ется автором сообщения. Во-вторых, объект тональности — о чем идет речь в тексте (например, о фотокамере или об отеле). В-третьих, аспект тональности — характеристика объекта (например, затвор камеры или местоположение отеля). И, в-четвертых, тип мнения (собственно оценоч- ный компонент), или тональная оценка. Здесь имеется в виду отношение автора к описываемому предмету, конкретное сообщение об аспектах (свойствах) объекта (допустим, «потрясающая оптика» или «очень милый персонал»).
Оценка может относиться как к целому документу (например, к фильму), так и к отдельному аспекту (например, к игре актера, испол- няющего главную роль).
Анализ тональности в той или иной мере связан с классификацией. В простейшем случае классификация текстов сводится к бинарному пред- ставлению: положительно или отрицательно окрашен данный текст, то есть хорошо или плохо автор относится к тому, о ком или о чем пишет. Однако на практике все оказывается сложнее. Если мы будем сравнивать между собой, например, положительные рецензии на фильмы, то увидим,
что авторы одних пишут более нейтрально, а другие всячески хвалят кино и рекомендуют к просмотру. Поэтому можно ввести более дробное деле- ние на классы и попытаться оценить мнение, высказанное в тексте, по- другому (например, по трех- или пятибалльной шкалам, которые будут включать промежуточные оценки). Правда, с увеличением количества классов уменьшается точность классификации, так как становится слож- нее понять, чем один отзыв лучше или хуже другого.
Как уже было сказано, автор может оценивать только отдельную ха- рактеристику в своем отзыве, поэтому более сложная задача — постарать- ся определить аспект сообщения и соответствующую ему тональность. Например, на основе отзыва об отеле необходимо понять, что понравилось («близко от исторического центра»), а что нет («плохо работал wi-fi»), ка- ким характеристикам будет приписана позитивная оценка, а каким нега- тивная.
Задача осложняется тем, что в отзывах может содержаться оценка сразу нескольких объектов, иногда конкурирующих. Разберем на примере комментария на Яндекс.Маркете, в котором оценивается iPad, о каких со- ставляющих идет речь (орфография и пунктуация автора сохранены).
Приятный на ощупь, когда держишь в руках ощущается что держишь вещь а не пластмассовую игрушку. Быстро к нему привык- ла. С iOS проблем нет. Хотелось бы конечно чтобы батарея работа- ла дольше в режиме LTE. Хотя что я, когда был android он держал зарядку еще меньше. После iPad смотреть в сторону других план- шетов желания нет. Геолокация работает получше чем на android. В общем в ipad есть много приятных мелочей которых нет в планше- тах других производителей. и даже если умельцы в кустарных усло- виях как-то пытаются воспроизвести всякие бантики iPad'а на android планшетах — это всё равно не то… Каждому свое конечно.
Apple это всё равно что — «Пока не попробуешь не узнаешь».
Чтобы ни говорили фанаты android.
Объект этого отзыва — модель планшета iPad Air 2. Аспекты — опе- рационная система, батарея, длительность работы от аккумулятора, геоло- кация. Оценочная лексика (тональность): «приятный», «быстро к нему привыкла», «проблем нет», «работала дольше», «еще меньше» и др. При этом часть оценок относится не к планшету iPad Air 2, а к моделям на ос- нове системы Android.
Достарыңызбен бөлісу: |