Построение правил
Правила для анализа тональности используют заранее разработанные шаблоны, описывающие данную предметную область. По этим шаблонам из текста извлекаются n-компонентные цепочки (n-граммы), их тональ- ность определяется как на основе правил, так и на основе словарей, о ко- торых речь пойдет ниже.
Правила могут строиться по модели «если… то…». Например:
Если цепочка содержит глагол из списка («любить», «нравить- ся», «обожать» и др.) и не содержит глагола из другого списка («ужасать», «отвращать» и др.) или отрицания, то ее тональность положительная.
При использовании отрицания перед найденной цепочкой тональ- ность может меняться на противоположную.
Так собираются оценки различных цепочек документа. Для получе- ния итоговой окраски общую сумму весов можно подсчитать по формуле, которую составляют разработчики конкретного решения, универсальной
формулы не существует. Конечно, сумма тональностей фрагментов может быть не равна общей окраске всего текста («отличный фильм для стра- дающих бессонницей»). Кроме того, сложности возникают в тех случаях, когда срабатывают несколько правил — как оценить их суммарное влия- ние? Для решения подобных проблем предусмотрены механизмы комби- нации правил. Они учитывают, насколько часто правило используется в документе, на какой позиции оно встречается и прочее. При большом на- боре правил алгоритм может показывать хорошие результаты.
Недостаток данного подхода связан с тем, что создание достаточно большого списка правил требует много сил и времени. Кроме того, слова- ри обычно описывают лишь определенную тематику, например, обзоры ресторанов или фотоаппаратов, поскольку тональная оценка часто зависит от предметной области. Так, прилагательному «замысловатый» в обзоре фильмов или ресторанов скорее будет соответствовать положительная то- нальность («замысловатый сюжет» или «замысловатый интерьер»), в то время как в текстах, посвященных техническим устройствам, это признак отрицательной тональности («замысловатая настройка»).
Достарыңызбен бөлісу: |