11 Часть I. Компоненты 14 Глава Компьютерная



бет87/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   83   84   85   86   87   88   89   90   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Кластеризация в обработке текстов
В прикладной лингвистике существуют такие задачи, подготовка обу- чающих данных для которых очень трудоемка. Это, например, разрешение лексической неоднозначности, то есть определение значения слова, или выделение семантических классов слов — слов, описывающих одну си- туацию или один тип объектов. В таких задачах полезны методы класте- ризации, однако следует осторожно подходить к признаковому описанию объектов: обычно причиной отрицательного результата оказывается не неверный выбор алгоритма, а модель, которая включает несущественные признаки. Поэтому важно провести предварительный анализ входных данных: например, на небольшой выборке слов и текстов оценить, какие контекстные элементы позволяют носителю языка понять, в каком значе- нии употреблено то или иное слово.
Описанные алгоритмы позволяют также проводить кластеризацию текстов, хотя для этого существуют и специальные техники, объединяе- мые под названием латентно-семантического анализа.




  1. Достарыңызбен бөлісу:
1   ...   83   84   85   86   87   88   89   90   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет