Байланысты: nikolaev is mitrenina ov lando tm red prikladnaia i kompiute
Кластеризациявобработкетекстов В прикладной лингвистике существуют такие задачи, подготовка обу- чающих данных для которых очень трудоемка. Это, например, разрешение лексической неоднозначности, то есть определение значения слова, или выделение семантических классов слов — слов, описывающих одну си- туацию или один тип объектов. В таких задачах полезны методы класте- ризации, однако следует осторожно подходить к признаковому описанию объектов: обычно причиной отрицательного результата оказывается не неверный выбор алгоритма, а модель, которая включает несущественные признаки. Поэтому важно провести предварительный анализ входных данных: например, на небольшой выборке слов и текстов оценить, какие контекстные элементы позволяют носителю языка понять, в каком значе- нии употреблено то или иное слово.
Описанные алгоритмы позволяют также проводить кластеризацию текстов, хотя для этого существуют и специальные техники, объединяе- мые под названием латентно-семантического анализа.