11 Часть I. Компоненты 14 Глава Компьютерная



бет85/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   81   82   83   84   85   86   87   88   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute
Латын тілі 4,5 - дәріс 2, 169-182 фил, Вопросы на русском языке, 6 үж
Графические алгоритмы кластеризации
Этот класс алгоритмов основан на представлении объектов выборки в виде графа, где рёбрам соответствуют расстояния между объектами. Их достоинствами являются наглядность и простота реализации.


Алгоритм выделения связных компонент
Суть алгоритма выделения связных компонент (connected- component labeling) состоит в подборе такого значение параметра 𝑅, что при удалении всех рёбер (i, j) таких, что 𝜌{ij} > 𝑅, граф распадается на несколько связных компонент. Вершины каждой компоненты связаны хотя бы одним путем, проходящим по ребрам. Эти компоненты и будут иско- мыми кластерами.
Алгоритм кратчайшего незамкнутого пути
В случае алгоритма кратчайшего незамкнутого пути (minimum spanning tree, MST algorithm) должен быть задан параметр 𝐾 — количест- во кластеров. На объектах из X𝑙 строится кратчайший путь, проходящий по всем вершинам, затем удаляются 𝐾 − 1 рёбер, так что в графе остается
𝐾 связных компонент.


Статистические алгоритмы кластеризации

Статистические алгоритмы предполагают, что данный класс содержит тот или иной объект с определенной вероятностью, то есть класс рассмат- ривается как случайная величина, которая имеет некоторое распределение на множестве объектов. Задача кластеризации тогда эквивалентна стати- стической задаче разделения смеси распределений.
Для разделения смеси чаще всего используется EM-алгоритм (Expectation-maximization algorithm) — он работает быстрее стандартных методов кластеризации на данных большого объема. EM-алгоритм берет случайные параметры соответствующих распределений и улучшает их, приближая к более правдоподобным. Необходимо повторить этот алго- ритм несколько раз — на каждом шаге параметры будут приближаться к более правдоподобным. После некоторого количества повторений функ- ция правдоподобия максимизируется.
На первом этапе (expectation) рассчитываются апостериорные рас- пределения при фиксированных параметрах, а на втором этапе (maximization) параметры пересчитываются так, чтобы им отвечала мак- симальная функция правдоподобия. Затем, после обновления параметров, опять пересчитываются апостериорные распределения; этот цикл шагов E и M производится до тех пор, пока корректировка распределения не ста- нет незначительной.




Достарыңызбен бөлісу:
1   ...   81   82   83   84   85   86   87   88   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет