Орындаган: Серик Гулсезим 6-зертханалық жұмыс r-да кластерлік талдау



бет1/3
Дата21.11.2023
өлшемі1,27 Mb.
#192735
  1   2   3
Байланысты:
зерт Гулсезим 6-н


Орындаган: Серик Гулсезим
6-зертханалық жұмыс
R-да кластерлік талдау

Функцияның параметрлерін, соның ішінде gaussian_comps , dist_mode ( eucl_dist , maha_dist ), seeed_mode ( static_subset , random_subset , static_spread , random_spread ), km_iter және em_iter (құжат туралы қосымша ақпарат) параметрлерін конфигурациялауға болады. Мен dietary_survey_IBS синтетикалық деректерін пайдаланып GMM функциясын суреттеймін .

library(ClusterR)
data(dietary_survey_IBS)
dim(dietary_survey_IBS)
X = dietary_survey_IBS[, -ncol(dietary_survey_IBS)] # данные (без зависимой переменной)
y = dietary_survey_IBS[, ncol(dietary_survey_IBS)] # зависимая переменная
dat = center_scale(X, mean_center = T, sd_scale = T) # центрирование и масштабирование данных
gmm = GMM(dat, 2, dist_mode = "maha_dist", seed_mode = "random_subset", km_iter = 10,
em_iter = 10, verbose = F)


# предсказание центроидов, ковариационной матрицы и весов
pr = predict_GMM(dat, gmm$centroids, gmm$covariance_matrices, gmm$weights)

Бастапқыда GMM функциясы центроидтарды, коварианттық матрицаны (мұнда әрбір жол диагональдық коварианттық матрицаны білдіреді), салмақтарды және әрбір Гаусс құрамдас бөлігі үшін журнал ықтималдық функцияларын қайтарады. болжау_GMM функциясы содан кейін GMM үлгісінің шығысын қабылдайды және ықтимал кластерлерді қайтарады.

Жоғарыда аталған функцияларға қоса, Akaike ақпараттық критерийін (AIC) немесе Байес ақпарат критерийін (BIC) пайдаланып деректер кластерлерінің санын бағалау үшін Optimal_Clusters_GMM пайдалана аласыз.




opt_gmm = Optimal_Clusters_GMM(dat, max_clusters = 10, criterion = "BIC",
dist_mode = "maha_dist", seed_mode = "random_subset",
km_iter = 10, em_iter = 10, var_floor = 1e-10,
plot_data = T)



Алдын ала анықталған жиынтықтан үлгіні таңдаған кезде, ең төмен BIC-ті таңдаған дұрыс, мұнда бұл 2-ге тең кластерлер санына қатысты.

Негізгі шындық белгілері қол жетімді деп есептесек, шығыс класын тексеру үшін сыртқы_тексеру әдістерін (rand_index, adjusted_rand_index, jaccard_index, fowlkes_Mallows_index, mirkin_metric, тазалық, энтропия, nmi (нормаланған өзара ақпарат) және var_info (вариация туралы ақпарат)) пайдалануға болады.


res = external_validation(dietary_survey_IBS$class, pr$cluster_labels,
method = "adjusted_rand_index", summary_stats = T)
res



Ал егер summary_stats параметрі TRUE мәніне орнатылса, онда ерекшелік, сезімталдық, дәлдік, еске түсіру, F-өлшем көрсеткіштері де қайтарылады ( сәйкесінше ерекшелік , сезімталдық , дәлдік , еске түсіру , F- өлшемі ).
k-мағынасы әдісі

K- кластерлеу - бастапқыда сигналдарды өңдеуде пайдаланылған векторлық кванттау әдісі және кластерлік деректерді талдау үшін жиі пайдаланылады. k-орталарын кластерлеудің мақсаты әрбір мән кластердің прототипі болып табылатын ең жақын ортасы бар кластерге жататын n мәнді k кластерге бөлу болып табылады. Бұл деректер аймағының Вороной ұяшықтарына бөлінуіне әкеледі . Ең жиі қолданылатын алгоритм итеративті нақтылау әдісін пайдаланады. Кең тарауына байланысты оны k-орталар алгоритмі деп атайды; атап айтқанда, ол компьютер ғалымдары арасында Ллойд алгоритмі ретінде де белгілі .

ClusterR бумасы екі түрлі k-means функцияларын қамтамасыз етеді, KMeans_arma , armadillo кітапханасындағы k-means әдісінің R жүзеге асырылуы және RcppArmadillo бумасын пайдаланатын KMeans_rcpp . Екі функция да бірдей нәтижелерді береді, бірақ олар әртүрлі атрибуттарды қайтарады (төмендегі код мұны көрсетеді).





Достарыңызбен бөлісу:
  1   2   3




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет