Деректерді кластерлеу алгоритмдерінің бірі. Бұл әдістердің ерекшелігі, олар құжаттарды кластерлерге оларды иерархиялық топтарға бөлу жолымен бөледі, көптеген кластерлер алатын иерархиялық құрылымы бар. Олар иерархиялық агломерациялық кластерлеу әдістері деп аталады. Иерархиялық агломерациялық процедуралардың жұмыс істеу принципі элементтер топтарын, алдымен ең жақын, содан кейін бір- бірінен алыс элементтерді тізбектеп біріктіруден тұрады. Кластерлік талдаудың иерархиялық әдістері деректер жиынтығының шағын көлемінде қолданылады. Ағаштың классикалық мысалы - жануарлар мен өсімдіктердің жіктелуі. Иерархиялық кластеризациясы. Осы әдістердің негізгі мәні келесі қадамдарды орындау болып табылады:
элементтердің арасындағы жақындық мәндерін есептеу және жақындық матрицасын алу;
әр элементті жеке кластерге анықтау;
ең жақын жұп элементтерді бір кластерге қосу;
кластерлер үшін бағандар мен жолдарды жою арқылы жақындығы матрицасын жаңарту, олар басқалармен қосылған және одан әрі матрицаны қайта есептеу;
аялдама критериі жұмыс істемейінше 3- қадамға көшу
Бұл үш әдіс өзара 4-қадамда ерекшеленеді.
Жақындық матрицасын жаңарту тәсілдерінің арқасында әртүрлі Алгоритмдер әртүрлі дәлдікке ие. Алгоритмдердің дәлдігін тексеру арнайы тестілік жиынтықтарда жүргізілді және Single Link алгоритмінің ең аз дәлдігіне ие екенін көрсетті, ал қалған екеуі - Single Link-ге қарағанда неғұрлым жоғары. Аялдамалық критерий ретінде кластердегі құжаттардың ең көп саны таңдалады.
Single Link және Group Average - O(n2) алгоритмдерінің жұмыс күрделігі, ал Complete Link - O(n3), мұнда N - элементтер саны. Single Link - O(n) алгоритмімен атқаратын жады саны.
Әдістердің артықшылықтары:
Алгоритмдер оқытуды қажет етпейді;
Элементтердің арасындағы жақындығы матрицасын пайдалану;
Инкременттік алгоритмдер.
Әдістердің кемшіліктері:
Шекті қою қажет- кластердегі элементтердің ең көп саны;
Кластеризацияның жақсы нәтижелерін алу үшін элементтер жұптарының арасындағы жақындықтың мәні белгілі бір тәртіпте келуі тиіс, яғни алгоритм жұмысы детерминацияланбаған;
Кластерлер қиылыспайды.
K-орташа алгоритмі бір-бірінен мүмкіндігінше үлкен қашықтықта орналасқан k кластерлерін салады. K-орташа алгоритмін шешетін міндеттердің негізгі түрі-кластерлер санына қатысты жорамалдар (гипотезалар) болуы, бұл ретте олар мүмкіндігінше әртүрлі болуы тиіс. K санын таңдау алдыңғы зерттеулердің нәтижелеріне, теориялық пайымдауларға немесе түйсікке негізделуі мүмкін.Алгоритмнің жалпы идеясы: бақылау кластерлерінің берілген белгіленген саны кластерлерге орташа кластерде (барлық айнымалылар үшін) бір-бірінен барынша ерекшеленетіндай етіп салыстырылады.
Алгоритмнің сипаттамасы
1. Кластерлер бойынша объектілерді бастапқы бөлу. K саны таңдалады және бірінші қадамда бұл нүктелер кластерлердің "орталықтары" болып саналады. Әрбір кластерге бір орталық сәйкес келеді. Бастапқы орталықтарды таңдау мынадай түрде жүзеге асырылуы мүмкін:
бастапқы қашықтықты максималдау үшін k-бақылауларды таңдау;
k-бақылауларды кездейсоқ таңдау;
алғашқы k-бақылауларды таңдау.
Нәтижесінде әрбір объект белгілі бір кластерге тағайындалған.
2. Итеративтік процесс. Кластерлер орталықтары есептеледі, олар одан кейін және одан әрі үйлестірілген орта кластерлер болып саналады. Нысандар қайта бөлінеді. Орталықтарды есептеу және объектілерді қайта бөлу процесі шарттардың бірі орындалғанға дейін жалғасады: кластерлік орталықтар тұрақтанды, яғни барлық бақылау ағымдағы итерацияға дейін тиесілі кластерге тиесілі.;
Кластерлеу сапасын тексеру
K-орташа әдісімен кластерлік талдау нәтижелерін алғаннан кейін кластерлеудің дұрыстығын тексеру керек (яғни кластерлердің бір-бірінен қаншалықты айырмашылығы бар екендігін бағалау). Бұл үшін әрбір кластер үшін орташа мәндер есептеледі. Жақсы кластерлеу кезінде барлық өлшеулер үшін өте ерекшеленетін орташа немесе олардың ең болмағанда көп бөлігі алынуы тиіс.
K-MEANS алгоритмінің күрделілігі O(nkl), k – кластерлер саны, l – итерация саны, n- элементтер саны.
K-MEANS АЛГОРИТМІ K-орташа алгоритмінің артықшылықтары:
пайдалану оңай;
пайдалану жылдамдығы;
алгоритмнің түсініктілігі мен ашықтығы.
K-орташа алгоритмінің кемшіліктері:
алгоритм орташаны бұрмалауы мүмкін шығарындыларға өте сезімтал. Бұл проблеманы шешу мүмкін болып k - медиана алгоритмінің модификациясын қолдану табылады;
алгоритм үлкен деректер базасында баяу жұмыс істей алады. Бұл мәселені шешу мүмкін деректер таңдауын пайдалану болып табылады.
Спектралды кластеризация әдістің сипаттамасы
Спектралды талдау әдісінің артықшылығы оның жоғары сезімталдығы және нәтиженің жылдам алуы. Спектралды талдау әдісі арқылы г үлгіде г алтынды бар екенің анықтауға болады. Спектралды талдау әдісі арқылы металдың маркасын бірнеше ондаған секунда анықтауға болады.
Спектралды әдіс жерден миллиардтаған жарық жылдары қашықтықта орналасқан аспан денелерінің химиялық құрамын анықтауға мүмкіндік береді. Жұтылу спектрлері бойынша жұлдызаралық кеңістікте суық газадрдың, жұлдыздардың және планеталар атмосферасының химиялық құрамын анықтайды.
Ғалымдар спектрлерді зерттеу барысында тек аспан жұлдыздарының химиялық құрамын ғана емес, сонымен қатар оның температурасын да анықтаған. Спектралды сызықтардың жылжуы арқылы аспан денелернің жылдамдығың анықтауға болады.
Әр түрлі заттардың шығару немесе жұтулу сызықты спектрі бойынша химиялық құрамын анықтау әдісі спектралды талдау деп аталады. Спектралды талдау әдісіне кішкене ғана зерттеліп отырған заттың мөлшері жеткілікті. Бұл әдістің жылдамдығы және сезімталдығы оны зерттеханада да, астрфизикада да алмастырылмайтын етіп қылды. Өйткені Менделеев кестесіндегі әр бір элемент өзіне ғана тән сызықты спектрді шығарады және жұтады. Осыған байланысты заттың химиялық құрамын анықтауға болады. Осылай ең бірінше рет спектроскопты ойластырып тауып және заттың құрамын анықтаған 1859 жылы Кирхгоф пен Бунзен. Жарық бір жақ шетінен кесілген дүрбінің тар саңылауы арқылы өтеді (саңылауы бар түтік коллиматор деп аталады). Коллиматордан сәулелер призмаға түсті. Призма ішінен қара қағазбен жапсырылған жәшікпен жабылған.Саңылаудан шыққан сәулеллерді призма жан-жаққа шашыратты. Осыдан спектрлер пайда болды. Содан кейін коллиматордың саңылауның алдына жанарғыны қойды. Шамның жалынына кезек кезектен әр түрлі заттардың кесектерін салып отырды және пайда болған спектрлерге екінші дүрбі арқылы қарап отырды.
Әр элементтің қызған буы белгілі бір түсті сәулелер беріп отырды. Ал призма оларды белгілі бір жерге ғана ауытқытып отырғандықтан, олар бір-бірін қосылған жоқ. Осыған байланысты жаңа химиялық талдау әдісі пайда болды.
Спектралды талдау әдісінің үлкен талдамалығына байланысты бір ғана құрылымды сұлба, бір ғана аспап арқылы әр түрлі заттарды зерттеуге болады.
Спектралды талдау әдісінің сұлбасы. Спектралды талдау әдісінің негізінде зерттелетің заттпен шығарылатын немесе жұтылатын жарықтың құрылымын зерттеу болып табылады. Спектралды талдау әдісі эмиссионды (эмиссия – шығару) және абсорбционды (абсорбция – жұту) болып бөлінеді.
Ең бірінші эмиссионды спектралды талдау әдісінің сұлбасын қарастырайық (сурет 1,а). Зат жарықты шығару үшін оған қосымша энергияны беру керек. Сонда зерртеліп отырған заттың атомдары және молекулалары қозған күйге көшеді. Қалыпты күйге келгенде олар артық знергияны жарық түрінде шығарады. Қатты немесе сұйық денелермен щығарылатын жарықтын қасиеттері заттың химиялық құрамынан өте аз тәуелді болады, сондықтан оны талдауда қолдануға келмейді. Ал газдардың шағылуы басқаша қасиеттерге ие. Ол талданатын үлгінің құрамымен анықталады. Осыған байланысты эмиссионды талдауда қоздыру алдында затты буландыру керек.
а – эмиссионды;
б – абсорбционды.
Сызық спектрлер маңызды рөл атқарады, өйткені олардың құрылымы атом құрылымымен тікелей байланысты. Осы спектрлер ішкі әсерлерге төзімді атомдардан жасалады. Сондықтан, сызық спектрларды қарастыру арқылы біз атом құрылысымен танысамыз.
Осы спектрларды қарастыру арқылы ғалымдар атомның ішкі құрылысын көруге мүмкіндік алды. Мұнда оптика атомдық физикамен тығыз байланысады. Сызық спектрлардың басты қасиеті қандай да бір заттың сызық спектрі толқындарының ұзындығы (немесе жиілігі) осы заттың атомының қасиетіне байланысты болып келеді, бірақ атомдардың сәуле таратуларының қоздыру тәсілдеріне байланысты емес.
Түрлі химиялық элементтердің атомдары басқа элементтердің спектрларына ұқсамайтын спектр береді, олар толқын ұзындықтарының айқын да нақты жиынтығын сәулелендіре алады.
Спектралды талдау осыған негізделген, яғни заттың химиялық құрамын оның спектрі арқылы анықтау тәсілі. Сызық спектрлардың қайталанбас өзіндік ерешелігі бар. Адам саусақтарының терісіндегі қайталанбас өрнектер қылмыскерді табуға көмектеседі. Дәл солай спектрдің ерекшелігіне қарап дененің химиялық құрамын анықтауға болады. Спектральды талдау бойынша берілген элементті массасы 10-10 нан аспайтын күрделі заттың құрамын да табуға болады.
Заттың құрамының сапалық талдауы қиындатылған, өйткені спектралды сызықтардың жарықтығы заттың массасына ғана емес, оның сәуле таратуларының қоздыру тәсілдеріне де байланысты болады. Төмен температураларда көптеген спектральды сызықтар пайда болмайды. Бірақ сәуле тарату қоздыруының стандартты шарттарын сақтау арқылы сапалы спектралды талдау жүргізуге болады.
Қазіргі уақытты барлық атомдардың спектрлары анықталған және спектрлардың таблицасы құрастырылған. Спектральды талдау бойынша көптеген жаңа элементтер ашылды: рубидий, цезий және т.б.
Элементтерге көбінесе спектрдің ең белсенді сызықтарының түсімен байланысты атаулар беріп отырды.
Рубидий қызыл түсті, рубинді сызықтарды береді. Цезий сөзі көкшіл дегенді білдіреді. Ол цезий спеткрінің негізгі сызықтарының түсі.
Спектралды талдау арқылы күн мен жұлдыздардың химиялық құрамын анықтады. Осы жағдайда талдаудың басқа тәсілдерін жүргізу мүмкін емес. Жұлдыздар да Жерде бар химиялық элементтерден құралады.
Гелийді алғаш Күн планетасында ашқан, содан кейін ғана жер атмосферасында тапқан. Осы элементтің атауы оның ашылуының тарихын еске түсіреді; яғни гелий сөз аударғанда күндік дегенді білдіреді.
Салыстырмалы қарапайымдылығы мен әмбебаптылығына қарай спектральды талдау металлургия, машина жасау және атом индустриясында заттың құрамын бақылауының негізгі әдісі болып келеді.Спектральды талдау көмегімен минералдар мен кендердің химиялық құрамын анықтайды.
Әдістерді салыстыру
Иерархиялық кластерлеу - бұл деректерді топтастыруды бір мезгілде әр түрлі масштабтар мен арақашықтықтар бойынша зерттеу. Мұны әртүрлі деңгейлерде кластерлік ағаш жасау арқылы жасайды. K-кластерлеуден өзгеше, ағаш кластерлердің бірде-бір жиынтығы емес.
Керісінше, ағаш көп деңгейлі иерархия болып табылады, онда бір деңгейдегі кластерлер келесі жоғары деңгейде кластерлер ретінде қосылады. Пайдаланылатын алгоритм әр оқиға немесе айнымалы мәннен бөлек кластерде басталады, сосын кластерлерді тек біреу қалдырылғанша біріктіреді. Бұл зерттеуші өзінің зерттеуі үшін кластерліктің қандай деңгейіне сәйкес келетінін анықтауға мүмкіндік береді. Иерархиялық кластеризациясы. Осы әдістердің негізгі мәні келесі қадамдарды орындау болып табылады:
элементтердің арасындағы жақындық мәндерін есептеу және жақындық матрицасын алу;
әр элементті жеке кластерге анықтау;
ең жақын жұп элементтерді бір кластерге қосу;
кластерлер үшін бағандар мен жолдарды жою арқылы жақындығы матрицасын жаңарту, олар басқалармен қосылған және одан әрі матрицаны қайта есептеу;
аялдама критериі жұмыс істемейінше 3- қадамға көшу
Бұл үш әдіс өзара 4-қадамда ерекшеленеді.
Жақындық матрицасын жаңарту тәсілдерінің арқасында әртүрлі Алгоритмдер әртүрлі дәлдікке ие. Алгоритмдердің дәлдігін тексеру арнайы тестілік жиынтықтарда жүргізілді және Single Link алгоритмінің ең аз дәлдігіне ие екенін көрсетті, ал қалған екеуі - Single Link-ге қарағанда неғұрлым жоғары. Аялдамалық критерий ретінде кластердегі құжаттардың ең көп саны таңдалады.
Single Link және Group Average - O(n2) алгоритмдерінің жұмыс күрделігі, ал Complete Link - O(n3), мұнда N - элементтер саны. Single Link - O(n) алгоритмімен атқаратын жады саны.
Әдістердің артықшылықтары:
Алгоритмдер оқытуды қажет етпейді;
Элементтердің арасындағы жақындығы матрицасын пайдалану;
Инкременттік алгоритмдер.
Әдістердің кемшіліктері:
Шекті қою қажет- кластердегі элементтердің ең көп саны;
Кластеризацияның жақсы нәтижелерін алу үшін элементтер жұптарының арасындағы жақындықтың мәні белгілі бір тәртіпте келуі тиіс, яғни алгоритм жұмысы детерминацияланбаған;
Кластерлер қиылыспайды.
Спектралды кластерлеу - мәліметтердің элементтерінің еркін графтар түріндегі өзара байланысын білдіреді. Желілік деректер қорының схемасын сипаттауға екі тип пайдалынылады: жазба және байланыс. Мәліметтердің желілік моделінде элементтерінің әртүрлі өзара байланысын еркін бұтақ түрінде бейнелеуге болады, сонымен бірге мәліметтердің иерархиялық моделін жалпылайды. Желілік МҚ-ңтұжырымдамасы алғаш рет толық КОДАСИЛ тобының ұсыныстарында баяндалған.
Желілік мәліметтер қорының схемасын сипаттау үшін типтердің екі тобы қолданылады: «жазу» және «байланыс». «Байланыс» типі келесі екі «жазу» типі үшін анықталады: ұрпақ және аталық. «Байланыс» типі айнымалысы байланыс экземпрляры болып табылады. Желілік мәліметтер қоры жазулар жиынтығынан және жиындардың сәйкес байланыстарынан тұрады. Байланысты қалыптастыру үшін ерекше шектеулер қажет емес. Егер иерархиялық құрылымда жазу- ұрпақтың тек бір ғана жазу-аталығы болса, мәліметтердің желілік моделінде жазу-ұрпақтың жазу-аталықтар саны еркін алынады (өгей аталық).
Желілік типті қордағы мәліметтердің физикалық орналасуы, иерархиялық МҚ-дағыдай әдіспен ұйымдастырылуы мүмкін. Мәліметтердің желілік моделінің жетістігі – жадының пайдалану көрсеткішінің тиімді жүзеге асырылуы мен жеделдігінде болып табылады.
Иерархиялық кластерлеумен салыстырғанда спектралды кластерлеу еркін байланыстар құруда мүмкіндіктері көп.
Мәліметтердің спектралды кластерлеу кемшілігі МҚ схемасының аса жоғары күрделілігі мен қатаңдығы, сондай-ақ, МҚ-дағы ақпаратты өңдеуді әдеттегі пайдаланушының түсініп, орындауындағы қиындықта болып табылады.
ҚОРЫТЫНДЫ
Кластер (cluster) - 1) жүйесінде — диск кеңістігін бөлу кезіндегі оған жазылатын ең кіші көлемдегі мәліметтер бірлігі. Ол, әдетге, 512 байттан, бір немесе қатар орналасқан бірнеше диск секторларынан құралады. Кластерде әрбір мәліметтер бірлігі (том) үшін берілген секторлар саны тұрақты шама болады және бір кластер тек бір файлдың мөліметтерін ғана қабылдайды. Кластер көлемі кішірейген сайын әр файлдың соңында қалдырылатын бос орын шамасы да азаяды, бірақ әр кластерге файлдың орналасуы туралы қызметтік мәліметтер жазылатын болғандықтан, ол қызметтік ақпараттың жалпы көлемі ұлғаяды; иілгіш және қатқыл дискілер үшін — дискіде кеңістік бөлудің бірлігі.
Кластер екі және одан да көп секторлардан тұрады. Операциялық жүйе файлды ондаған немесе кейде жүздеген, бірінен соң бірі орналасқан кластерге жазады. Файлдардың кластерде орналасуын қадағалау үшін файлдар орналасу кестесі пайдаланады; есептеу жүйелері үшін — кластер операциялық жүйемен қолданбаның өзіндік көшірмесімен жұмыс істейтін және басқа қорды бірлесе пайдаланатын екі немесе одан көп түйіннен тұрады; есептеу желілері үшін — топқа біріктірілген (ішінде абоненттер сақина төрізді байласқан) бірнеше шоғырлауын.
Спектралды кластерлеу - мәліметтердің элементтерінің еркін графтар түріндегі өзара байланысын білдіреді. Желілік деректер қорының схемасын сипаттауға екі тип пайдалынылады: жазба және байланыс. Мәліметтердің желілік моделінде элементтерінің әртүрлі өзара байланысын еркін бұтақ түрінде бейнелеуге болады, сонымен бірге мәліметтердің иерархиялық моделін жалпылайды. Желілік МҚ-ңтұжырымдамасы алғаш рет толық КОДАСИЛ тобының ұсыныстарында баяндалған.
Иерархиялық кластерлеу - бұл деректерді топтастыруды бір мезгілде әр түрлі масштабтар мен арақашықтықтар бойынша зерттеу. Мұны әртүрлі деңгейлерде кластерлік ағаш жасау арқылы жасайды. K-кластерлеуден өзгеше, ағаш кластерлердің бірде-бір жиынтығы емес.
Керісінше, ағаш көп деңгейлі иерархия болып табылады, онда бір деңгейдегі кластерлер келесі жоғары деңгейде кластерлер ретінде қосылады. Пайдаланылатын алгоритм әр оқиға немесе айнымалы мәннен бөлек кластерде басталады, сосын кластерлерді тек біреу қалдырылғанша біріктіреді. Бұл зерттеуші өзінің зерттеуі үшін кластерліктің қандай деңгейіне сәйкес келетінін анықтауға мүмкіндік береді.
ҚОЛДАНЫЛҒАН ӘДЕБИЕТ ТІЗІМІ
Госвами, Джиотимита. «Кластерлеу және жіктеу алгоритмдерін салыстырмалы зерттеу». Халықаралық ғылыми инженерлік және қолданбалы ғылымдар журналы 1.3 (2015): 170-178. Басып шығару.
Король, Рональд. Кластерлік талдау және деректерді іздеу: кіріспе. Бостон: Меркурийді оқыту және ақпарат, 2014. Баспа.
Ван, Халгамуге. Білімді табу үшін жіктеу және кластерлеу. Нью-Йорк: Спрингер, 2005. Басып шығару.
«Кескін несиесі: https://stackoverflow.com/questions
/5064928/difference-between-classification-and-clustering-in-data-mining»
Избачков Ю., Петров В. Информационные системы: Учебник для вузов. 2-е изд. – СПб.: 2005. – 656 с.:ил.
Акулов О.А., Медведев Н.В. Информатика: базовый курс: учеб. пособие для студентов вузов. 2-е изд. – М.: Омега-Л, 2005. - 552 с.
Введение в теорию информационных систем. Под ред. Юркевича Е.В.- М.: ИД Технологии, 2004.
Куликовский Л.Ф., Мотов В.В. Теоретические вопросы информационных процессов: Учебное пособие. –М.: Высшая школа, 1987. – 248 с.
Душин В.К. Теоретические основы информационных процессов и систем: Учебник. – 3-е изд. – М.: Изд.-торг. Корп. «Дашков и К0», 2008- 348 с.
Информационные технологии в радиотехнических системах: Учеб. пособие. – 2-е изд. Васин В.А., Власов И.Б., Егоров Ю.М. и др.: Под ред. И.Б.Федорова. –М.:Изд-во МГТУ им. Н.Э.Баумана, 2004.- 708 с.
Смирнов В.И. Курс высшей математики. Том второй.- М.: Главная редакция физ.-мат. литер., изд-ва «Наука», 1974. – 656 с.
Құралбаев З.Қ. Ақпараттық жүйелердің негіздері: Дәрістер жинағы. – Алматы: АЭжБУ, 2009. – 76 б.
Анализ данных и процессов: учеб. пособие / А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. - 3-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2009. - 512 с.: ил. + CD-ROM - (Учебная литература для вузов). ISBN 978-5-9775-0368-6
Популярное введение в современный анализ данных в системе STATISTICA. Учебное пособие для вузов. – М.: Горячая линия – Телеком, 2015. – 288 с., ISBN 978-5-9912-0326-5
Электронный учебник Statsoft.ru
И.Чубукова. Data Mining: Информация. http://www.intuit.ru/
Э.А.Вуколов. Основы статистического анализа, М.: 2008 г.
М.Темирбаев. Успешные кластеры – пример общенационального согласия // Деловой мир. - 2005. -№1. – с.20-22
Достарыңызбен бөлісу: |