КІРІСПЕ
I Жалпы кластерлеу деген не?
Кластер түсінігі
Кластерлік әдістері
ΙΙ Иерархиялық және спектралды кластеризация әдістерін салыстыру
2.1. Иерархиялық әдістің сипаттамасы
2.2. Спектралды кластеризация әдістің сипаттамасы
2.3. Әдістерді салыстыру
ҚОРЫТЫНДЫ
ҚОЛДАНЫЛҒАН ӘДЕБИЕТ ТІЗІМІ
КІРІСПЕ
Ақпарат алмасуды тиімді ұйымдастыру адамдардың ойдағыдай машықтану іс-әрекеттерінің шарты ретінде үлкен мәнге ие болуда. Қазіргі кезеңдегі қоғамның жұмыс істеуіне қажетті ақпарат көлемі өндірістік потенциалға пропорционал өсуде. Ақпаратпен қамтамасыз ету мәселелерімен айналысатын жұмыс күшінің үлесі тікелей өндірістегі жұмыс күшінен арта түсуде. Сондықтан, мұндай жағдайларда қатарында ақпарат теориясы да бар ақпараттық процестердің өту заңдылықтарын және құрылымын зерттейтін ғылымдар өте өзекті мәселе болып отыр.
Ақпарат материя және энергиямен қатар бастапқы түсінік болып табылады және қатаң мағынада анықтала алмайды. Оның тек негізгі қасиеттерін айтуға болады, мысалы:
а) ақпарат қоршаған орта туралы мәліметтерден тұрады;
ә) ақпарат материалды емес, бірақ ол дискретті таңбалар немесе бастапқы сигналдар түрінде болады;
б) таңбалар және бастапқы сигналдар танитын алушыға ғана ақпарат әкеледі.
Сонымен қатар ақпарат сөзі тек қана ғылыми еңбектерде ғана емес күнделікті өмірде де жиі кездеседі және әрбір адамға интуитивті түсінікті болып табылады. Бұл кезде қысаң практикалық мағынада ақпарат ретінде әдетте сақтау, тасымалдау және түрлендіру нысандары болатын қоршаған орта туралы мәліметтер жиынтығын түсінеді.
Қурстық жұмысының өзектілігі. Жүйенің жұмысын талдап, оның әдістерің талдау жасау арқылы жүйенің жұмысын жақсаруға болды. Бұл ақпарат үшін қашанда өзекті
Курстық жұмысының мақсаты - иерархиялық және спектралды кластеризация әдістерін салыстыру
Курстық жұмысының міндеттері:
Кластер ұғымын анықтау
Кластерлеу әдістерін анықтау
Иерархиялық әдістің ерекшелігін анықтау
Спектралды кластеризация әдістің ерекшелігін анықтау
Курстық жұмысының зерттеу әдістері: концептуалды талдау әдісі, салыстырмалы әдіс, компонентті талдау әдісі.
Курстық жұмысының құрылымы: кіріспе, негізгі бөлім, қорытынды және қолданылған әдебиеттер.
Жалпы кластерлеу деген не?
Кластер түсінігі
Кластер (cluster) - 1) жүйесінде — диск кеңістігін бөлу кезіндегі оған жазылатын ең кіші көлемдегі мәліметтер бірлігі. Ол, әдетге, 512 байттан, бір немесе қатар орналасқан бірнеше диск секторларынан құралады. Кластерде әрбір мәліметтер бірлігі (том) үшін берілген секторлар саны тұрақты шама болады және бір кластер тек бір файлдың мөліметтерін ғана қабылдайды. Кластер көлемі кішірейген сайын әр файлдың соңында қалдырылатын бос орын шамасы да азаяды, бірақ әр кластерге файлдың орналасуы туралы қызметтік мәліметтер жазылатын болғандықтан, ол қызметтік ақпараттың жалпы көлемі ұлғаяды; иілгіш және қатқыл дискілер үшін — дискіде кеңістік бөлудің бірлігі.
Кластер екі және одан да көп секторлардан тұрады. Операциялық жүйе файлды ондаған немесе кейде жүздеген, бірінен соң бірі орналасқан кластерге жазады. Файлдардың кластерде орналасуын қадағалау үшін файлдар орналасу кестесі пайдаланады; есептеу жүйелері үшін — кластер операциялық жүйемен қолданбаның өзіндік көшірмесімен жұмыс істейтін және басқа қорды бірлесе пайдаланатын екі немесе одан көп түйіннен тұрады; есептеу желілері үшін — топқа біріктірілген (ішінде абоненттер сақина төрізді байласқан) бірнеше шоғырлауын.
Кластер бір орталыққа қосылған абоненттер санын арттыруға мүмкіндік береді; компьютерлер кластері — өзінің ішінде (оның арасында, сервердің біреуі жұмыс істемей қалған жағдайда да) жүктемені бөліп-үлестіретін жүйе. Жүмыс істеу уақыты өзінің ішіндегі осы қайта ұйымдастыруға кететін мерзімге ұзарады.
Кластердің негізгі белгілері:
көпмашиналық кешен; тұтас жүйе (пайдаланушы тұрғысынан қарағанда);
кәміл сенімділік;
ортақ файлдық жүйе;
масштабтанулық;
барлық жүйені бірыңғай басқару.
Компьютер желілерінде — жоғары жылдамдықты байланыс арналарымен жалғасқан бірнеше компьютерден құралған жүйе.
абоненттер үшін мүндай кластер бір бүтін (жүйе) есебінде қарастырылады;
ортақ контроллері (жалғастыру құрылғысы) бар бірнеше құрылғылар тобы;
бірнеше секторлардан тұратын файлдарды жазуға сыртқы экранды қабықшамен қоршалып, диэлектрикпен қапталған бір өткізгішті өзегі бар кабель.
Бәсекеге қабілеттіліктің дамуымен құрылымы жөнінде көптеген теориялар бар. Бірақ, жетілген және дамыған фирмалардың тәжірибесі көрсеткеніндей экономикалық өсудің тиімді формасы кластерлік теория механизмі болып табылады. Оның негізінде кластерлік түсінік дегеніміз – экономикалық қызмет түрлерінің байланысы мен тиімді шоғырлануы, яғни, бәсекелес фирманың өзара байланысты топтарының жиынтығы, ол батыстың интерпритациядағы “диамант бриллиант” алтын қосылуы ретінде мемлекеттің барлық экономикалық жүйесімен дүниежүзілік, ұлттық, салалық, нарықтарда бәсекелестік позициясын қамтамасыз етеді.
Ғылыммен техниканың көп саласында қолданылатын кластер термині “cluster” – топ, жиналыс, шоғырлану деген ағылшын сөзінен шыққан.
Кластер ұғымына қатысты ақпарат массивін зерттеу қиындығы – кластер ұғымына әртүрлі мінездеме берілген, ал кейбір авторлар интегрирленген білімді қолданудың тар сферасын көрсететін анықтама береді. Мысалы, инновациялы кластер, алмаз кластері.
М.П. Войнаренконың пікірінше кластер ұғымы экономикаға ядролық физикадан келген. 1984 жылы радиоактивті ыдыраудың жаңа түрі ашылды, қозғалмаған жағдайда тұрған атомдық ядро өздігінен күрделі құрамды бөліктер шығарады.
Кластер түсінігін әртүрлі салалар арасындағы технологиялық байланыс проблемаларын зерттеумен айналысатын авторлар да қолданған. Өйткені соңғы өнімнің өндірісі үшін кластерге әртүрлі сала өндірушілері бірігеді.
Францияда технологиялық өзара байланысқан секторларды бейнелеу үшін “фильеры” терминін енгізді. Оның мәні мынада, бір сектордың технологиялық қуаты басқасына тәуелді. “Фильеры” термині кластердің кең ұғымының нышаны болып табылады. Кластердің пайда болуы бір жағынан, ұсақ өндірушілер арасындағы тығыз технологиялық байланыс құрылу үшін алғышарт, екінші жағынан, бір-бірімен нақты елдің экономикалық секторында байланысқан шағын кәсіпорындарда кластердің құрылуымен ұлттық артықшылықтың жүзеге асу мүмкіндігі.
Фильерлер кластердің тар интерпретациясын көрсетеді, өйткені потенциалды артықшылықтарды жүзеге асыру үшін салалар мен секторлар арасындағы технологиялық байланысты жасап шығару қажеттігі - кластердің пайда болуының бір критериіне негізделген.
Кластерлік көзқарас швед теоретиктерінің жұмыстарында қолданылған. Олардың кластерлік механизмі ұлттық экономика құрылымына негізделген, яғни, ірі шведтік көпұлттық корпорациялардың өзара байланысын зерттеуге қолданылады. Мұнда кластерлер Е. Дахменнің “даму блоктары туралы” тезисінде орналасқан. Дахмен бойынша бәсекелестік жетістіктің даму негізі бір сектордың қабілеттілігі арасындағы байланыспен екіншісінде алға басуды қамтамасыз ету қабілеттілігінің бар болуы. Даму кезең бойынша жүзеге асуы керек немесе басқа саламен байланысты бір саланың айналасында.
Заттың сапалық және сандық құрамын оның спектрі арқылы анықтау әдісі спектралды талдау деп аталады. Спектралды әдіс пайдалы қазбаларды іздегенде, кеңнің химиялық құрамын анықтауда кең қолданылады. Өнеркәсіпте спектралды талдау әдісі керекті қасиеттері бар материалды алу үшін металдарға қосылатын қоспаларды бақылау үшін қолданады.
Кластерлік әдістері
Объектілерді классификациялаудың бірнеше әдістері бар. Аналитикалық зерттеуді қажет етпейтін ең оңай әдістердің бірі бір немесе бірнеше белгілеріне байланысты топтастыру болып табылады.
Топтастырудың мақсаты мынадай болып табылады: зерттеушінің көзқарасына сәйкес берілген белгілердің ішінен бірі таңдалып, осы белгіге байланысты мәліметтерді топтастыру. Егер мәліметтерді бірнеше белгілеріне байланысты топтастыру керек болса, белгілердің сол объектілер үшін маңыздылығына сәйкес алдымен маңыздылығы жоғары белгі бойынша, ал кейін екінші белгі бойынша топтастырады.
Классификациялық белгілерді берілген әдіспен топтастыру мүмкін болмаса, онда факторлық немесе компоненттік талдау негізінде топтастыру жүргізіледі. Атап өту керек, топтастыруды қолданғанда нәтижелерді бөлудің талдау жасаушыға тікелей байланысты екендігі.
Шешім қабылдау үшін объективті ақпараттық қолдау беретін автоматты классификациялауға кластерлік талдауды жатқызуға болады.
Келесі есепті қарастырайық. Х белгілері бойынша N объектінің мәліметтері берілген. Осы мәліметтерді біртекті белгілері бойынша топтарға немесе кластарға бөлу қажет.
Бөлінген мәліметтер нәтижесінде алынған топтар кластер деп аталады, оны кластерлік талдау әдісін пайдаланып топтастырамыз.
Айнымалылар кеңістігінде кластерлер әртүрлі нүктелер жиынтығын құрайды
Шар тәріздес Элиипс тәріздес
Банан тәріздес Конус тәріздес
1 сурет. Кластер түрлері
Кластерлі талдауда мәліметтер бастапқыда тікбұрышты үшбұрыш ретінде көрінеді, әр бағаны бір немесе бірнеше белгісі бойынша нәтижелерді анықтайды.
Кейбір жағдайда объектілерді сонымен қатар белгілерді де топтастыруға болады. Х матрицасы берілген. Бұл матрица кластерлік талдаудағы мәліметтердің берілуінің жалғаз ғана түрі емес. Кейбір кезде мәліметтер квадраттық матрица түрінде де берілуі мүмкін.
Қатты кластерлеу : Жоғарыда келтірілген мысалда бір нәрсе жеміс болып табылады немесе жоқ, сондықтан айырмашылық жасау оңай. Қатты кластерлеу кезінде, элементтерді әртүрлі қасиеттермен бөлуге болады. Тізімдегі элементтерді ненің айырмашылығы туралы ойлап көріңіз. Сізде ортақ қасиеттерге ие болмайтын кейбір қалдықтар болуы мүмкін.
Иерархиялық кластерлеу : Топтағы барлық нысандардан бастаңыз және оларды бір-бірімен екіге бөліп бастаңыз, олар ең ұқсас. Содан кейін жұптарды қарап, ең жақын жұптарды біріктіріп, төрт топқа ие болыңыз. Жай есте сақтау үшін бұл, барғыңыз келгенше, мүмкін.
Жадыға арналған кластерлеу әсері. Жадты зерттеу табиғи кластерлеудің екі жалпы түрін тапты.
Уақытша кластерлеу: Сіз тізімдер бойынша көрші позициялардағы элементтерді еске түсіре аласыз. Мысалы, егер құсқа тосттар келсе, тізімді жүйелі түрде есте сақтаған болсаңыз, құснан кейінгі тостты есте сақтаңыз.
Семантикалық кластеризация : Сіз тізімнен ұқсас элементтерді қайтадан еске түсіре аласыз. Кластерлеудің бұл түрі сіз ұқсас элементтерге тізімді бұзып, оларды кластерлерде есте сақтай отырып максимизизируетесіз. Семантикалық кластерлеуді осы жолмен уақытша кластерлеу арқылы жұптастыруға болады.
Иерархиялық және спектралды кластеризация әдістерін салыстыру
Иерархиялық әдістің сипаттамасы
Иерархиялық кластерлеу - бұл деректерді топтастыруды бір мезгілде әр түрлі масштабтар мен арақашықтықтар бойынша зерттеу. Мұны әртүрлі деңгейлерде кластерлік ағаш жасау арқылы жасайды. K-кластерлеуден өзгеше, ағаш кластерлердің бірде-бір жиынтығы емес.
Керісінше, ағаш көп деңгейлі иерархия болып табылады, онда бір деңгейдегі кластерлер келесі жоғары деңгейде кластерлер ретінде қосылады. Пайдаланылатын алгоритм әр оқиға немесе айнымалы мәннен бөлек кластерде басталады, сосын кластерлерді тек біреу қалдырылғанша біріктіреді. Бұл зерттеуші өзінің зерттеуі үшін кластерліктің қандай деңгейіне сәйкес келетінін анықтауға мүмкіндік береді.
Көптеген статистика бағдарламалары кластерді талдауды орындай алады. SPSS-те мәзірден талдауды , сосын классификациялауды және кластерді талдауды таңдаңыз . SAS-де Proc кластер функциясын пайдалануға болады.
Nicki Lisa Cole, Ph.D.
Иерархиялық модельде мәліметтер арасындағы байланысты реттелген граф (немесе тармақ) көмегімен сипаттауға болады. Иерархиялық моделде мәліметтердің арасындағы байланыс төмендегі суретте көрсетілген. Иерархиялық кластеризациясы. Деректерді кластерлеу алгоритмдерінің бірі. Бұл әдістердің ерекшелігі, олар құжаттарды кластерлерге оларды иерархиялық топтарға бөлу жолымен бөледі, көптеген кластерлер алатын иерархиялық құрылымы бар. Олар иерархиялық агломерациялық кластерлеу әдістері деп аталады. Иерархиялық агломерациялық процедуралардың жұмыс істеу принципі элементтер топтарын, алдымен ең жақын, содан кейін бір- бірінен алыс элементтерді тізбектеп біріктіруден тұрады. Кластерлік талдаудың иерархиялық әдістері деректер жиынтығының шағын көлемінде қолданылады. Ағаштың классикалық мысалы - жануарлар мен өсімдіктердің жіктелуі.
Осы әдістердің негізгі мәні келесі қадамдарды орындау болып табылады:
элементтердің арасындағы жақындық мәндерін есептеу және жақындық матрицасын алу;
әр элементті жеке кластерге анықтау;
ең жақын жұп элементтерді бір кластерге қосу;
кластерлер үшін бағандар мен жолдарды жою арқылы жақындығы матрицасын жаңарту, олар басқалармен қосылған және одан әрі матрицаны қайта есептеу;
аялдама критериі жұмыс істемейінше 3- қадамға көшу
Бұл үш әдіс өзара 4-қадамда ерекшеленеді. Жақындық матрицасын жаңарту тәсілдерінің арқасында әртүрлі Алгоритмдер әртүрлі дәлдікке ие. Алгоритмдердің дәлдігін тексеру арнайы тестілік жиынтықтарда жүргізілді және Single Link алгоритмінің ең аз дәлдігіне ие екенін көрсетті, ал қалған екеуі - Single Link-ге қарағанда неғұрлым жоғары. Аялдамалық критерий ретінде кластердегі құжаттардың ең көп саны таңдалады.
Single Link және Group Average - O(n2) алгоритмдерінің жұмыс күрделігі, ал Complete Link - O(n3), мұнда N - элементтер саны. Single Link - O(n) алгоритмімен атқаратын жады саны.
Әдістердің артықшылықтары:
Алгоритмдер оқытуды қажет етпейді;
Элементтердің арасындағы жақындығы матрицасын пайдалану;
Инкременттік алгоритмдер.
Әдістердің кемшіліктері:
Шекті қою қажет- кластердегі элементтердің ең көп саны;
Кластеризацияның жақсы нәтижелерін алу үшін элементтер жұптарының арасындағы жақындықтың мәні белгілі бір тәртіпте келуі тиіс, яғни алгоритм жұмысы детерминацияланбаған;
Кластерлер қиылыспайды.
Алгоритмнің сипаттамасы
1. Кластерлер бойынша объектілерді бастапқы бөлу.
K саны таңдалады және бірінші қадамда бұл нүктелер кластерлердің "орталықтары" болып саналады. Әрбір кластерге бір орталық сәйкес келеді. Бастапқы орталықтарды таңдау мынадай түрде жүзеге асырылуы мүмкін:
бастапқы қашықтықты максималдау үшін k-бақылауларды таңдау;
k-бақылауларды кездейсоқ таңдау;
алғашқы k-бақылауларды таңдау.
Нәтижесінде әрбір объект белгілі бір кластерге тағайындалған.
2. Итеративтік процесс.
Кластерлер орталықтары есептеледі, олар одан кейін және одан әрі үйлестірілген орта кластерлер болып саналады. Нысандар қайта бөлінеді. Орталықтарды есептеу және объектілерді қайта бөлу процесі шарттардың бірі орындалғанға дейін жалғасады:
кластерлік орталықтар тұрақтанды, яғни барлық бақылау ағымдағы итерацияға дейін тиесілі кластерге тиесілі.;
итерация саны ең көп Итерация санына тең .
2-сурет. Иерархиялық моделдегі байланыс
Қандай да бір программалау тілінде иерархиялық МҚ-ның құрылымын сипаттауға мәліметттердің «тармақ» типі қолданылады. Мәліметтердің «тармақ» типі ПЛ/1 және Си программалау тілдеріндегі «құрылым»-ға, және Паскаль тіліндегі «жазу»-ға ұқсас. «Тармақ» типі құрама болып табылады.
«Тармақ» типі өзіне ішкі типтерді (ішкі тармақты) қамтиды, оладың өздері де өз кезегінде «тармақ» типті болып табылады. Әрбір «тармақ» типтері «түбірлік» типтен және реттелген бағыныңқы (бос болуы да мүмкін) типтерден тұрады. «Тармақ» типіне кіретін элементарлық типтердің әрқайсысы қарапайым немесе құрама «жазу» типі болып табылады. Қарапайым жазу типі бір ғана типтен, ал құрама «жазу» типі қандай да бір типтердің жиынтығынан тұруы мүмкін. «Тармақ» типінің мысалы 3-суретте көрсетілген.
3-сурет. «Тармақ» типінің мысалы
Түбірлік тип дегеіміз ішкі типтері бар және өзі ішкі тип болып табылмайтын тип. Бағыныңқы тип (ішкі тип) аталық рольді атқаратын типке қатысты ұрпақ болып табылады. Бір типтің ұрпақтары бір-біріне қатысты егіздер болып есептеледі. Жалпы алғанда, «тармақ» типі иерархиялық ұйымдастырылған «жазу» типін береді.
Иерархиялық мәліметтер қоры «жазу» типті экземплярдан тұратын «тармақ» типті мәліметтердің экземплярының реттелген жиыны болып табылады. Типтердің арасындағы туыстық қатынас жазулардың арасындағы қатынасқа ауысады. Жазулар өрісі мәліметтер қорының негізгі мазмұнын құрайтын сандық немесе символдық мәндерді сақтайды. Иерархиялық мәліметтер қорындағы барлық элементтерді тексеру әдетте жоғарыдан төмен немесе солдан оңға қарай жүргізіледі.
Иерархиялық мәліметтер қорында келтірілген терминологиядан басқа да терминология қолданылуы мүмкін. Мысалы, IMS жүйесінде «жазу» ұғымын «сегмент», «МҚ-ның жазуы» ұғымын «тармақ» типінің бір экземплярына қатысты барлық жазулар жиынтығын түсінеміз.
Компьютер жадында иерархиялық мәліметтердің физикалық орналасуын ұйымдастыру үшін төмендегідей әдістер тобы қолданылады:
жадының тізбектеле үлестірілуі бойынша сызықтық тізіммен берілуі (адрестік арифметика, сол тізімдік құрылым);
байланысқан сызықтық тізіммен берілуі (көрсеткіштер мен анықтамалықтарды пайдаланатын әдіс).
Иерархиялық ұйымдастырылған мәліметтерді манипуляциялаудың негізгі операциялары:
МҚ-ның көрсетілген экземплярын іздеу;
бір тармақтан басқа тармаққа көшу;
тармақ ішінде бір жазудан басқа жазуға ауысу;
көрсетілген орынға жаңа жазуды қою;
ағымдағы жазуды өшіру және т.б.
Алдыңғы суретте келтірілген қордағы мәліметтерге мысал ретінде келесі 4- суретте көрсетіледі.
4-сурет. Иерархиялық қордағы мәліметтер
«Тармақ» типін анықтау сәйкестілігінен ұрпақ пен аталық арасында автоматты түрде тұтастылық байланысын бақылау орындалатынын тұжырымдауға болады. Тұтастылықты бақылаудың негізгі ережесі төмендегідей тұжырымдалады: ұрпақ аталықсыз болуы мүмкін емес, ал кейбір аталықтың ұрпағы болмауы мүмкін. Тұтастылық байланысын сүйемелдеу механизмі әртүрлі тармақтағы жазулардың арасында болмайды.
Мәліметтердің иерархиялық моделінің жетістігіне компьютер жадының тиімді пайдаланылуы мен мәліметтермен жасалатын негізгі операциялардың орындалу уақытының көрсеткіштері жатады.
Мәліметтердің иерархиялық моделі иерархиялық реттелген ақпараттармен жұмыс істеуге ыңғайлы болады.
Күрделі логикалық байланыстармен ақпаратты өңдеудің қиындығы иерархиялық модельдің кемшілігі болып табылады.
Мәліметтердің иерархиялық моделіне МҚБЖ-ң салыстырмалы түрде шектеулі ғана саны негізделген, олардың ішінен шетелдік IMS, PC/Focus, Team-Up және Data Edge және Ресейлік Ока, МИРИС және ИНЭС жатқызуға болады.
Жіктеудің иерархиялық әдісі – бұл бөлінетін бастапқы объектілерді ұқсас белгілері бойынша рет-ретімен жіктеу топтарына бөлу, ол жіктеу топтары өз кезегінде негізгі ұқсас белгілері бойынша топшаларға, түрлерге бөлінеді. Бұл жүйе бөлінетін объектілер арасындағы ұқсастықтарды да және айырмашылықтарды да көрсетеді.
Объектілерді иерархиялық жіктеуді келесі ретпен жүргізеді:
нақты міндеттерді шешу үшін жіктеуді қажет ететін көптеген объектілерді анықтайды;
осы анықталған объектілерді жіктейтін негізгі белгілері (қасиеттері, сипаттамалары, көрсеткіштері, параметрлері және т.б.) бөлінеді;
жіктеу белгілерінің, сатыларының және тереңдігінің оптимальды саны белгіленеді;
белгілері бойынша жіктеу реті, яғни бөлу деңгейі мен оның саны таңдалады.
Көбінесе келесі реттілікте жіктеледі: класс – подкласс – топ – топша – түр – түрше.
Иерархиялық жіктеуді құру кезіндегі күрделі сұрақтардың бірі бөлу негізі ретінде қолданылатын белгілер жүйесін таңдау және оның ретін анықтау болып табылады (яғни қандай белгілері бойынша жіктеу маңызды екенін анықтау).
Достарыңызбен бөлісу: |