банкінен деректерді топтастыруға мүмкіндік береді. Класстар деректерді оқығанға немесе зерттегенге
дейін анықталады. Мәселелерді жіктеу бұрыннан белгілі деректерді сараптап, талдап қана қоймай,
алдағы уақытта анықталатын таңдамалы деректерді де талдауға мүмкіндік береді. Мысалы,
материалдық шығындардың алдын алу үшін кредиттік карточкалармен төлем жүргізу кезіндегі
алаяқтарды анықтау немесе жұмысшының жоба аяқталмастан ұйымнан шығып кету
ықтималдылығын бағалау – жіктеу әдісін пайдалана отырып шешуге болатын қандай да бір
(regression) зерттеліп отырған атрибуттардың қазіргі және осыған дейінгі мәндерін
қолданып, алдағы уақыттағы мәнін болжауға мүмкіндік беретін статистикалық әдістердің бірі болып
табылады. Регрессияның негізгі міндеті деректердің мәндері арасындағы тәуелділікті анықтау және
сол тәуелділіктің математикалық формуласын құру. Осы формуланы пайдаланып есептелінген
нәтиже бар немесе өткізіліп жіберілген деректердің болашақ мәндерін болжауға мүмкіндік береді.
163
Регрессияның басты кемшілігі – бұл әдіс тек сандық деректер үшін қолданылады, мысалы,
жылдамдық немесе салмақты пайдалана отырып, болашақтағы дененің әрекетін сипаттауға болады;
-
уақытша қатарлар талдауы
(time series analysis)
уақытқа тәуелді ағымдық уақыттағы және
бұрынғы іріктеліп алынған деректер жиынтығын пайдаланып зерттелетін үрдістің болашақ мәнін
болжауды зерттейін DM бөлігі. Уақытша қатарларды талдауға арналған пайдаланатын мәндер, әдетте
сағат, күндер, апталар, айлар, жылдар т.с.с. бойынша бірқалыпты үлестірілген. Зерттеуші уақытша
қатар бөлігінде нақты уақыт аралығындағы сандық өзгерістерді визуализациялау үшін график сыза
алады. белгілі бір уакыт аралығында әртүрлі компаниялар үшін қор нарығында тенденцияларды
меңгеру үшін уақытша қатарлар талдауын пайдалануға болады және сәйкес инвестицияны жасауға
болады. Дербес жағдайда, өткен ғасырдың 80-жылдарында бұл әдісті регрессиялық талдаумен
үйлестіріліп егістіктегі өнімді алдын-ала ертерек болжау үшін (наурыз-сәуір айларындағы қар
қалыңдығы жөніндегі спутниктік деректерді пайдаланып ) және алдын ала жасалынатын
шарттардағы астық бағасын болжау арқылы АҚШ-тағы астық өндірушілеріне үлкен пайда алып
келді.
Сипаттайтын модельдің
(descriptive model) негізгі мәселелеріне жиналған үлгілердегі, деректер
жиынындағы шаблондар (pattern) мен қатынасты табу жатады.
Кластерлеу
(clustering) берілген деректер жиынтығындағы заңдылықтарды, шаблондар мен
мәндердің арасындағы өзара байланысты зерттеуге негізделген жаңа кластар және топтарды құруға
мүмкіндік беретін қандай да бір мағынада жіктеуге келетін деректерді өңдеу. Ол жіктеуге ұқсас
болады, бірақ алдын ала топтарды немесе кластарды анықтауды қажет етпейді. Кластерлеу ғылыми
әдебиетте өзін-өзі үйрету немесе сегментация (unsupervised learning or segmentation) ретінде белгілі.
Кластерлеу кезінде деректердің бір-біріне ұқсас келетін барлық нұсқалары кластер деп аталатын бір
топқа жиналады. Мысал ретінде бірдей өнімді шығаратын кәсіпорын топтарын; бірдей қасиетке ие
өнімдер; бірдей талғамға ие адамдар топтарын алуға болады және т.б.
Жинақтылығы немесе жалпыламалылығы
(summarization / generalization)
Web-беттерінде немесе
құжатта орналасқан деректер бөліктерін кіші көлемді қамтитын құжатқа қосуға мүмкіндік беретін
әдістер. Басты идея, бүкіл жиынтықтың басты ақпаратын қамтитын, деректердің көрнекті бөліктерін
табудан тұрады. Мысал ретінде оның негізгі күйін, түйін сөздерін қамтитын үлкен мақаланың
аңдатпасын қарастыруға болады. Жинақтылық технологиясы бүгінде өндірістің көптеген
секторларында пайдаланылады. Тағы бір мысал ретінде осы технологияның Google тәрізді іздеу
жүйелерінде пайдаланылуын жатқызуға болады. Басқа мысалдарға видео материалдар немесе
суреттер топтамасының мазмұндарын жалпылау жатады. Жинақталған құрама деректерді зерттеу
бүкіл Web-парақты немесе бүкіл құжатты анықтауға мүмкіндік береді. Осылайша, жинақтылықты
басты сипаттамаларды анықтау немесе үлкен деректер жиынтығын қорытындылау ретінде де
түсінуге болады.
Ассоциация ережесі
(Association rules)
анықталған белгілер және сипаттамаларға негізделіп
жүйелендірілмеген деректер тобының арасындағы қарым қатынасты және белгіні тағайындауға
мүмкіндік береді. Бұл әдіс деректер элементтерінің арасындағы кейбір ассоциативті ережені
анықтауға көмектеседі, содан кейін осы ережелер қарым қатынастарды орнатуға пайдаланады,
мысалы, үлкен және реттелмеген деректер банкісінде болуы мүмкін реттіліктің типтік бейнесін
айқындауда пайдаланылады. Банкте реттіліктің пайда болуы кезінде уақыт факторы есепке алынады,
яғни деректер тобының арасындағы байланыс олар алынған уақытқа сәйкес келеді. Мысалы,
қауіпсіздік ұйымдарына оқиғаның сипатына байланысты реттілігін зерттеу және талдау, сонымен
қатар, полиция қызметкерлеріне қылмыстарды ашуға және олардың болашақта қайталануын
болдыртпауға көмектеседі. Осыған ұқсас, ерекше және белгісіз аурулардың пайда болуы, нақты
мезгілге байланысты келеді. Осындай зерттеулер биологтарға профилактикалық препараттарды
ойлап табу және алдын-алу щараларды ұсыну кезінде көмектеседі.
Достарыңызбен бөлісу: