1 Data Mining технологияларына жалпы сипаттама
1.1 Data Mining негізгі түсініктері
Деректерді интеллектуалды талдау көбіне корпоративтік деректер қорында және деректер қоймаларында сақталатын деректердің ауқымды көлемін іздеу жолымен заңдылықтардың, үрдістердің немесе өзара байланыстардың корреляциясын анықтау процесі ретінде сипатталады. Қазіргі кезде ақпараттық талдаушылар үшін де қиын болып табылатын деректер байланысы бар, себебі деректер көлемі күннен күнге көбеюде және ауқымды көлемдегі ақпаратты талдауды елестетудің өзі қиыншылық тудырады.
Адамдар, осындай тұрғыда, ақпараттық жүктемеге шектеулі болып келеді; осылайша, жаңа технологиялардың көмегімен автоматтандыру арқылы осы мәселені шешу үшін жаңа құралдар мен әдістер әзірленеді
Data Mining деректер қорындағы деректерді басқаратын қатынастарды, ықтимал ережелерді немесе деректерді анықтау үшін бейнелерді қолдану, статистикалық және математикалық әдістерді тану технологияларын пайдаланады.
Деректерді интеллектуалды талдау, сондай-ақ мақсаттар мен міндеттерді анықтауды талап ететін итерациялық процесс ретінде қарастырылуы тиіс.
Көзделген мақсаттар толық анықталғаннан кейін қандай деректер қол жетімді немесе жиналуы мүмкін екенін анықтау қажет. Кейде керекті мәлімет деректер қорында қол жетімді, бірақ оны пайдалану алдында оны ақпаратқа түрлендіру мақсатында кейбір сүзгілеу орындалады.
Сонымен қатар Data Mining іске асыру әдіснамасын да қамтиды. Әдіснама, немесе құрылымдалған тәсіл, әдетте жеткізушіден жеткізушіге өзгереді. SAS институты, мысалы, SEMMA (sample, explore, modify, model and access) әдіснамасын шығарды. Тағы SPSS, Inc корпорациясы ұсынған CRISP-DM әдістемесі бар. Әрбір әдістеме өз қажеттіліктерін қанағаттандыру мақсатында барынша жедел ақпаратпен қамтамасыз ету үшін пайдаланушыларға ең қажетті мәліметтерді алуға көмектесуге бағытталған.
Эффективті шешімдер қандай да бір сәйкес нақты және ағымдағы ақпаратқа негізделгені жаңалық емес.
Шешім қабылдау үшін нақты деректерді іздеудің эволюциясы мен дамуы 30 жыл бұрын басталды және ол даму эволюциясының бірнеше кезеңінен өтті (1 - сурет).
Сурет 1 Data Mining даму кезеңдері
Деректерді интеллектуалды талдаудың эволюциялық кезеңдері келесідей:
- Data Collection – деректерді жинау. 1960-жылдардың соңында алдын ала форматталған ақпарат туралы қарапайым есептер деректер қорында сақталған деректерден жасалды. Бұл деректер қоры мәліметтерді сақтады, ал қосымшалар шешім қабылдаудың нақты қажеттіліктерін қанағаттандыру мақсатында ақпаратты қамтитын құрылымдалған есептерді алу үшін оларды алып, манипуляция жасады.
- Data Access – деректерге кіру.1980-ші жылдары қолданушылар ақпаратты жиі алғысы келе бастады және ол деректер жеке түрде болғанын қалады.Осылайша, олар деректер қорынан сұраныс (query) немесе ақпараттық сұраныс (information query) жасай бастады. Олар төмен деңгейдегі құрылымдық есептердегі арнайы ақпараттарды алу мақсатында орындалдыӘдетте, жүйе әзірлеушілері мұндай сұраныстарды (query) жүйені әзірлеу кезінде анықтайды және оларды жүйеге енгізеді.
- Data Queries – деректер сұраныстары. Кейінірек, 1990-ші жылдары кез келген үстірт сұрақтарға жауап алу үшін тез арада құрылымдалған ақпараттқа қол жеткізу талап етілді. Олар ақпараттың өндіріспен және шешім қабылдау үдерістерімен байланысы үшін «дәлме дәл уақытында» болғанын қалайды. Бұл дегеніміз, пайдаланушылардың барлық ақпараттық қажеттіліктері жүйеде алдын ала программалануы мүмкін емес. Осы кезеңде қолданушылар деректер қорынан өздеріне қажетті ақпаратты алу мақсатында өз сұраныстарын жаза бастады.
- Data Mining – деректерді интеллектуалды талдау.Соңғы бірнеше жылда қолданушылар олардың қосымшаларындағы алынған ақпарат неғұрлым маңызды болуы үшін деректердің өзара байланысын анықтау және іздеу мақсатымен көптеген құралдар мен әдістерді пайдалану қажет екенін түсіне бастады. Кәсіпорындарда деректердің ауқымды көлемі жинақтала бастағанына қарай олар осы ақпараттын барлығын сұрыптау және өз деректерге деген қажеттілігін қанағаттандыру мақсатында жаңа құралдарға дәрмен болуда. Осындай құралдар жүйеге ақырғы пайдаланушылардың тікелей қосылуынсыз деректердің ықтимал жасырын байланыстарын іздестіруге мүмкіндік береді.
Деректерді интеллектуалды талдау құралдары алғаш рет ғалымдарға дәстүрлі тәсілмен жасалған, уақыт пен іздеу үшін көп ресурстарды қажет ететін деректердің үлкен көлемдерінен маңызды байланыстар немесе үлгілер табуға көмектесу мақсатында әзірленген. Келесі қадам ретінде маңызды қолданбалар үшін осындай құралдарды іс жүзінде қолдану болып табылады.
Data Mining – үлкен деректер қорында жасырын, рұқсат етілген және ықтимал пайдалы үлгілерді іздеу. Data Mining – бұл деректер арасындағы күтпеген/бұрын белгісіз болған байланыстарды анықтау үшін қажет. Деректерді интеллектуалды талдау машиналық оқытуды, статистиканы, жасанды интеллект пен деректер қорының технологиясын пайдаланатын мультидисциплинарлық дағды.
Data Mining арқылы алынған инсайттар маркетинг, алаяқтықты, ғылыми жаңалықтарды және т. б. деректерді анықтау мақсатында қолданылуы мүмкін.
Data Mining білімде жаңалық ашу, белгілі бір білім алу, деректерді/паттерлерді талдау, ақпаратты жинау және т. б. деп аталады.
Data Mining келесідей деректер түрлерінде орындалуы мүмкін:
Реляциялық деректер базасы;
Деректер қоймасы;
Кеңейтілген деректер қоры және ақпараттық қоймалар;
Объектілі-бағытталған және объектілі-реляциялық деректер базасы;
Транзакциялық және кеңістіктік деректер қоры;
Гетерогенді және ескірген деректер қоры;
Мультимедиа және деректер ағындары;
Мәтіндік деректер базасы;
Мәтінді интеллектуалды талдау және веб-талдау.
Достарыңызбен бөлісу: |