Деректердің үлкен көлемін өңдеу туралы айтатын болсақ, сіз деректер тау-кен терминін қолданасыз, бұл деректердің көп екенін білдіреді.
Data Mining-бұл деректерден жасырын үлгілерді (ақпарат үлгілерін) іздеуге негізделген шешім қабылдауды қолдау процесі. Бұл үлкен көлемдегі деректерді айқын емес, объективті және тәжірибеде пайдалы заңдылықтарды іздеуге арналған технология.
Тапсырмалар (тапсырмалар) Data Mining кейде заңдылықтар (реттілік) немесе техника (техника) деп аталады. Data Mining-тің негізгі міндеттеріне мыналар жатады: жіктеу, кластерлеу, болжау, ассоциация, визуализация, ауытқуларды талдау және анықтау, бағалау, байланыстарды талдау, қорытындылау.
Data Mining әдістері мен алгоритмдері:
шектеу әдісі, эволюциялық бағдарламалау және генетикалық Алгоритмдер, деректерді визуализациялаудың әртүрлі әдістері және басқа да көптеген әдістер.
Data Mining екі немесе үш кезеңнен тұруы мүмкін:
1 кезең. Үлгілерді анықтау (еркін Іздеу).
2 кезең. Белгісіз мәндерді болжау үшін анықталған заңдылықтарды қолдану (болжамды модельдеу).
3 кезең. Ерекшеліктерді талдау-бұл заңдылықтарда кездесетін ауытқуларды анықтауға және түсіндіруге арналған кезең.
Data Mining құралдарын визуализациялау.
Data Mining алгоритмдерінің әрқайсысы визуализацияға белгілі бір тәсілді қолданады. Data Mining әдістерінің әрқайсысын, дәлірек айтқанда, оның бағдарламалық жасақтамасын қолдану барысында біз тиісті әдістер мен алгоритмдердің жұмысы нәтижесінде алынған нәтижелерді түсіндіруге болатын визуализаторлар болып табыламыз.
Шешім ағаштары үшін мұндай визуализатор шешім ағашы, ережелер тізімі, конъюгация кестесі болып табылады.
Нейрондық желілер үшін құралға байланысты бұл желі топологиясы, оқу процесін көрсететін қателік шамасының өзгеру графигі болуы мүмкін. Кохонен карталары үшін: кіру, шығу карталары, басқа арнайы карталар.
Сызықтық регрессия үшін регрессия сызығы визуализатор ретінде әрекет етеді.
Кластерлеу үшін: дендрограммалар, дисперсиялық диаграммалар.
Дисперсиялық диаграммалар мен графиктер көбінесе белгілі бір әдістің жұмыс сапасын бағалау үшін қолданылады.
Деректерді визуалды түрде көрсетудің немесе көрсетудің барлық әдістері функциялардың бірін орындай алады:
модельді құрудың иллюстрациясы (мысалы, нейрондық желінің құрылымын (графигін) бейнелеу);
алынған нәтижені түсіндіруге көмектеседі;
өнім салынған модельдің сапасын бағалау құралы болып табылады;
жоғарыда аталған функцияларды біріктіріңіз (шешім ағашы, дендрограмма).
Data Mining технологиясын қолданбас бұрын, оның мәселелерін, шектеулерін және онымен байланысты маңызды мәселелерді мұқият талдап, технологияның не істей алмайтынын түсіну керек.
Data Mining аналитикті алмастыра алмайды!
Технология қойылмаған сұрақтарға жауап бере алмайды. Ол аналитикті алмастыра алмайды, тек оның жұмысын жеңілдету және жақсарту үшін қуатты құрал береді.
Data Mining қосымшасын әзірлеу мен пайдаланудың күрделілігі
Бұл технология көп салалы сала болғандықтан, Data Mining кіретін қосымшаны әзірлеу үшін әр түрлі саладағы мамандарды тарту, сондай-ақ олардың сапалы өзара әрекеттесуін қамтамасыз ету қажет.