162
Оқырмандар (ДҚ жүйесінің құрылымымен таныс) деректер қоймасы архитектурасының Data
Mining, Талдау (KDD бөлігі ретінде), OLAP, OLTP, сондай-ақ DWH немесе Marts (кәсіпорынның
әртүрі қызметтеріне арналған серверлер жиынтығы) серверлері енетін дәстүрлі ДҚ жүйесінің
архитектурасынан негізгі айырмашылықтарын тануы мүмкін. Сонымен қатар, әдетте деректер
қоймаларында келіп түскен деректерді алдын ала өңдейтін модульдер болады [2].
Терминдер тарихы туралы қысқаша мағлұмат айта кетейік.
Григорий Питетский-Шапиро осы
тақырып бойынша өткен бірінші семинарда (KDD-1989) ең алғаш рет «Knowledge Discovery in
Databases» терминін енгізді және бұл термин ЖИ-ті зерттеу және машиналық үйрену
қауымдастықтарында пайдаланыла бастады. Дегенмен, бизнес және медиялық қауымдастықтарда
Data Mining (1990) термині кең таралды. Қазіргі кезде Data Mining және KDD терминдері синоним
ретінде пайдаланылады. Шамамен 2007 жылдан бастап «Predictive Analytics» және 2011 жылдан
бастап «Data Science» терминдері осы бағыттағы ғылымдарды белгілеу үшін пайдаланыла бастады.
Біз DM-ды ДҚ-ндағы білімдерді айқындаудың әртүрлі әдістерінің алгоритмдеріне байланысты KDD
үрдісінің бір бөлімі деп нақты айта аламыз, сондай-ақ, бұл шешім қабылдауды қолдау, болжау, алдын
ала айту, бағалау, бейнені тану секілді проблемаларды зерттеуге арналған (статистикалық және
математикалық әдістермен ұштастыратын) құрал. Деректерді талдаудың міндеттері мен модельдеріне
тоқталайық. DM зерттеу жүргізуге қажетті көптеген әртүрлі алгоритмдерді қамтиды. Талдауға
кіріспес бұрын, деректер өңдеудің сәйкес
болжайтындай
(predictive) немесе
сипаттайтындай
(descriptive) болып келетін моделін таңдау қажет. 2-суретте осы типтерге қатысты жиі қолданылатын
DM мәселелері көрсетілген.
2-сурет. DM модельдері және олардың негізгі мәселелері.
Болжайтын модель
(predictive models)
деректердің
басқа (үйреткіш) іріктеуінің белгілі нәтижелерін
пайдалану жолымен деректер мәнін болжауға мүмкіндік беретін модель. Бұл модельдерге [3.4]:
-
жіктеу
Достарыңызбен бөлісу: