Білім – адамзатпен жинақталған деректер, түсінік, ережелер, әдістер және т.б. принциптер жиыны
ретінде немесе ойлау қызметінің нәтижелер жиыны ретінде немесе хабардар жағдай ретінде
анықталатын ақпарат десек болады. Білім термині интелект ұғымымен тығыз байланысты. Білім
161
терминін деректер сөзімен шатастырмау керек. Мысалы, дәрігер деректер – тексеру нәтижесі мен
білімін пайдалана отырып емделушіні емдейді. Білім ұғымын берудің жалпы сұлбасы:
Ойдың бейнесі
Жазу (символдар, мәтін, кескін)
компьютерде сақтау
Сандық ақпараттарды жинаудың заманауи әдістері мен оны сақтау технологиясының дамуына
үлкен (Деректер қоры) ДҚ-ның тез таралуына әкелді. Бұл адамзат қызметінің барлық салаларында,
дәстүрлі салалардан (мысалы, кредиттік карточкамен сатып алулар туралы жазбалар, телефон
қоңыраулары туралы ақпарат; тұрғындар туралы статистикалық деректері) бастап экзотикалық
(мысалы, астрономиялық денелер кескіні, молекулалық ДҚ және медициналық құжаттамалар)
салаларға дейін пайда болды. ДҚ-н пайдаланушылар үшін маңызды мәні болуы мүмкін деректерді
жүйелендіру мүмкіндіктерін оқуға және одан ақпарат алуға қызығушылығы арта түсті. Осындай
зерттеулермен байланысты сала (
ағылш
. Data Mining – деректерді интелектуалды талдау, DM)
атымен белгілі болды. DM
үлкен ДҚ-нан болжамдық ақпараттарды генерациялау және автоматты
түрде шығару үрдісін орындауды білдіреді. Ол пайдаланушыларға бір уақытта пайдалы және
түсінікті болатын, бұрын белгісіз ара қатынастағы айқын емес деректерді табу мақсатында
бақылаулар, деректер жиынын әдістерін талдауды қамтиды. DM көмегімен алынған қатынастар мен
деректер үшін
модель
және
шаблон
(
прототип
) терминдері жиі пайдаланылады. Бұл сызықты
теңдеулер, ережелер, кластерлер, графиктер, ағаш тәрізді құрылымдар мен уақыттық қатарлардағы
тізбектей қайталанатын шаблондар (мысалы, ауа температурасы мен ылғалдылығының сехзондық
өзгеруі) болуы мүмкін. DM саласы қандай да бір басқа мақсатпен (мысалы, олар клиенттердің
банктық операциялар тарихын сақтау үшін жинақталған болуы ықтимал) бұрын жиналған
деректермен жұмыс істейді. Бұл DM мәселелері деректерді жинау стратегиясында ешқандай рөл
атқармайтынын білдіреді. Әрі бұл нақты сұрақтарға жауап беру үшін тиімді стратегиялардың
көмегімен деректер жинаумен айналысатын көптеген статистикалық зерттеулерден DM-нің
айырмашылығын білдіреді. DM-ды KDD (
ағылш
. Knowledge Discovery in Databases – Деректер
қорында білімді анықтау) деп аталатын үлкен ДҚ-нда кездейсоқ сақталған немесе айқын емес
білімдерді беретін шаблондарды автоматты немесе ыңғайлы тәсілдер ретінде шығарумен сипататуға
болады. Олар деректер сақтау қоймасында, интернетте немесе деректер ағынында миллиондаған
жолдардан тұруы мүмкін. Мысалы деректер сақтау қоймасындағы (
ағылш
. DataWarehouse –
деректерді сақтау қоймасы, DWH) DM орны 6.1-суретте көрсетілген. Мұнда «деректер қоймасы»
термині үлкен деректер қоймасын өңдеу мен сақтау жүйелерін толық ашып көрсетпейді [1].
1-сурет. Деректер қоймасы архиитектурасындағы DM
162
Оқырмандар (ДҚ жүйесінің құрылымымен таныс) деректер қоймасы архитектурасының Data
Mining, Талдау (KDD бөлігі ретінде), OLAP, OLTP, сондай-ақ DWH немесе Marts (кәсіпорынның
әртүрі қызметтеріне арналған серверлер жиынтығы) серверлері енетін дәстүрлі ДҚ жүйесінің
архитектурасынан негізгі айырмашылықтарын тануы мүмкін. Сонымен қатар, әдетте деректер
қоймаларында келіп түскен деректерді алдын ала өңдейтін модульдер болады [2].
Терминдер тарихы туралы қысқаша мағлұмат айта кетейік.
Григорий Питетский-Шапиро осы
тақырып бойынша өткен бірінші семинарда (KDD-1989) ең алғаш рет «Knowledge Discovery in
Databases» терминін енгізді және бұл термин ЖИ-ті зерттеу және машиналық үйрену
қауымдастықтарында пайдаланыла бастады. Дегенмен, бизнес және медиялық қауымдастықтарда
Data Mining (1990) термині кең таралды. Қазіргі кезде Data Mining және KDD терминдері синоним
ретінде пайдаланылады. Шамамен 2007 жылдан бастап «Predictive Analytics» және 2011 жылдан
бастап «Data Science» терминдері осы бағыттағы ғылымдарды белгілеу үшін пайдаланыла бастады.
Біз DM-ды ДҚ-ндағы білімдерді айқындаудың әртүрлі әдістерінің алгоритмдеріне байланысты KDD
үрдісінің бір бөлімі деп нақты айта аламыз, сондай-ақ, бұл шешім қабылдауды қолдау, болжау, алдын
ала айту, бағалау, бейнені тану секілді проблемаларды зерттеуге арналған (статистикалық және
математикалық әдістермен ұштастыратын) құрал. Деректерді талдаудың міндеттері мен модельдеріне
тоқталайық. DM зерттеу жүргізуге қажетті көптеген әртүрлі алгоритмдерді қамтиды. Талдауға
кіріспес бұрын, деректер өңдеудің сәйкес
болжайтындай
(predictive) немесе
сипаттайтындай
(descriptive) болып келетін моделін таңдау қажет. 2-суретте осы типтерге қатысты жиі қолданылатын
DM мәселелері көрсетілген.
2-сурет. DM модельдері және олардың негізгі мәселелері.
Болжайтын модель
(predictive models)
деректердің
басқа (үйреткіш) іріктеуінің белгілі нәтижелерін
пайдалану жолымен деректер мәнін болжауға мүмкіндік беретін модель. Бұл модельдерге [3.4]:
-
жіктеу
Достарыңызбен бөлісу: