Business understanding – бизнесті түсіну. Бұл кезеңде бизнесті жүргізу және деректерді интеллектуалды талдау мақсаттары белгіленеді (2 – сурет).
Сурет 2 Data Mining енгізу процестері
Біріншіден, сіз бизнес пен клиенттің мақсаттарын түсіну қажет. Ағымдағы деректерді талдау сценарийі талданады. Бағалау ресурстарды, болжамдар, шектеулер және басқа да маңызды факторлар ескеріледі.
Бизнес мақсаттарды және ағымдағы сценарийді пайдалана отырып, Data Mining мақсаттары анықталады.
Деректерді интеллектуалды талдаудың жақсы жоспары егжей-тегжейлі және бизнес мақсаттарға, Data Mining талдаудың мақсаттарына қол жеткізу үшін әзірленуі тиіс.
Data understanding – деректерді түсіну. Бұл кезеңде деректерді интеллектуалды талдау мақсаттарына сәйкестігін тексеру үшін деректердің жұмысқа қабілеттілігін тексеру жүргізіледі.
Біріншіден, деректер ұйымда қол жетімді бірнеше деректер көздерінен жиналады. Бұл деректер көздері бірнеше деректер базасын, жалпақ файл немесе деректер текшесін қамтуы мүмкін. Деректерді интеграциялау процесінде туындауы мүмкін объектілерді салыстыру және схемаларды интеграциялау секілді мәселелер бар. Бұл өте күрделі процесс, себебі әр түрлі көздерден алынған деректерді сәйкестендіру оңай емес. Мысалы, А кестесі cust_no атты мәннен тұрады, ал басқа B кестесі cust-id атты мәннен тұрады.
Сондықтан осы екі объектінің бірдей мағынаға жататынына немесе болмайтынына кепілдік беру өте қиын. Мұнда метадеректер деректерді интеграциялау процесінде қателерді азайту мақсатында қолдану тиіс.
Одан әрі алынған деректердің қасиеттерін іздеген жөн. Мәліметтерді зерделеудің жақсы тәсілі – сұрау, есептілік және визуализация құралдарының көмегімен Data Mining мәселелеріне жауап беру.
Сұраныс нәтижелерінің негізінде деректердің сапасы белгіленуі тиіс. Жетіспейтін деректер бар болса алынуы тиіс.
Data preparation – деректерді дайындау. Бұл кезеңде деректер өндіріске дайындалады.Деректерді дайындау процесі жоба уақытының шамамен 90% алады. Әртүрлі көздерден алынған деректер іріктелуі, тазартылуы, түрлендірілуі, пішімделуі, иесіздендірілуі және құрастырылуы тиіс (егер бұл қажет болса).
Деректерді тазалау – бұл шуды тегістеу және жіберілген мәндерді толтыру арқылы «деректерді тазалау» процесі.
Мысалы, клиенттің демографиялық профилі үшін жас туралы деректер жоқ. Бұл деректер толық емес және толтырылуы тиіс. Кейбір жағдайларда қате деректер шығарылуы мүмкін. Мысалы, адаамның жасы 300, яғни деректер қарама-қайшы болады. Мысалы, клиенттің аты әртүрлі кестелерде әр түрлі кездесуі мүмкін.
Деректерді түрлендіру операциялары деректерді интеллектуалды деректер талдауында пайдалы ету мақсатында деректерді өзгертеді. Келесі түрлендіруді қолдануға болады.
Data transformation – деректерді түрлендіру. Деректерді түрлендіру операциялары деректерді интеллектуалды талдау процесін табысты орындауға мүмкіндік береді.
Тегістеу: бұл деректердегі шуды жоюға көмектеседі.
Агрегация: деректерге қосу немесе біріктіру операциялары қолданылады. Яғни, сату туралы апта сайынғы деректер ай сайынғы және жылдық қорытындыны есептеу үшін біріктіріледі.
Жалпылау: бұл кезеңде төменгі деңгейлі деректер ұғымдардың иерархиясы арқылы неғұрлым жоғары деңгейдегі ұғымдармен ауыстырылады. Мысалы, қала ауданмен ауыстырылады.
Қалпына келтіру: қалпына келтіру атрибутивті деректер жоғары немесе төмен масштабталғанда орындалады. Мысалы: деректер нормалаудан кейін – 2.0-ден 2.0-ге дейінгі диапазонда болуы тиіс.
Атрибуттарды құру: бұл атрибуттар Data Mining үшін пайдалы атрибуттардың берілген жиынтығын қамтиды.
Бұл процестің нәтижесі – модельдеуде қолданылатын ақырғы деректердің жиынтығы.
Modelling – дерктерді модельдеуші. Бұл кезеңде деректер құрылымын анықтау үшін математикалық модельдер қолданылады.
Бизнес-мақсаттарға сүйене отырып, дайындалған деректер жиынтығы үшін модельдеудің қолайлы әдістерін таңдау керек.
Үлгінің сапасы мен валидтілігін тексеру үшін тестілеу сценарийі жасалады
Модельді дайындалған деректер жиынтығында іске қосылады.
Модель деректерді интеллектуалды талдау мақсаттарына сәйкес келетініне көз жеткізу мақсатында нәтижелерді барлық мүдделі тараптар бағалауы тиіс.
Evaluation - деректерді бағалау:
Осы кезеңде анықталған заңдылықтар бизнес-мақсаттарға сәйкес бағаланады.
Деректерді интеллектуалды талдау моделі арқылы алынған нәтижелер бизнес мақсаттарына сәйкес бағалануы тиіс.
Бизнес-түсінік алу – бұл итеративті процесс. Шын мәнінде, түсінуге қарамастан, жаңа бизнес-талаптар деректерді интеллектуалды талдау салдарынан артуы мүмкін.
Модельді өрістету кезеңінде жылжыту үшін одан ауысу немесе бас тарту туралы шешім қабылданады.
Deployment – деректерді ашу. Data Mining өрістету кезеңінде күнделіктегі бизнес операцияларда жаңалықтар ашуда.
Data Mining процесінде анықталған білім немесе ақпарат техникалық емес мүдделі тараптар үшін оңай, әрі түсінікті болуы керек.
Мәліметтерді жеткізу, қызмет көрсету және болжауды мониторингілеу үшін құрылымдық өрістету жоспары жасалады.
Жоба бойынша түпкілікті есеп алынған сабақ пен жобаны іске асыру барысында жинақталған негізгі тәжірибені ескере отырып жасалады. Бұл кәсіпорынның іскерлік саясатын жақсартуға көмектеседі.
Осы кезеңнің міндеттері:
Өрістетуді жоспарлау (сіздің интеллектуалды деректер талдауын пайдалану арқылы интеграциялау әдістері)
Түпкілікті нәтижелер туралы есеп
Қорытынды нәтижелерге шолу
Достарыңызбен бөлісу: |