3.1 Data Mining әдістері негізінде банк клиенттерінің төлем қабілеттілігін талдау әдістері және алгоритмі
Data Mining әдістері негізінде банк клиенттерінің төлем қабілеттілігін талдау әдісі ретінде үш математикалық модельді қолданамыз: логикалық регрессия (Logical regression), градиентті арттыру (Gradient boosting) және кездейсоқ орман (Random forest). Бұл тәсілдер банк клиенттерінің төлем қабілеттілігінің тәуекелдерінің факторларын басқаруға тиімді болып табылады (5 – сурет).
Сурет 5 Деректерді талдау әдістерінің алгоритмі
Дипломдық жоба барысында келесі мәндер қоолданылатын болады:
– объект;
– объектілер жиынтығы;
y – x объектісінің жауабы;
– шешімдер жиынтығы.
Объект деп – болжам жасалынататын нәрселерді айтамыз (біздің жұмыста, ол {клиент, оның жалақысы}). Объектілер жиынтығы деп – барлық болжамды қажет етуі мүмкін объектілер жиынтығы. Жобада ол барлық қос объектілердің жиынтығы: {клиент, оның жалақысы}, {клиент, оның жасы} және т.б.
Шешім ретінде болжауды мәндері болып табылады. Жоба барысында, клиент жалақысының мөлшері және басқа да несие тарихы бойынша талаптарға сәйкес келеді ме: ия не жоқ жауабы.
Объекті белгісі барлық объектілердің тізбегі болып табылады:
. (1)
Белгі дегеніміз объектіні сипаттайтын сан болып табылады. Мұндағы белгінің сипаттамасы d- векторлы.
Машиналық оқытудың орталық түсінігі ретінде . оқыту үлгісі болып табылады. Бұл жалпы заңдылыққа негізделген мысалдар. Оқыту таңдауын алу жеке тапсырма болып келеді. Болжам кейбір модель (алгоритм) негізінде бөлінеді, ол X кеңістігінен Y кеңістігіндегі функцияны білдіреді. Мұндай үлгінің мысалы сызықтық алгоритм болып табылады:
(2)
sign белгісінің операциясы кеңістік екі элементтен тұратынын білдіреді. Барлық алгоритмдер тапсырманы шешу үшін қолайлы бола бермейді. Мысалы, константалық алгоритмі жарамсыз. Бұл деректер қорына пайда әкелмейтін өте пайдасыз алгоритм.
Сондықтан алгоритмнің жұмыс сапасының кейбір сипаттамасы - қате функционалы енгізіледі. қате функциясы, яғни таңдауына алгоритмінің қатесі. Оқыту міндеті ең аз қатесі бар функционалына жеткен алгоритмін таңдаудан тұрады. Бұл мағынада ең жақсы алгоритм кейбір алгоритмдер топтамасынан таңдалады.
Осы жұмыста көрсетілген деректерді оқыту кезінде үш түрлі әдістер қарастырылады. Мұғаліммен оқытудың жалпы міндеті келесідей. Оқыту үлгісі үшін . қателіктің минималды функционалына қол жеткізілетін алгоритмін табу керек:
(3)
ықтимал жауаптарының көптігіне байланысты есептер бірнеше түріне тоқталамыз.
3.1.1 Сызықтық регриссия әдісі
Сызықтық регрессиялық модель тәуелді айнымалының мәнін әрдайым сапалы болжай алмайды. Модельді құру үшін сызықтық теңдеуді таңдап, біз табиғи түрде тәуелді айнымалы мәндеріне ешқандай шектеулер енгізбейміз. Мұндай шектеулер маңызды болуы мүмкін. Мысалы, жаңа ғимаратта лифт шахтасының оңтайлы ұзындығын жобалау кезінде бұл ұзындық ғимараттың жалпы биіктігінен аспауы керек.
Сызықтық регрессиялық модель шындыққа сәйкес келмейтін нәтижелер бере алады. Осы мәселелерді шешу мақсатында регрессия теңдеуінің түрін өзгерту және оны нақты есепті шешу үшін құру пайдалы.
Жалпы, регрессиялық модель логиті үздіксіз тәуелді айнымалы мәнін болжау есептерін шешуге арналған, бұл тәуелді айнымалы 0-ден 1-ге дейінгі аралықта мәндерді қабылдай алады.
Мұндай ерекшелікке байланысты, ол кейбір предикторлардың мәндеріне байланысты кейбір оқиғаның болу ықтималдығын болжау мақсатында жиі қолданылады.
Регрессия логитін бинарлы пікірді шешу үшін де қолдануға болады. Мұндай есептер тәуелді айнымалы тек екі мәнді қабылдай алатын кезде пайда болады.
Логистикалық регрессияның математикалық мәні. Сонымен, жоғарыда айтылғандай, регрессиялық модель логитінде тәуелді айнымалы немесе айнымалы жауап берудің болжамды мәндері 0-ден кем (немесе тең), немесе 1-ден көп (немесе тең) болуы мүмкін емес, тәуелсіз айнымалы мәндерге қарамастан; модель жиі екілік тәуелді айнымалы немесе айнымалы жауап талдау мақсатында қолданылады.
Бұл жағдайда регрессияның келесі теңдеуі қолданылады (логит термині бірінші рет Berkson, 1944 қолданылды):
(4)
Регрессиялық коэффициенттерге немесе шамаларына қарамастан, бұл модельдегі болжамды мәндер әрқашан 0-ден 1-ге дейінгі диапазонда жататынын көру оңай.
Логит термині бұл модель түрлендіру логиті арқылы оңай линеаризовать болды. Екілік тәуелді айнымалы y 0-ден 1-ге дейінгі диапазонда жатқан үздіксіз ықтималдығы деп болжаймыз. Сонда бұл ықтималдықты келесідей өзгертуге болады:
(5)
Бұл түрлендіру логит немесе логистикалық түрлендіру деп аталады.
, теориялық түрде минус бастап плюс шексіздік кез келген мәндерін қабылдай алатынын ескере кету керек. Логит түрлендіру бастапқы тәуелді айнымалы (ықтималдылық) үшін 0/1 шекара мәселесін шешетіндіктен, онда бұл (түрлендірілген логит) мәндерді регресияның әдеттегі сызықты теңдеуінде қолдануға болады.
Шын мәнінде, жоғарыда келтірілген регрессионды теңдеу логиті екі бөлікке түрлендіру логитін жүргізгенде, біз көптеген регрессияның стандартты сызықтық моделін аламыз:
(6)
Мұндай теңдеу бізге таныс болып келеді. Оны шеше отырып, біз регрессиялық коэффициенттердің мәнін табамыз, содан кейін ықтималдығын қалпына келтіруге болады.
Достарыңызбен бөлісу: |