Data Mining технологияларына жалпы сипаттама Data Mining негізгі түсініктері



бет13/16
Дата13.05.2020
өлшемі1,52 Mb.
#67919
1   ...   8   9   10   11   12   13   14   15   16
Байланысты:
Негізгі бөлім

3.3 Градиентті бустинг


Қарапайым алгоритмдердің композициялары. Кездейсоқ ормандардың неге барлық міндеттерге сай еместігін айта кетелік.



Кездейсоқ орманның кемшіліктері

Кездейсоқ орман – бір-біріне тәуелсіз түрде салынып жатқан терең ағаштардың композициясы. Бірақ мұндай тәсілде келесідей мәселе бар. Терең ағаштарды оқыту өте көп есептеу ресурстарын талап етеді, әсіресе үлкен көлемді таңдау немесе белгілер көп болған жағдайда.



Егер кездейсоқ ормандағы шешуші ағаштардың тереңдігін шектесе, онда олар деректерде күрделі заңдылықтарды ұстай алмайды. Бұл жылжыту олар үшін тым үлкен болады (7 – сурет).

Сурет 7 Терең емес ағаштардағы деректер регриссиясы
Терең емес ағаштар мәліметтердің барлық заңдылықтарын ұстай алмайды. Бұл жағдайда көк түсті класс екі объектіден тұрады, бірақ терең емес ағаш тек орталық топты аулай алды. Екінші топтағы нысандарда мұндай ағаш қателеседі.

Кездейсоқ ормандағы (random forest) екінші мәселе – ағаштар салу процесі бағытталмаған: композициядағы әрбір келесі ағаш алдыңғы ағашқа байланысты емес. Осыған байланысты күрделі міндеттерді шешу үшін көптеген ағаштар қажет болады. Бұл мәселені бустинг деп аталатын тәсіл арқылы шешуге болады.

Ансамбль – бұл жауап беретін болжаушылар жиынтығы (мысалы, барлығы орташа болса). Неге біз ансамбльдерді пайдаланамыз, себебі бір айнымалыны алуға тырысатын бірнеше болжамдар, жалғыз болжағышқа қарағанда дәл нәтиже береді. Ансамбльдеу техникасы кейіннен Бэгггинг пен Бустингте жіктеледі.

Бұл техника келесі модель алдыңғы қателерге үйренеді деген идеяны пайдаланады. Олар келесі үлгілерде пайда болудың тең емес ықтималдығына ие және көбінесе ең көп қате беретін деректер пайда болады. Болжамдар модельдердің кең ассортиментінен, мысалы, шешім ағаштары, регрессия, классификаторлар және т. б. әдістерінде таңдалуы мүмкін. Бірақ біз тоқтау критерийін сақтықпен таңдауымыз керек, әйтпесе бұл қайта оқуға әкелуі мүмкін. Градиент бустинг-бұл бустинг әдісінің үлгісі.

Градиентті бустинг – бұл жіктеу және регрессия есептері үшін машиналық оқыту техникасы,ол ансамбль түрінде болжау моделін жасайды.

Бустинг – бұл композицияны құру тәсілі, оның аясында:



  • базалық алгоритмдер кезек бойынша құрылады;

  • әрбір келесі алгоритм тұрғызылып қойған композицияның қателерін түзету үшін құрылады.

Бустингте композицияларды құру «бағытталған» болғандықтан, қарапайым алгоритмдерді қолдану жеткілікті, мысалы, терең емес ағаштар. Градиентті бустинг бүгінгі таңда композицияны құруға бағытталған ең жақсы тәсілдердің бірі болып табылады. Градиентті бустингте салынып жатқан композиция:

(10)

базалық алгоритмдерін орта мәні емес, олардың қосындысы болып табылады. Бұл алгоритмдер жүйелі түрде оқып, келесі әрбір алдыңғы қателерді түзетеді.

шығын функциясы берілсін, мұнда -шынайы жауап, -кейбір объектідегі алгоритмнің болжамы. Ықтимал шығындар функцияларының мысалдары:

  • орташа квадраттық қате (регрессия есебіндегі):

(11)

  • шығындардың логистикалық функциясы (жіктеу есебіндегі):

(12)

Композицияны градиентті бустинг әдісі бойынша тұрғызудың басында оны инициализациялау керек, яғни бірінші базалық алгоритмін құру қажет. Бұл алгоритм күрделі болмауы қажет және оған көп күш жұмсауға болмайды. Мысалы төмендегі алгоритмдерді пайдалануға болады:



  • алгоритм, ол әрдайым (регрессия есебінде) нөлдік мәнді қайтарады;

  • күрделірек алгоритмі, оқыту үлгісінің барлық элементтері бойынша (регрессия есебінде) орташа шынайы жауапты қайтарады;

  • алгоритмі, ол оқыту үлгісінде (жіктеу есебінде) әрқашан ең көп таралған класс белгісін қайтарып отырады.




Достарыңызбен бөлісу:
1   ...   8   9   10   11   12   13   14   15   16




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет