Data Mining технологияларына жалпы сипаттама Data Mining негізгі түсініктері



бет12/16
Дата13.05.2020
өлшемі1,52 Mb.
#67919
1   ...   8   9   10   11   12   13   14   15   16
Байланысты:
Негізгі бөлім

Сурет 6 Жауапты қабылдау ағашын құрудың абстрактілі үлгісі
Мысалы, жіктеу есебінде адамдар жиынтығын ерлер мен әйелдерге бөлу керек. Онда, мысалы, ерлерді-0, әйелдерді-1 деп мәндер берейік. Соңында біз өз талаптарын қанағаттандыратын жеке еркектерді және жеке әйелдерді аламыз.

Бұл жерде тек үш нәрсе ғана белгілі болмайды:



  • Бөлу параметрі қалай таңдалады?

  • Параметрдің шекті мәні қалай таңдалады?

  • Қай сәтте алгоритм жұмысы тоқтауы керек?

Кейбір бөлінетін параметрлерді іске асыру барысында, параметрдің шекті мәні толық таңдау әдісімен шығарылады, яғни әрбір параметр бойынша деректерді бөлудің барлық ықтимал тәсілдері қарастырылып, бөлу қаншалықты сәтті болатыны бағаланады. Мысалы, тармақтарға бөлу сәттілігінің дәрежесі тапсырма шарттарымен анықталуы мүмкін.

Алгоритмді қашан тоқтату керек? Оның екі нұсқасы бар: одан әрі бөлшектеу ағашты жақсартуға әкелмесе, мысалы, ағаш шыңында барлық элементтер бірдей мәнге ие болса немесе біз белгілі бір деңгейге жеткен кезде, мысалы, жоғарғы элементтердің шекті мәні (бұл өлшем R-да Random Forest іске асыруда әдепкі бойынша қолданылады).

Кездейсоқ ормандардың бір артықшылығы – қате жіктеудің ықтималдығын бағалау мақсатында кросс-тексеруді немесе іріктеу тестін қадет етпейді. Кездейсоқ орманның қате жіктелу ықтималдығын бағалау "Out–Of–Bag" (OOB) әдісімен жүзеге асырылады. Іріктеменің әрбір бутстрепінде бастапқы оқыту үлгісінің шамамен 37% бақылауының жоқ екендігі белгілі (себебі іріктеме қайтарумен, кейбір бақылаулар оған түспейді, ал кейбіреулері бірнеше рет түседі).

Қандайда бір векторын жіктейік. Жіктеу үшін тек –ті қамтымайтын бутстреп іріктемелерімен әдетте дауыс беру әдісімен құрылған кездейсоқ орман ағаштары және қолданылады. Жіктеудің осындай тәсіліндегі қате жіктелген векторларының жиілігі және кездейсоқ орманның қате жіктелу ықтималдығы OOB әдісімен бағалауды білдіреді.

OOB бағалауды қолдану тәжірибесі ағаштар саны жеткілікті болған жағдайда, бағасы жоғары дәлдікке ие. Егер ағаштар саны аз болса, онда баға оңға қарай ығысады. Кездейсоқ ормандар көптеген тартымды қасиеттерге ие, бұл олардың кеңінен қолданылуына себепші болды, атап айтсақ:

- Кездейсоқ ормандар дәлдіктің едәуір жоғарылауын қамтамасыз етеді, себебі ансамбльдегі ағаштар индуктивтік алгоритмге кездейсоқ қос инъекцияның салдарынан — баггинг және әрбір шыңды ыдырату кезінде кездейсоқ ішкі кеңістік әдісін пайдалану арқылы әлсіз коррелирленген;

- Шешімдердің толық ағашын кесудің әдістемелік және алгоритмдік күрделі тапсырмасы алынып тасталады, себебі кездейсоқ ормандағы ағаштар кесілмейді (бұл да жоғарғы есептеуіш тиімділігіне әкеледі);

- Қайта айдау мәселесі жоқ (тіпті оқыту іріктеуін бақылау санынан және ағаштардың көп санынан асатын белгілер саны кезінде). Осылайша, басқа ансамбльдік классификаторларға қажетті белгілерді іріктеудің күрделі мәселесі жойылады;

- Қолданудағы қарапайымдылығы: алгоритмнің жалғыз параметрлері ансамбльдегі ағаштар саны және ағаштың әрбір шыңында ыдырату үшін кездейсоқ таңдалатын белгілер саны болып табылады. Осы параметрлерді таңдау бойынша толық ұсыныстарды таба аласыз;

- Параллель есептеулерді ұйымдастыру жеңілдігі.






Достарыңызбен бөлісу:
1   ...   8   9   10   11   12   13   14   15   16




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет