11 Часть I. Компоненты 14 Глава Компьютерная



бет81/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   77   78   79   80   81   82   83   84   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Наивный байесовский классификатор
Наиболее простой статистический метод — наивный байесовский классификатор (naive Bayes classification). В его основе лежит формула Байеса (она же — теорема Байеса) названая так в честь своего открывате-

ля — английского математика и пресвитерианского священника XVIII века Томаса Байеса.


В своей базовой форме теорема Байеса доказывается очень просто с использованием совместной вероятности р(АВ), то есть вероятности того, что произойдут два события: А и В. Если эти события независимы, то их совместная вероятность равна произведению вероятностей каждого из этих событий по отдельности: р(АВ) = р(А)(В).
Но если события А и В зависят друг от друга, то их совместную веро- ятность можно посчитать двумя способами: либо как вероятность события А, умноженную на вероятность события В при условии события А, либо, наоборот, как вероятность события В, умноженную на вероятность собы- тия А при условии события В. Запишем это в виде формулы:

p(А В) = p(А)×p(В|A) = p(B)×p(A|В)





Тогда p(A|В) = p(А В)
p(B)
= p(А)×p(В|A)
p(B)

А это и есть формула Байеса:




p(A|В) = p(А)×p(В|A)
p(B)

Рассмотрим теперь, как эта формула применяется к практическим за- дачам.


Пусть объект 𝑥 определяется набором параметров (ƒ1 … ƒ𝑛). Тогда по теореме Байеса можно вычислить, с какой вероятностью объект (ƒ1 … ƒ𝑛) принадлежит класса 𝑦i:
р(𝑦 , ƒ ) = р(𝑦i)р(ƒ1, ƒ𝑛|𝑦i)

i 1 𝑛
р(ƒ1, … ƒ𝑛)

Ясно, что предпочтителен класс, для которого эта вероятность макси- мальна. Знаменатель у всех дробей одинаков, поэтому достаточно макси- мизировать числитель. Если предположить, что набор признаков 𝑦1, … , 𝑦𝑛 независим, то поскольку




р(ƒ1, … ƒ𝑛|𝑦i) = р(ƒ1|𝑦i)р(ƒ2|𝑦i, ƒ1) … р(ƒ𝑛|𝑦i, ƒ1, … , ƒ𝑛−1),
получаем, что
𝑛
р(𝑦i)𝑃(ƒ1, … ƒ𝑛|𝑦i) = р(𝑦i) 𝖦 р(ƒi|𝑦i).
i=1

Эта величина легко рассчитывается по выборке. 𝑃(𝑦i) количество элементов в обучающей выборке класса 𝑦i деленное на общее количество элементов, р(ƒi|𝑦i) количество элементов класса 𝑦i, имеющих признак ƒi, деленное на общее число элементов класса 𝑦i и т. п.


Независимость признаков — очень сильное предположение, которое значительно упрощает расчеты, именно поэтому классификатор получил название наивного. Конечно, в реальных задачах это требование выполне- но далеко не всегда. Например, при классификации текстов с использова- нием данного алгоритма строится модель мешка слов (bag-of-words model): предполагается, что текст — множество случайных слов из слова- ря, выбор которых друг от друга не зависит. Таким образом, пропадает информация о связях между словами.


    1. Линейные методы классификации


i=1
Линейные методы определяют принадлежность объекта к одному из двух классов 𝑌 = {−1, +1}, но могут быть расширены на общий случай, когда объект следует отнести к одному из нескольких классов. Сущность их заключается в построении гиперплоскости, разделяющей множество объектов на две части. Пусть каждый элемент 𝑥 описывается набором признаков (ƒ1(𝑥), … , ƒ𝑛(𝑥)), a (w0:𝑛) — некоторые веса этих признаков. Веса используются для оценки «вклада» каждого признака в определение класса, к которому относится объект. Так, чтобы определить морфологи- ческую характеристику слова русского языка, чаще важен его суффикс, а не приставка, хотя и последняя может иметь значение в некоторых случа- ях. Тогда принадлежность к классу определяется выражением


i=1
sign (∑𝑛
wiƒi(𝑥) − w0), причем выражение ∑𝑛
wiƒi(𝑥) = 0 определяет


Достарыңызбен бөлісу:
1   ...   77   78   79   80   81   82   83   84   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет