Наивный байесовский классификатор
Наиболее простой статистический метод — наивный байесовский классификатор (naive Bayes classification). В его основе лежит формула Байеса (она же — теорема Байеса) названая так в честь своего открывате-
ля — английского математика и пресвитерианского священника XVIII века Томаса Байеса.
В своей базовой форме теорема Байеса доказывается очень просто с использованием совместной вероятности р(АВ), то есть вероятности того, что произойдут два события: А и В. Если эти события независимы, то их совместная вероятность равна произведению вероятностей каждого из этих событий по отдельности: р(АВ) = р(А)*р(В).
Но если события А и В зависят друг от друга, то их совместную веро- ятность можно посчитать двумя способами: либо как вероятность события А, умноженную на вероятность события В при условии события А, либо, наоборот, как вероятность события В, умноженную на вероятность собы- тия А при условии события В. Запишем это в виде формулы:
p(А В) = p(А)×p(В|A) = p(B)×p(A|В)
Тогда p(A|В) = p(А В)
p(B)
= p(А)×p(В|A)
p(B)
А это и есть формула Байеса:
p(A|В) = p(А)×p(В|A)
p(B)
Рассмотрим теперь, как эта формула применяется к практическим за- дачам.
Пусть объект 𝑥 определяется набором параметров (ƒ 1 … ƒ 𝑛). Тогда по теореме Байеса можно вычислить, с какой вероятностью объект (ƒ 1 … ƒ 𝑛) принадлежит класса 𝑦 i:
р(𝑦 |ƒ , … ƒ ) = р(𝑦i)р(ƒ1, … ƒ𝑛|𝑦i)
i 1 𝑛
р(ƒ1, … ƒ𝑛)
Ясно, что предпочтителен класс, для которого эта вероятность макси- мальна. Знаменатель у всех дробей одинаков, поэтому достаточно макси- мизировать числитель. Если предположить, что набор признаков 𝑦1, … , 𝑦𝑛 независим, то поскольку
р (ƒ 1, … ƒ 𝑛|𝑦 i) = р (ƒ 1|𝑦 i)р (ƒ 2|𝑦 i, ƒ 1) … р (ƒ 𝑛|𝑦 i, ƒ 1, … , ƒ 𝑛−1),
получаем, что
𝑛
р (𝑦 i)𝑃 (ƒ 1, … ƒ 𝑛|𝑦 i) = р (𝑦 i) 𝖦 р (ƒ i|𝑦 i).
i=1
Эта величина легко рассчитывается по выборке. 𝑃(𝑦i) — количество элементов в обучающей выборке класса 𝑦i деленное на общее количество элементов, р(ƒi|𝑦i) — количество элементов класса 𝑦i, имеющих признак ƒi, деленное на общее число элементов класса 𝑦i и т. п.
Независимость признаков — очень сильное предположение, которое значительно упрощает расчеты, именно поэтому классификатор получил название наивного. Конечно, в реальных задачах это требование выполне- но далеко не всегда. Например, при классификации текстов с использова- нием данного алгоритма строится модель мешка слов (bag-of-words model): предполагается, что текст — множество случайных слов из слова- ря, выбор которых друг от друга не зависит. Таким образом, пропадает информация о связях между словами.
i=1
Линейные методы определяют принадлежность объекта к одному из двух классов 𝑌 = {−1, +1}, но могут быть расширены на общий случай, когда объект следует отнести к одному из нескольких классов. Сущность их заключается в построении гиперплоскости, разделяющей множество объектов на две части. Пусть каждый элемент 𝑥 описывается набором признаков (ƒ1(𝑥), … , ƒ𝑛(𝑥)), a (w0:𝑛) — некоторые веса этих признаков. Веса используются для оценки «вклада» каждого признака в определение класса, к которому относится объект. Так, чтобы определить морфологи- ческую характеристику слова русского языка, чаще важен его суффикс, а не приставка, хотя и последняя может иметь значение в некоторых случа- ях. Тогда принадлежность к классу определяется выражением
i=1
sign (∑𝑛
wiƒi(𝑥) − w0), причем выражение ∑𝑛
wiƒi(𝑥) = 0 определяет
Достарыңызбен бөлісу: |