11 Часть I. Компоненты 14 Глава Компьютерная

жүктеу/скачать 4,29 Mb.

бет	82/197
Дата	19.03.2022
өлшемі	4,29 Mb.
	#136225
түрі	Литература

1 ... 78 79 80 81 82 83 84 85 ... 197

Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute
Латын тілі 4,5 - дәріс 2, 169-182 фил, Вопросы на русском языке, 6 үж

разделяющую гиперплоскость.

Метод опорных векторов
Метод опорных векторов (support vector machine, SVM) — это один из самых популярных и эффективных подходов. Предположим, что суще- ствует плоскость, разделяющая объекты обучающей выборки на два клас- са, иными словами, функционал числа ошибок при каких-то значениях параметров равен нулю. Разделяющая плоскость не единственна, поэтому задача алгоритма определить оптимальное разделение. Метод опорных векторов действует следующим образом: если обучающая выборка разде- лена на два множества X₁ и X₂, рассматривается та плоскость, суммарное расстояние от которой до каждого из множеств максимально. Выборка в таком случае называется линейно разделимой.
Если же разделяющей плоскости нет, классификатору разрешается до- пускать ошибки. Какую бы плоскость мы не провели, с каждой стороны

оказываются объекты обоих классов. В таком случае дополнительное тре- бование для оптимального разделения — минимизация ошибки. Ошибку можно считать как суммарное расстояние от плоскости до ошибочных то- чек.

Иногда ошибочные точки — это всего лишь выбросы, и их потеря только улучшит классификатор. Но иногда линейная классификация при- водит к серьезным ошибкам. Представим, например, что объекты первого класса ограничены сферой радиуса 𝐶, тогда как объекты второго класса лежат вне сферы. Тогда линейный метод опорных векторов будет давать неудовлетворительный результат. В подобных случаях используют нели- нейную модификацию метода опорных векторов, основанную на преобра- зовании пространства объектов. Иными словами, с помощью так называе- мой функции ядра(kernel function) данные преобразуются так, что разде- ляющая гиперплоскость существует.

Регрессионные методы

Модели классификации не всегда удобны. Во-первых, границы между классами могут быть размыты, а во-вторых, объекты одного класса нельзя сравнить между собой. Эти проблемы возникнут, например, если класси- фицировать людей по росту на три группы: высокие, средние и низкие. В таких задачах естественно искать некоторую числовую характеристику каждого объекта. Если пространство ответов не конечный набор классов, а бесконечное числовое множество, то модель называют регрессионной.
Итак, по-прежнему каждый объект представляется набором призна- ков, требуется по обучающей выборке восстановить неизвестную число- вую функцию — характеристику объекта. Рассмотрим такую зависимость, которая на обучающей выборке принимает верные значения, а на осталь- ных объектах — нулевые. Эта «оценка» должна быть оптимальной, ведь на всех объектах обучающей выборки она не ошибается. Но в реальности едва ли она окажется подходящей. Чтобы не столкнуться с такой пробле- мой, требуется ввести ограничения на структуру регрессии, то есть огра- ничить класс рассматриваемых функций, среди которых ведется поиск: линейные, логистические и т. д.
Один из примеров лингвистической регрессионной задачи — оценка качества перевода: как было сказано выше, его можно оценить не просто как «хороший» или «плохой», а предсказать, например, время, которое профессиональный переводчик потратит на его исправление.

жүктеу/скачать 4,29 Mb.

Достарыңызбен бөлісу:

1 ... 78 79 80 81 82 83 84 85 ... 197

11 Часть I. Компоненты 14 Глава Компьютерная

Регрессионные методы