Текст
|
Оценка
|
Мне очень понравилась эта модель! Во-первых, класс- ный дизайн, во-вторых, круто снимает в помещении, за счет позволяя понизить ISO, что очень сильно порадо- вало, в-третьих, на мой взгляд, он совершенно не тормо- зит и у него очень четкая и плавная картинка, всем со-
|
положитель- ная
|
ветую)
|
|
Цена сильно завышена, такое ощущение как будто здо- рово переплатил, появляется после недели использова- ния. Аккумулятор не долгий, но и не совсем уж дохлый, но за эти деньги можно было б и поживучее сделать.
|
отрицательная
|
Батарея держит значительно дольше, чем в 5s. Теперь телефона с легкостью хватает на целый день активно- го использования. Можно совсем не париться по поводу зарядки. 5s успевал два раза сесть за это время, что очень доставало.
|
положитель- ная
|
Нет возможности поместить на рабочий стол люби- мые контакты. В контактах (в общем списке) не от- свечиваются аватарки.
|
отрицательная
|
Тогда мы можем описать входные данные различными способами:
Если имеется словарь оценочных слов, каждому тексту можно сопос- тавить набор слов из этого словаря.
Использовать каждое слово как признак для описания.
Описать расстояние между каждой парой текстов, например, как ко- личество общих слов. При этом можно завести список стоп-слов, ко- торые не следует учитывать.
Итак, на практике задача МО требует от лингвиста следующее:
построение грамотной модели входных данных (самая сложная часть);
выбор класса, к которому предположительно относится целевая функция; выбор и применение метода МО;
оценка полученного результата.
Методы машинного обучения
Какой бы трудной не казалась задача, существует не так уж много
«проверенных» способов построить модель и подобрать алгоритм. При этом вид модели обычно зависит от типа входных данных, а метод обуче- ния — от тех результатов, которые необходимо получить. Здесь мы не бу- дем касаться вопроса построения модели входных данных (информацию об этом для каждой конкретной задачи можно найти в соответствующих главах), а лишь кратко опишем следующие группы методов:
Метрические методы классификации
Статистические методы классификации
Линейные методы классификации
Регрессионные методы
Искусственные нейронные сети
Кластеризация
Чаще всего в задаче требуется определить один из нескольких клас- сов, к которому принадлежит объект, — например, часть речи, падеж, зна- чение слова и т. п. Если известен перечень классов и имеется обучающая выборка (характерные представители каждого класса), то это задача клас- сификации (classification). Большая часть алгоритмов применяется имен- но к таким задачам, они проще и эффективнее других.
Иногда обучающая выборка очень мала или вовсе отсутствует, в та- ких случаях используются алгоритмы кластеризации (clustering). Они разбивают все множество объектов на группы, исходя из каких-то косвен- ных соображений, не используя данные о том, какие именно это группы. Затем, оценив слова в каждом отдельном кластере, можно понять, что со- бой представляют полученные группы. Иногда заранее не известно ничего даже о количестве классов — с такой ситуацией можно столкнуться, на- пример, при тематическом моделировании текстов. Алгоритмы кластери- зации, как правило, сложнее, и в некоторых случаях менее эффективны. С другой стороны, в задачах с минимумом данных они работают гораздо лучше алгоритмов классификации (когда примеров очень мало или пред- ставители каких-то классов и вовсе отсутствуют).
Гораздо реже в лингвистике требуется произвести регрессионный анализ (regression). Задача регрессии — оценить функциональную зави- симость между какими-то структурами. Допустим, необходимо предска- зать время, которое переводчик потратит на исправление машинного пере- вода. Очевидно, это время нельзя описать в терминах классов, нужно предсказывать значение, которого, скорее всего, не было в обучающей выборке. В таком случае результат обучения — описание зависимости (функции) между параметрами, описывающими входной текст, и време- нем. Для того чтобы сузить перечень функций, отвечающих входным дан- ным, сначала делаются некоторые предположения о классе функций, в котором ведется поиск (линейные, логистические, экспоненциальные и др.), среди которых выбирается функция с минимальной ошибкой.
Большая часть алгоритмов машинного обучения уже реализована в специальных библиотеках, некоторые из которых даже представляют пользователю графический интерфейс, поэтому для их использования да- же необязательно программировать. В приложении приводится список этих пакетов, разработанных для различных языков программирования.
Если каждый объект из X требуется отнести к какому-либо классу из множества 𝑌 = {𝑦1, … , 𝑦𝑛}, то это задача классификации. Пусть на множе- стве объектов введена метрика, то есть задано условное расстояние между любыми двумя объектами. В этом случае можно применять метрические методы.
Метрика задается, в зависимости от природы объектов, по-разному. Естественное требование — объекты одного класса, согласно этой мере, должны быть близки, а объекты разных классов — далеки друг от друга. Для классификации текстов, например, в качестве простейшего расстоя- ния можно использовать количество общих слов для двух текстов.
Достарыңызбен бөлісу: |