Авторы: Григорий Теймуразович Букия, выпускник 2016 года, инженер-программист в НПО «Аврора»;
Екатерина Владимировна Протопопова, выпускница 2016 года, аналитик в компании Яндекс
Введение: Формализация задач машинного обучения
В этой главе мы расскажем о математических методах обработки ес- тественного языка, которые на русском языке называют машинным обу- чением (MO) — перевод-калька с английского machine learning. В своей основе эти методы известны очень давно, например, специалисты по ра- диотехнике, называют их математической оптимизацией или теорией ста- тистического управления. Они используются при работе с большими мас- сивами данных, связанных не только с языком. Но в прикладной лингвис- тике статистический подход стал настолько популярным, что некоторые считают его единственным эффективным методом обработки языка. Сто- ронники этого подхода любят повторять жестокую шутку Фредерика Йе- линека, одного из первых специалистов по NLP, которая звучит примерно так: «Каждый раз, когда увольняется лингвист, производительность сис- темы возрастает».
В самом общем виде задачу МО можно описать так. Имеется некото- рое множество, называемое традиционно множеством объектов. Каждо- му объекту по какой-то системе приписывается признак из множества, именуемого множеством ответов. Систему, по которой объекту приписы- вается ответ, называют целевой функцией (target function). В некоторых задачах она представляет собой «черный ящик» — для каждого конкрет- ного объекта можно сказать, какой именно ответ дает целевая функция, но самый принцип описать либо очень трудно, либо вовсе невозможно.
Пример такого черного ящика — распознавание части речи слов. Здесь объектами будут слова, ответами — соответствующие части речи, а целевой функцией — принцип, по которому определяется часть речи для всякого слова. Хотя в большинстве случаев носитель языка без труда оп- ределит часть речи, но описать во всей полноте принцип, по которому че-
ловек делает выбор, едва ли возможно. Словаря с указанием частей речи для каждого слова недостаточно. Ведь в естественном языке нередки слу- чаи лексической неоднозначности, так например слово «были» может быть как глаголом, так и существительным в зависимости от контекста. Значит, необходимо, как минимум, учесть синтаксический контекст. Но даже если описать все возможные правила русского языка, в языке най- дутся спорные случаи. Рассмотрим предложение: «Рядовые были забыты своим командиром». С точки зрения синтаксиса части речи слов «рядовые были» однозначно определить нельзя, хотя носитель языка без труда вы- берет верный вариант.
Итак, задача МО — подобрать такую функцию, которая с одной сто- роны наиболее близка к целевой, то есть почти всегда дает «правильные» ответы, а с другой стороны реализуема на компьютере, универсальна и не требует значительных человеческих «жертв». Например, составление все- объемлющего частеречного словаря этим параметрам не отвечает: потре- буется огромное количество человекочасов для разметки, а полученные данные нельзя будет применять в других задачах.
Функция, имитирующая целевую, подбирается из некоторого ограни- ченного множества. Выбор этой функции и подбор её параметров и осу- ществляется одним из алгоритмов машинного обучения.
Чтобы понять, насколько полученная функция близка к целевой, тре- буется сначала определить, что значит «близкая» функция. Это не такой очевидный вопрос. Ведь если функция, определяющая рост человека, ошиблась на 2–3 сантиметра, можно сказать, что он «почти» угадан, но если неверно определен пол человека, сказать, что он «почти» угадан, уже нельзя. За оценку близости отвечает функционал качества (quality function). Поскольку проверить на всем множестве объектов невозможно, проводят статистическую оценку на контрольной выборке.
Приближение целевой функции может строиться по заранее извест- ным данным. Тогда такой метод называют обучением с учителем (supervised learning), а данные — обучающей выборкой (training set). Это наиболее распространенный случай в лингвистике. Характерный пример обучающей выборки — небольшой размеченный подкорпус, по которому требуется разметить всю оставшуюся часть. Иногда обучающая выборка появляется постепенно, корректируя алгоритм. Например, некоторые ав- томатические переводчики позволяют пользователям выбрать наиболее удачный перевод и корректируют свою работу, основываясь на получен- ных данных. Такие задачи встречаются реже. Третья разновидность алго- ритмов — обучение без учителя (unsupervised learning). Такие алгорит- мы, например, разбивают объекты на группы, называемые кластерами (clusters), причем в одном кластере оказываются близкие объекты. Впо- следствии всем элементам кластера присваивается один и тот же ответ.
Этот принцип удобен тем, что практически не требует заранее обработан- ных данных.
Таким образом, на формальном языке определение задачи МО звучит
так.
Определение. Пусть X — множество объектов, 𝑌 — множест-
во ответов, ƒ: X → 𝑌 — целевая функция, ƒð — ее граничные условия (обучающая выборка). Кроме того, пусть дана модель алгоритма — пара- метрическое множество функций 𝐺 = {𝑔(𝑥, 𝜃)} на котором задана метри- ка.
Конструкцию 𝐹 = (X, 𝑌, 𝐺, ƒð) называют задачей машинного обуче- ния (МО), а алгоритмом — функцию 𝑔(𝑥, 𝜃∗), где
𝜃∗ = argmin ||𝑔(𝑥, 𝜃) − ƒ(𝑥)|| .
𝜃
Трудно приближать функцию, которая действует, например, на мно-
жестве цветков или птиц. Поэтому в качестве объекта чаще всего рассмат- ривается не сам предмет, но набор его количественных характеристик, важных в рамках данной задачи. Например, для классификации цветков ириса Фишер вместо самих цветов рассмотрел их численные характери- стики (длина, ширина лепестка и чашелистика), таким образом, множест- во X представляло собой не букет, а набор точек в четырехмерном про- странстве. Это самый распространенный подход — представление объек- тов в некотором признаковом пространстве. Иногда объекты описывают через расстояния между ними или с помощью графической модели. Пусть, например, необходимо определить положительную или отрицательную окраску следующего текста (отзыв на смартфон):
Как всегда на высоте качество исполнения. Поражает безу- пречность работы экрана, кнопок, датчиков и сенсоров. Мне очень нравятся наушники, которые имеют качество звучания близкое к ва- куумным вкладышам, но не изолируют тебя от внешних звуков и, что для меня важнее всего, не скрипят силиконом в ушах при беге. Каме- ра делает фото еще лучше, экран еще ярче и четче и т. д. … хотя не могу сказать, что в пятерке с этим были проблемы.
Пусть при этом у нас есть обучающая выборка из других текстов (от- зывов на смартфоны):
Достарыңызбен бөлісу: |