Руководство по анализу данных с помощью самой мощной и популярной


Глава 22.  Дискриминантный анализ 316



Pdf көрінісі
бет239/304
Дата10.10.2024
өлшемі8,54 Mb.
#206058
түріРуководство
1   ...   235   236   237   238   239   240   241   242   ...   304
Байланысты:
А. Наследов - SPSS 19. Профессиональный статистический анализ данных - 2011

Глава 22. 
Дискриминантный анализ
316
Этапы дискриминантного анализа
Дискриминантный анализ состоит из трех основных этапов.
Выбор переменных-предикторов
1. 
. Исследователь использует свои теоретические 
знания, практический опыт, догадки и т. п. для того, чтобы составить список 
переменных, которые могут повлиять на результат группировки (переменную-
критерий). В рассматриваемом файле помимо переменной-критерия (
оценка

содержится 13 переменных, характеризующих каждого учащегося; это позво-
ляет нам сделать все 13 переменных предикторами и включить их в уравнение 
регрессии. Если бы число переменных было велико (например, несколько со-
тен), было бы невозможно применить дискриминантный анализ ко всем пере-
менным одновременно. Это обусловлено как концептуальными причинами 
(возможная коллинеарность переменных, потеря степеней свободы и т. п.), так 
и практическими ограничениями (недостаточный объем оперативной памяти 
компьютера). Обычно на начальном этапе дискриминантного анализа для пре-
дикторов формируется корреляционная матрица. В данном контексте она име-
ет особый смысл, называется общей внутригрупповой корреляционной матрицей 
и содержит средние коэффициенты корреляции для двух или более корреля-
ционных матриц (каждая для одной группы). Помимо общей внутригрупповой 
корреляционной матрицы можно также вычислить ковариационные матрицы 
для отдельных групп, для всей выборки либо общую внутригрупповую кова-
риационную матрицу. Нередко исследователи применяют серию t-критериев 
между двумя группами для каждой переменной либо однофакторный диспер-
сионный анализ, если число групп оказывается больше двух. Поскольку целью 
дискриминантного анализа является составление наилучшего уравнения ре-
грессии, дополнительный анализ исходных данных никогда не является лиш-
ним. Так, в результате применения t-критериев для данных нашего примера 
были найдены значимые различия между двумя уровнями переменной 
оценка
для 8 из 13 предикторов. Мы рассмотрим один из наиболее распространенных 
вариантов дискриминантного анализа, при проведении которого программа ав-
томатически исключает несущественные для предсказания предикторы, но по 
критериям, которые устанавливает сам исследователь.
Выбор параметров
2. 
. В этой главе будет продемонстрирован один из вариантов 
дискриминантного анализа. По умолчанию программа реализует метод, кото-
рый основан на принудительном включении в регрессионное уравнение всех 
предикторов, указанных исследователем. В другом варианте используется ме-
тод Уилкса (Wilks), относящийся к категории пошаговых методов и основан-
ный на минимизации коэффициента Уилкса (
λ
) после включения в уравнение 
регрессии каждого нового предиктора. Так же как и в случае множественно-
го регрессионного анализа, существует критерий для включения предикторов 
в уравнение регрессии (по умолчанию таким критерием является F > 3,84) 
и критерий для исключения предикторов из уравнения регрессии (по умолча-
нию F < 2,71). Коэффициент 
λ
представляет собой отношение внутригруппо-
вой суммы квадратов к общей сумме квадратов и характеризует долю влияния 


Пошаговые алгоритмы вычислений
317
предиктора на дисперсию критерия. Со значением 
λ
связаны величины F и p
характеризующие его значимость. Более полное описание вы можете найти 
в разделе «Представление результатов».
Какой же из двух методов предпочтительнее? Как показывает практика, зача-
стую компьютер справляется с составлением уравнения регрессии лучше, чем 
исследователь, задающий список предикторов вручную. Однако встречаются си-
туации, когда полезней ограничить самостоятельность компьютера. Например, 
если провести дискриминантный анализ для наших данных с включением всех 
переменных, то неверно классифицированы будут 5 объектов из 46. Той же точ-
ности прогноза можно достичь всего с 7 предикторами, если выбрать пошаговый 
метод с отличающимися от принятых по умолчанию установками (как указано 
ниже в пошаговом алгоритме). В то же время, если использовать пошаговый 
метод с установками по умолчанию, оставляющий только три предиктора, ко-
личество неверно сгруппированных объектов увеличится до 9. Помимо рассмо-
тренных программа SPSS располагает и другими методами выбора предикторов, 
однако их описание выходит за рамки темы данной книги, и при необходимости 
мы рекомендуем вам обратиться к руководству пользователя SPSS.
Интерпретация результатов
3. 
. Целью дискриминантного анализа является со-
ставление уравнения регрессии с использованием выборки, для которой извест-
ны значения и предикторов, и критерия. Это уравнение позволяет по извест-
ным значениям предикторов определить неизвестные значения критерия для 
другой выборки. Разумеется, точность рассчитываемых значений критерия для 
второй выборки в общем случае не выше, чем для исходной. Так, в нашем при-
мере регрессионное уравнение обеспечило около 90 % корректных результатов 
для той выборки, с помощью которой оно было создано. Соответственно, точ-
ность предсказания успешности обучения для 10 претендентов может достигать 
90 % лишь в том случае, если выборка претендентов совершенно идентична тем 
46 учащимся, данные для которых послужили основой для прогноза.


Достарыңызбен бөлісу:
1   ...   235   236   237   238   239   240   241   242   ...   304




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет