Глава 4.
Управление данными
62
Если, к примеру, из 35 наблюдений 13 имеют пропущенные значения по разным
переменным, то анализу будет подлежать немногим более 60 % данных файла, что,
несомненно, исказит результаты.
Большинство статистических методов SPSS позволяет учитывать пропуски в дан-
ных двумя принципиально различными способами:
построчно (listwise) и
попарно
(pairwise). При построчном учете пропусков SPSS перед выполнением операции
проверяет строки (объекты) на наличие пропущенных значений и в случае об-
наружения последних исключает соответствующие строки из анализа целиком.
Этот способ позволяет получить наиболее корректные статистические результаты,
однако потери данных при этом максимальны. При попарном учете пропусков об-
работка выполняется без дополнительных проверок, и в процессе вычислений не
выполняются только те операции, которые требуют наличия пропущенного зна-
чения. Таким образом, в анализе участвуют все введенные данные, но результаты
анализа содержат погрешности.
Мы рекомендуем вам по возможности решать проблему пропущенных значений
на этапе ввода и кодирования данных, а не полагаться на то, что SPSS сделает это
за вас. В любом случае, чем больше пропусков в исходных данных, тем менее точ-
ны и корректны результаты анализа.
Для номинальной переменной проблема пропущенных значений решается легко:
вы можете просто ввести для нее еще одну градацию, которая соответствует про-
пуску в данных. Для количественной переменной (метрической или порядковой),
имеющей множество возможных значений, в SPSS предусмотрены специальные
процедуры заполнения пропусков: в меню
Преобразовать
есть команда
Заменить
пропущенные
значения
. При всем соблазне ее использовать следует помнить, что
результаты обработки данных с заменой пропусков фиктивными значениями, на-
пример средними, вряд ли могут вызвать доверие. Поэтому лучше на месте про-
пуска честно оставлять пустую ячейку. А вопрос о построчном или попарном учете
пропусков решать отдельно для каждого конкретного метода анализа данных.
В справочной системе SPSS часто используется два термина:
системные пропу-
щенные значения (system missing values) и
пользовательские пропущенные значе-
ния (user missing values). Под физически пропущенными значениями понимаются
значения, не введенные в компьютер. В редакторе данных пустые ячейки, не со-
держащие значений, помечены точкой. Логически пропущенные значения — это
специальные значения переменной, отражающие невозможность адекватного ко-
дирования некоторой ситуации. Если, например, 1, 2 и 3 — тестовые оценки ис-
пытуемого, 8 означает, что тест не завершен, а 9 фиксирует неявку испытуемого,
то значения 8 и 9 относятся к логически пропущенным, поскольку их нельзя ин-
терпретировать как результаты теста.
Достарыңызбен бөлісу: