Руководство по анализу данных с помощью самой мощной и популярной



Pdf көрінісі
бет50/304
Дата10.10.2024
өлшемі8,54 Mb.
#206058
түріРуководство
1   ...   46   47   48   49   50   51   52   53   ...   304
Байланысты:
А. Наследов - SPSS 19. Профессиональный статистический анализ данных - 2011

Обработка пропущенных значений
В процессе работы с программой SPSS вы нередко будете сталкиваться с пробле-
мой отсутствующих данных. Обратимся к переменным из примера 
ex01.sav
. Впол-
не вероятна ситуация, когда кто-либо из учеников отсутствовал при проведении 
тестирования или не ответил на вопрос о внешкольном увлечении, либо не опреде-
лился с перспективой поступления в вуз. Подобные случаи приводят к тому, что 
в данных рабочего файла появляются пропущенные значения. Пропущенные значе-
ния не только мешают осмысливать данные, но и могут оказывать нежелательное 
влияние на результаты анализа. Некоторые статистические процедуры игнориру-
ют объекты (строки), в которых содержится хотя бы одно пропущенное значение. 


Глава 4. 
Управление данными
62
Если, к примеру, из 35 наблюдений 13 имеют пропущенные значения по разным 
переменным, то анализу будет подлежать немногим более 60 % данных файла, что, 
несомненно, исказит результаты.
Большинство статистических методов SPSS позволяет учитывать пропуски в дан-
ных двумя принципиально различными способами: построчно (listwise) и попарно 
(pairwise). При построчном учете пропусков SPSS перед выполнением операции 
проверяет строки (объекты) на наличие пропущенных значений и в случае об-
наружения последних исключает соответствующие строки из анализа целиком. 
Этот способ позволяет получить наиболее корректные статистические результаты, 
однако потери данных при этом максимальны. При попарном учете пропусков об-
работка выполняется без дополнительных проверок, и в процессе вычислений не 
выполняются только те операции, которые требуют наличия пропущенного зна-
чения. Таким образом, в анализе участвуют все введенные данные, но результаты 
анализа содержат погрешности.
Мы рекомендуем вам по возможности решать проблему пропущенных значений 
на этапе ввода и кодирования данных, а не полагаться на то, что SPSS сделает это 
за вас. В любом случае, чем больше пропусков в исходных данных, тем менее точ-
ны и корректны результаты анализа.
Для номинальной переменной проблема пропущенных значений решается легко: 
вы можете просто ввести для нее еще одну градацию, которая соответствует про-
пуску в данных. Для количественной переменной (метрической или порядковой), 
имеющей множество возможных значений, в SPSS предусмотрены специальные 
процедуры заполнения пропусков: в меню 
Преобразовать
есть команда 
Заменить
пропущенные
значения
. При всем соблазне ее использовать следует помнить, что 
результаты обработки данных с заменой пропусков фиктивными значениями, на-
пример средними, вряд ли могут вызвать доверие. Поэтому лучше на месте про-
пуска честно оставлять пустую ячейку. А вопрос о построчном или попарном учете 
пропусков решать отдельно для каждого конкретного метода анализа данных.
В справочной системе SPSS часто используется два термина: системные пропу-
щенные значения (system missing values) и пользовательские пропущенные значе-
ния (user missing values). Под физически пропущенными значениями понимаются 
значения, не введенные в компьютер. В редакторе данных пустые ячейки, не со-
держащие значений, помечены точкой. Логически пропущенные значения — это 
специальные значения переменной, отражающие невозможность адекватного ко-
дирования некоторой ситуации. Если, например, 1, 2 и 3 — тестовые оценки ис-
пытуемого, 8 означает, что тест не завершен, а 9 фиксирует неявку испытуемого, 
то значения 8 и 9 относятся к логически пропущенным, поскольку их нельзя ин-
терпретировать как результаты теста.


Достарыңызбен бөлісу:
1   ...   46   47   48   49   50   51   52   53   ...   304




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет