Надежность
В целом измерение характеристик поведения считается надежным, если его ре
зультаты повторяются при повторном измерении. Скорость реакции является хо
рошим примером — высокая надежность была одной из причин многолетней по
пулярности таких измерений. Человек, при первой попытке реагирующий на крас
ный сигнал через 0,18 секунды, наверняка покажет ту же скорость при следующих
попытках, и практически все попытки будут давать результаты, близкие к 0,18 се
кунды. К примеру, оценки теста
GRE {Graduate Record Exam)
также относительно
надежны. Человек, получивший 850 за общий тест
GRE,
во второй раз, скорее все
го, получит сходную оценку, и очень маловероятно, что его балл будет 1350.
Из этих двух примеров можно понять, почему надежность измерений настоль
ко важна. Без нее невозможно было бы определить, что означают оценки, получен
ные при конкретном измерении. Предположим, измеряя скорость реакции, вы хо
тите узнать, насколько быстро реагирует конкретный человек. Если это время ста
нет сильно изменяться от попытки к попытке, то на данный вопрос ответить будет
невозможно. Аналогично, если разница в оценках теста
GRE
для одного человека
может составлять 400 или 500 баллов, вузы не смогут использовать результаты
этого теста, так как по ним нельзя будет предположить действительный уровень
знаний студента.
Надежность измерения характеристик поведения — это функция от количества
ошибок измерения.
Если ошибок много — надежность низкая, и наоборот. Ни одно
подобное измерение не является абсолютно надежным, так как все они содержат
некоторое количество ошибок. Это означает, что результат измерения представля
ет собой гипотетическую истинную оценку плюс ошибку измерения. В идеале
ошибка измерения настолько мала, что полученная оценка близка к истинной.
Оценочные измерения 137
Процедура измерения скорости реакции хорошо иллюстрирует, что такое ошиб
ка измерения и как она влияет на надежность. Как и в предыдущем примере, пред
положим, что скорость реакции человека составила 0,18 секунды. Является ли это
истинным значением измеренной скорости? Нет, как несложно заключить из сле
дующих результатов, полученных при измерении скорости реакции у того же че
ловека:
0,16с, 0,15 с, 0,19 с, 0,17 с, 0,19 с.
Результаты различаются, потому что каждая из попыток не обошлась без ошиб
ки измерения. Эта ошибка вызвана различными факторами — некоторые из них
действуют случайным образом от попытки к попытке. Например, при одной из
попыток человек может реагировать быстрее, чем предполагает истинное значение,
если будет ожидать появления стимула, или медленнее из-за кратковременного
снижения внимания. Также может возникнуть систематическая ошибка, если,
к примеру, перед тем, как предъявить стимул, экспериментатор дает участнику сиг
нал приготовиться, а время между этим сигналом и стимулом остается постоян
ным. В этом случае участник начнет предугадывать стимул и скорость реакции
будет систематически выше, чем истинная оценка.
Несмотря на небольшую ошибку измерений, приведенные выше оценки непло
хо соответствуют друг другу и измерение скорости реакции в этом случае будет
считаться более надежным, чем при следующем наборе оценок, полученном вслед
за результатом 0,18 секунды:
0,11с, 0,25 с, 0,19 с, 0,09 с, 0,31с.
При результатах, варьирующихся от одной десятой секунды до одной третьей,
очень трудно установить действительную скорость реакции человека.
Если оценки надежны, то исследователь может в зависимости от их значений
приписать им некоторый смысл. Надежность также позволяет исследователю де
лать более осмысленные сравнения одних оценок с другими. Например, сравнение
первого набора оценок (0,16 с, 0,15 с и т. д.) с нижеследующим обнаруживает раз
ницу в общей скорости реакции:
0,23 с, 0,26 с, 0,21с, 0,22 с, 0,24 с.
Очевидно, что второй испытуемый реагировал медленнее, чем первый.
Есть разные способы вычисления надежности, но в экспериментальных иссле
дованиях это редко проделывают. Уверенность в надежности измерений выраба
тывается со временем в результате процесса их повторения. Например, процедура
вырабатывания привыкания и измерение скорости реакции проводились достаточ
но часто и приносили весьма непротиворечивые результаты, так что исследовате
ли убедились в их надежности.
Надежность вычисляется более строго в исследованиях, посвященных оценке
адекватности всевозможных психологических тестов, разработанных для измере
ния таких конструктов, как личностные факторы, способности (например,
IQ)
и установки. Это обычно письменные тесты, в которых требуется отвечать на вопро
сы или что-либо утверждать/опровергать. В описанном выше исследовании були-
138 Глава 4, Измерения, выборка и обработка данных
мии участницы заполняли различные тесты, в том числе так называемую шкалу
восприятия поддержки. Анализ, призванный установить надежность такого вида
тестов, требует применения корреляционных процедур. Например, участники мо
гут выполнить тест в двух различных ситуациях, а далее будет определена степень
сходства двух наборов оценок. Если не повлияют серьезные изменения, произо
шедшие в жизни участников, результаты двух измерений по шкале восприятия
поддержки должны быть похожи. Степень сходства выражается в терминах кор
реляции (высокое сходство = высокая корреляция). В главе 9 будут более подроб
но объяснены особенности этого вида анализа и его значение для психологическо
го тестирования в целом.
Достарыңызбен бөлісу: |