Надежность и валидность результатов педагогических измерений.
Рассматривая валидность в педагогических измерениях, необходимо рассматривать валидность во взаимосвязи с характерными свойствами размерностью и надежностью. При этом выявление размерности – необходимый предварительный этап работ по оцениванию надежности и валидности результатов измерений.
По сложившейся традиции термин «надежность», а именно «характеристику точности тестовых результатов и их устойчивости к действию случайных факторов» часто, хотя и не совсем верно, используют по отношению к тесту (Звонников В.И., Челышкова М.Б. Современные средства оценивания результатов обучения. – Москва, 2007. – 224 с, 156). Однако надежность теста является необходимым, но не достаточным условием получения высокой точности измерений. В случае нарушений требований к стандартизации условий проведения тестирования, проверке и оцениванию его результатов даже с помощью очень надежного измерителя можно получить результаты со значительным ошибочным компонентом.
Каким же образом определяется надежность результатов измерений? Основная аксиома классической теории тестов приводит к фундаментальному соотношению, позволяющему получить концептуальную формулу для коэффициента надежности результатов измерений (количественной характеристики надежности), которая связывает дисперсию (показатель разброса) наблюдаемых баллов и дисперсию ошибок измерения с rн – коэффициентом надежности теста. Эта формула имеет вид
(1)
Ее значение исключительно теоретическое, поскольку по эмпирическим результатам выполнения теста нельзя подсчитать .
Несложный анализ формулы для оценивая надежности (1) позволяет сделать выводы о возможных пределах величины rн. Очевидно, что дробь всегда неотрицательна, поэтому коэффициент надежности не может принимать значение больше единицы. Максимальное значение rн равное 1, получается в том случае, когда = 0, – случай, который не встречается в практике измерений. Так как величина дроби уменьшается с ростом знаменателя, то естественно предположить, что надежность увеличивается в тех случаях, когда тест обеспечивает высокий разброс тестовых баллов обучающихся.
Таким образом, анализ надежности результатов измерений основан на предположении классической теории тестов о связи между наблюдаемым баллом, истинным баллом и ошибкой измерения. В данном случае при применении педагогических тестов (заданий в тестовой форме, тестовых вопросов) основная цель оценка истинных баллов испытуемых, потому что любые результаты тестирования могут содержать в себе ошибочные компоненты.
При этом надежность теста влияют следующие факторы :
1. Тест будет иметь высокую надежность и обеспечит низкую погрешность измерения при выборе заданий, имеющих наибольшую корреляцию с другими заданиями теста. Данный фактор очень важен для тестов с заданиями от 25 до 35 вопросов, в тестах с более 100 заданиями малые значения интеркорреляции заданий могут сочетаться с высокой надежностью теста.
2. Надежность измерений повышается при учете оптимальной длины теста, потому что рост длины теста повышает утомляемость и снижает мотивацию к выполнению заданий у испытуемых, что в совокупности ведет к росту ошибки измерения. Что доказывается исследованием Н.Гронлунда, в котором указывается на то, что учащиеся старших классов в среднем за 1 мин могут выполнить одно задание с выбором ответа (при числе ответов не более четырех) [Гэйбл Э. Цифровая трансформация школьного образования. Международный опыт, тренды, глобальные рекомендации / пер. с англ.; под науч. ред. П. А. Сергоманова. М.: НИУ ВШЭ, 2019. 108 с., 80].
Рассмотрим подробнее валидность результатов педагогических измерений. Традиционно валидность определяют как характеристику адекватности результатов измерения поставленной цели создания теста, если говорить точнее это мера характеризующая точность измерения конкретного запланированного конструкта, что непосредственно связывает оценку валидности с с анализом размерности пространства педагогических измерений.
Каким же образом производится оценка валидности? В связи с многочисленными внешними критериями адекватности теста поставленным целям измерения, существуют различные виды валидности и многочисленные методы ее исследования.
1. Соотнесение результатов измерения с различными внешними критериями (обычно качественного характера), независимо описывающими все ситуации тестирования, выдает нам количественную оценку валидности. Где высокая корреляция результатов измерений с внешними критериями свидетельствует о высокой валидности теста, и наоборот, слабая корреляция указывает на неполную адекватность теста своему предназначению и позволяет сделать вывод о низкой валидности теста
2. Уровень легкости измерения концептуально выбранного латентного конструкта определяет оценку конструктной валидности, которая определяется при анализе корреляции между результатами по новым и уже существующим тестам, валидность которых подтверждена многолетней практикой их применения. В данном случае проводят независимую экспертизу качества содержания теста, используют факторный анализ, позволяющий выстроить факторную структуру теста, анализируют внутреннюю согласованность теста методами корреляционного анализа и т.д.
3. Степень релевантности и репрезентативности отражения концептуально выделенного конструкта в содержании заданий теста отражает содержательную валидность, которое подвергается тщательной экспертизе. В основе работы экспертов обычно лежит анализ полноты, значимости, правильности пропорций содержания теста и его соответствия запланированным для проверки видам учебной деятельности, что можно показать схематически (рис. 1).
Схема 1. Модель обеспечения содержательной валидности измерения
Достарыңызбен бөлісу: |