Группировка состоит в том, что область на оси «x», куда попали значения x1,...,xn, разбивают на интервалы I1,...,Ik и подсчитывают частоту попадания значений величины в каждый интервал.
Число интервалов «k» следует брать не очень большим, чтобы после группировки ряд не был очень объемным, и не очень малым, чтобы не потерять особенности распределения признака. Поэтому берут от 6 до 11 интервалов.
Согласно формуле Стерджеса рекомендуемое число интервалов:
k=1+3,322lgn
Например, так как lg100=2, для выборки объема 100 рекомендуемое число интервалов 8, а для выборки объема 50, число интервалов равно 5-6.
Величина интервала «h» вычисляется по формуле:
За начало первого интервала рекомендуется брать величину: хнач=xmin–0,5h.
Кроме того, необходимо следить, чтобы не было интервалов, в которые попало меньше 5 значений.
Число значений, попавших в «i» интервал частоты «υi», называются интервальными частотами, а отношения υi/n – относительными (эмпирическими) интервальными частотами.
Вариационный ряд, представленный таблицей, построенной с помощью группировки, называется интервальным.
Для наглядного представления статистического распределения пользуются графическим изображением вариационных рядов (полигоном и гистограммой).
Полигон - это график, представляющий собой ломаную, соединяющую точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов.
Гистограмма - это ступенчатая фигура, отображающая зависимость частоты попадания элементов выборки от соответствующего интервала группировки.
Рассмотрим некоторые числовые характеристики выборки.
Модой называется варианта с наибольшей частотой.
Достарыңызбен бөлісу: |