Сбором статистических данных называется процесс получения информации об элементах исследуемой совокупности и их свойствах. Эти данные являются предметом статистической обработки и анализа.
Вторым этапом является анализ типов данных.
Классификация типов данных
Основные типы данных делятся на количественные и качественные.
Количественные данные в свою очередь подразделяются на дискретные (прерывные) и непрерывные.
Дискретные данные – количественные данные, которые представлены только в виде целого числа, т.е. не могут иметь дробную часть. Например: количество детей.
Непрерывные данные – это данные, которые получают при измерении на непрерывной шкале, т.е. теоретически они могут иметь дробную часть. Например: масса тела, рост, артериальное давление и т.д.
Непрерывные данные бывают интервальными и относительными.
Интервальные данные – вид непрерывных данных, которые измеряются в абсолютных величинах, имеющих физический смысл.
Относительные данные – вид непрерывных данных, отражающих долю изменения (увеличения или уменьшения) значения признака по отношению к исходному (или к какому-либо другому) значению этого признака. Эти данные являются безразмерными величинами или выражаются в процентах.
Качественные данные – подразделяются на номинальные и порядковые.
Номинальные данные – вид качественных данных, которые отражают условные коды неизмеряемых категорий (коды диагноза).
Порядковые данные - вид качественных данных, которые отражают условную степень выраженности какого-либо признака (стадии онкологических заболеваний, степени сердечной недостаточности).
Их основное отличие от дискретных количественных данных заключается в отсутствии пропорциональной шкалы для измерения выраженности признака.
Бинарные (дихотомические) данные - особо выделяемый вид качественных данных. Признак такого типа имеет лишь два возможных значения (пол, наличие или отсутствие какого-либо заболевания).
Особым видом данных являются даты. Поскольку в ряде случаев бывает необходимо произвести с ними некоторые арифметические действия (вычисление абсолютного периода времени между двумя событиями по датам этих событий).
Иногда выделяют также некоторые особые подтипы данных, являющиеся частными случаями вышеперечисленных типов: ранги, очки, визуальные аналоговые шкалы, цензурированные данные.
Перед тем как проводить угубленный статистический анализ, важно провести предварительный анализ данных. На этом этапе для сжатия и систематизации набора данных используют графические методы. Это позволяет оценить особенности набора данных и выявить аномалии, т.е. выбрать для дальнейшого анализа подходящие статистические методы.
Дискретные данные могут быть представлены в виде таблицы, столбиковой диаграммы, пиктограммы, круговой диаграммы, точечного рисунка.
Непрерывные данные могут быть представлены в виде группированной выборки, гистограммы, диаграммы «стебель с листьями» или «ящик с усами», кривой Лоренца и т.д.
Смешанные данные могут быть представлены в виде диаграммы рассеяния.
Графические методы представления данных.
График, в котором статистические данные изображаются различными геометрическими фигурами, называется диаграммой.
Виды наиболее часто используемых диаграмм:
Диаграммы, изображающие динамику явления, выраженного в показателях интенсивности, соотношения, наглядности, средних или абсолютных величинах, называются линейными.
Вид линейной диаграммы, применяемой для изображения динамики явления за замкнутый цикл времени (сутки, неделя, месяц, год), называется радиальной.
Диаграммы, изображающие динамику или статику явления в соответствии с избранным масштабом, называются столбиковыми.
Диаграммы, изображающие структуру явления, выраженного экстенсивными показателями, и представляющие собой прямоугольник, в котором цветом выделены составляющие его части в соответствии с их удельным весом, называются внутристолбиковыми.
График, который представляет собой смесь диаграммы и таблицы, эффективен для отображения данных по увеличению порядка величины, называется графиком «стебель и листья».
3
|
1,0
|
04
|
665
|
1,1
|
39
|
53
|
1,2
|
99
|
9751
|
1,3
|
1135677999
|
955410
|
1,4
|
0148
|
987665
|
1,5
|
00338899
|
9531100
|
1,6
|
0001355
|
731
|
1,7
|
00114569
|
99843110
|
1,8
|
6
|
654400
|
1,9
|
01
|
6
|
2,0
|
|
7
|
2,1
|
19
|
10
|
2,2
|
|
График, представляющий собой ломаную, соединяющую точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов, называется полигоном.
График, который представляет собой прямоугольник, где две параллельных стороны соответствуют верхнему и нижнему квартилям данных, а линии, начинающиеся в конце прямоугольника, показывают минимальные и максимальные значения, называется график «ящик с усами».
Квартили в статистике – это три величины, которые делят набор данных на четыре равные части. Верхний квартиль это часть набора данных с наиболее высокими значениями.
Перцентили - величины, делящие вариационный ряд на 100, а децили - на 10 равных частей.
Графическое изображение, характеризующее зависимость частоты попадания элементов выборки от соответствующего интервала группировки называется гистограммой.
Измерение – это процедура сравнения объектов по определенным показателям или характеристикам (признакам, атрибутам).
Шкала – необходимый, обязательный элемент измерительной процедуры.
Основные типы измерительных шкал, применяемые в медико-биологических исследованиях:
номинальная или шкала наименований используетя для классификации свойств объекта, присвоения им числовых, буквенных и иных символьных характеристик (пол, национальность, цвет глаз, цвет волос, диагноз и т.д.);
порядковая или ранговая – упорядочивает значения признака (шкала стадий гипертонической болезни по Мясникову, шкала степеней сердечной недостаточности по Стражеско-Василенко-Лангу, шкала степени выраженности коронарной недостаточности по Фогельсону и др.);
интервальная – показывает «размах» отдельных измерений признака (время, шкала температур, тестовые баллы);
шкала отношений – выявляет соотношение измеренных значений признака (рост, вес, время реакции, количество выполненных заданий теста).
Достарыңызбен бөлісу: |