15 Корреляция и регрессия
Дисперсия — мера разброса значений наблюдений относительно среднего.
- \(x_1, . x_n\) — наблюдения;
- \(\bar
\) — среднее всех наблюдений; - \(X\) — вектор всех наблюдений;
- \(n\) — количество наблюдений.
Представим, что у нас есть следующие данные:
Тогда дисперсия — это сумма квадратов расстояний от каждой точки до среднего выборки (пунктирная линия) разделенное на количество наблюдений — 1 (по духу эта мера — обычное среднее, но если вас инетересует разница смещенной и несмещенной оценки дисперсии, см. видео).
Для того чтобы было понятнее, что такое дисперсия, давайте рассмотрим несколько расспределений с одним и тем же средним, но разными дисперсиями:
В R дисперсию можно посчитать при помощи функции var() 3 .
Проверим, что функция выдает то же, что мы записали в формуле.
Так как дисперсия является квадратом отклонения, то часто вместо нее используют более интерпретируемое стандартное отклонение \(\sigma\) — корень из дисперсии. В R ее можно посчитать при помощи функции sd() :
Посчитайте дисперсию переменной sleep_total в датасете msleep , встроенный в tidyverse . Ответ округлите до двух знаков после запятой.
Посчитайте стандартное отклонение переменной sleep_total в датасете msleep , встроенный в tidyverse . Ответ округлите до двух знаков после запятой.
15.2 z-преобразование
z-преобразование (еще используют термин нормализация) — это способ представления данных в виде расстояний от среднего, измеряемых в стандартных отклонениях. Для того чтобы его получить, нужно из каждого наблюдения вычесть среднее и результат разделить на стандартное отклонение.
Если все наблюдения z-преобразовать, то получиться распределение с средним в 0 и стандартным отклонением 1 (или очень близко к ним).
Само по себе \(z\) -преобразование ничего особенного нам про данные не говорит. Однако это преобразование позволяет привести к “общему знаменателю” разные переменные. Т. е. это преобразование ничего нам не говорит про конкретный набор данных, но позволяет сравнивать разные наборы данных.
В R z-преобразование можно сделать при помощи функции scale() . Эта функция вовзращает матрицу, поэтому я использую индекс [,1] , чтобы результат был вектором.
Проверим, что функция выдает то же, что мы записали в формуле.
Однаждый я заполучил градусник со шкалой Фаренгейта и целый год измерял температуру в Москве при помощи градусников с шкалой Фарингейта и Цельсия. В датасет записаны средние значения для каждого месяца. Постройте график нормализованных и ненормализованных измерений. Что можно сказать про измерения, сделанные разными термометрами?
15.3 Ковариация
Ковариация — эта мера ассоциации двух переменных.
- \((x_1, y_1), . (x_n, y_n)\) — пары наблюдений;
- \(\bar
, \bar \) — средние наблюдений; - \(X, Y\) — векторы всех наблюдений;
- \(n\) — количество наблюдений.
Представим, что у нас есть следующие данные:
Тогда, согласно формуле, для каждой точки вычисляется следующая площадь (пуктирными линиями обозначены средние):
Если значения \(x_i\) и \(y_i\) какой-то точки либо оба больше, либо оба меньше средних \(\bar
Таким образом, если много красных прямоугольников, то значение суммы будет положительное и обозначать положительную связь (чем больше \(x\) , тем больше \(y\) ), а если будет много синий прямоугольников, то значение суммы отрицательное и обозначать положительную связь (чем больше \(x\) , тем меньше \(y\) ). Непосредственно значение ковариации не очень информативно, так как может достаточно сильно варьироваться от датасета к датасету.
В R ковариацию можно посчитать при помощи функции cov() .
Как видно, простое умножение на два удвоило значение ковариации, что показывает, что непосредственно ковариацию использовать для сравнения разных датасетов не стоит.
Проверим, что функция выдает то же, что мы записали в формуле.
15.4 Корреляция
Корреляция — это мера ассоциации/связи двух числовых переменных. Помните, что бытовое применение этого термина к категориальным переменным (например, корреляция цвета глаз и успеваемость на занятиях по R) не имеет смысла с точки зрения статистики.
15.4.1 Корреляция Пирсона
Коэффициент корреляции Пирсона — базовый коэффициент ассоциации переменных, однако стоит помнить, что он дает неправильную оценку, если связь между переменными нелинейна.
- \((x_1, y_1), . (x_n, y_n)\) — пары наблюдений;
- \(\bar
, \bar \) — средние наблюдений; - \(X, Y\) — векторы всех наблюдений;
- \(n\) — количество наблюдений.
Последнее уравнение показывает, что коэффициент корреляции Пирсона можно представить как среднее (с поправкой, поэтому \(n-1\) , а не \(n\) ) произведение \(z\) -нормализованных значений двух переменных.
Эта нормализация приводит к тому, что
- значения корреляции имеют те же свойства знака коэффициента что и ковариация:
- если коэффициент положительный (т. е. много красных прямоугольников) — связь между переменными положительная (чем больше \(x\) , тем больше \(y\) ),
- если коэффициент отрицательный (т. е. много синих прямоугольников) — связь между переменными отрицательная (чем больше \(x\) , тем меньше \(y\) );
- если модуль коэффициента близок к 1 или ему равен — связь между переменными сильная,
- если модуль коэффициента близок к 0 или ему равен — связь между переменными слабая.
Для того чтобы было понятнее, что такое корреляция, давайте рассмотрим несколько расспределений с разными значениями корреляции:
Как видно из этого графика, чем ближе модуль корреляции к 1, тем боллее компактно расположены точки друг к другу, чем ближе к 0, тем более рассеяны значения. Достаточно легко научиться приблизительно оценивать коэфициент корреляции на глаз, поиграв 2–5 минут в игру “Угадай корреляцию” здесь или здесь.
В R коэффициент корреляции Пирсона можно посчитать при помощи функции cor() .
Проверим, что функция выдает то же, что мы записали в формуле.
Посчитайте на основе датасета с температурой корреляцию между разными измерениями в шкалах Фарингейта и Цельсия? Результаты округлите до трех знаков после запятой.
15.4.2 Ранговые корреляции Спирмана и Кендалла
Коэффициент корреляции Пирсона к сожалению, чувствителен к значениям наблюдений. Если связь между переменными нелинейна, то оценка будет получаться смещенной. Рассмотрим, например, словарь [Ляшевской, Шарова 2011]:
В целом корреляция между рангом и частотой должна быть высокая, однако связь между этими переменными нелинейна, так что коэффициент корреляции Пирсона не такой уж и высокий:
Для решения той проблемы обычно используют ранговые коэффециенты коррляции Спирмана и Кендала, которые принимают во внимание ранг значения, а не его непосредственное значение.
Давайте сравним с предыдущими наблюдениями и их логаотфмамиы:
15.5 Регрессионный анализ
15.5.1 Основы
Суть регрессионного анализа в моделировании связи между двумя и более переменными при помощи прямой на плоскости. Формула прямой зависит от двух параметров: свободного члена (intercept) и углового коэффициента (slope).
Укажите значение свободного члена для красной прямой.
Укажите значение свободного члена для зеленой прямой.
Укажите значение свободного члена для синей прямой.
Укажите значение углового коэффициента для красной прямой.
Укажите значение углового коэффициента для зеленой прямой.
Укажите значение углового коэффициента для синей прямой.
Когда мы пытаемся научиться предсказывать данные одной переменной \(Y\) при помощи другой переменной \(X\) , мы получаем похожую формулу:
\[y_i = \hat\beta_0 + \hat\beta_1 \times x_i + \epsilon_i,\] где
- \(x_i\) — \(i\) -ый элемент вектора значений \(X\) ;
- \(y_i\) — \(i\) -ый элемент вектора значений \(Y\) ;
- \(\hat\beta_0\) — оценка случайного члена (intercept);
- \(\hat\beta_1\) — оценка углового коэффициента (slope);
- \(\epsilon_i\) — \(i\) -ый остаток, разница между оценкой модели ( \(\hat\beta_0 + \hat\beta_1 \times x_i\) ) и реальным значением \(y_i\) ; весь вектор остатков иногда называют случайным шумом (на графике выделены красным).
Задача регрессии — оценить параметры \(\hat\beta_0\) и \(\hat\beta_1\) , если нам известны все значения \(x_i\) и \(y_i\) и мы пытаемся минимизировать значния \(\epsilon_i\) . В данном конкретном случае, задачу можно решить аналитически и получить следующие формулы:
\[\hat\beta_1 = \frac<(\sum_^n x_i\times y_i)-n\times\bar x \times \bar y><\sum_^n(x_i-\bar x)^2>\]
\[\hat\beta_0 = \bar y — \hat\beta_1\times\bar x\]
15.5.2 Первая регрессия
Давайте попробуем смоделировать количество слов и в рассказах М. Зощенко в зависимости от длины рассказа:
Мы видим, несколько одиночных точек, давайте избавимся от них и добавим регрессионную линию при помощи функции geom_smooth() :
Чтобы получить формулу этой линии нужно запустить функцию, которая оценивает линейную регрессию:
Вот мы и получили коэффициенты, теперь мы видим, что наша модель считает следующее:
\[n = -1.47184 + 0.04405 \times n\_words\]
Более подробную информцию можно посмотреть, если запустить модель в функцию summary() :
В разделе Coefficients содержится информацию про наши коэффициенты:
- Estimate – полученная оценка коэффициентов;
- Std. Error – стандартная ошибка среднего;
- t value – \(t\) -статистика, полученная при проведении одновыборочного \(t\) -теста, сравнивающего данный коэфициент с 0;
- Pr(>|t|) – полученное \(p\) -значение;
- Multiple R-squared и Adjusted R-squared — одна из оценок модели, показывает связь между переменными. Без поправок совпадает с квадратом коэффициента корреляции Пирсона:
- F-statistic — \(F\) -статистика полученная при проведении теста, проверяющего, не являются ли хотя бы один из коэффицинтов статистически значимо отличается от нуля. Совпадает с результатами дисперсионного анализа (ANOVA).
Теперь мы можем даже предсказывать значения, которые мы еще не видели. Например, сколько будет и в рассказе Зощенко длиной 1000 слов?
Постройте ленейную ргерессию на основании рассказов А. Чехова, предсказывая количество и на основании количства слов. При моделировании используйте только рассказы длиной меньше 2500 слов. Укажите свободный член получившейся модели, округлив его до 3 знаков после запятой.
Укажите угловой коффициент получившейся модели, округлив его до 3 знаков после запятой.
Укажите предсказания модели для рассказа длиной 1000 слов, округлив получнное значение до 3 знаков после запятой.
15.5.3 Категориальные переменные
Что если мы хотим включить в наш анализ категориальные переменные? Давайте рассмотрим простой пример с рассказами Чехова и Зощенко, которые мы рассматривали в прошлом разделе. Мы будем анализировать логарифм доли слов деньги:
Визуализация выглядит так:
Красной точкой обозначены средние значения, так что мы видим, что между двумя писателями есть разница, но является ли она статистически значимой? В прошлом разделе, мы рассмотрели, что в таком случае можно сделать t-test:
Разница между группами является статистически значимой (t(125) = 5.6871, p-value = 8.665e-08).
Для того, чтобы запустить регрессию на категориальных данных категориальная переменная автоматически разбивается на группу бинарных dummy-переменных:
Дальше для регрессионного анализа выкидывают одну из переменных, так как иначе модель не сойдется (dummy-переменных всегда n-1, где n — количество категорий в переменной).
Если переменная dummy_chekhov принимает значение 1, значит речь о рассказе Чехова, а если принимает значение 0, то о рассказе Зощенко. Если вставить нашу переменную в регрессионную формулу получится следующее:
\[y_i = \hat\beta_0 + \hat\beta_1 \times \text
+ \epsilon_i,\] Так как dummy_chekhov принимает либо значение 1, либо значение 0, то получается, что модель предсказывает лишь два значения:
\[y_i = \left\<\begin
\hat\beta_0 + \hat\beta_1 \times 1 + \epsilon_i = \hat\beta_0 + \hat\beta_1 + \epsilon_i\text<, если рассказ Чехова>\\ \hat\beta_0 + \hat\beta_1 \times 0 + \epsilon_i = \hat\beta_0 + \epsilon_i\text <, если рассказ Зощенко>\end \right.\] Таким образом, получается, что свободный член \(\beta_0\) и угловой коэффициент \(\beta_1\) в регресси с категориальной переменной получает другую интерпретацию. Одно из значений переменной кодируется при помощи \(\beta_0\) , а сумма коэффициентов \(\beta_0+\beta_1\) дают другое значение переменной. Так что \(\beta_1\) — это разница между оценками двух значений переменной.
Давайте теперь запустим регрессию на этих же данных:
Во-первых стоит обратить внимание на то, что R сам преобразовал нашу категориальную переменную в dummy-переменную authorЧехов . Во-вторых, можно заметить, что значения t-статистики и p-value совпадают с результатами полученными нами в t-тесте выше. Статистическти значимый коэффициент при аргументе authorЧехов следует интерпретировать как разницу средних между логарифмом долей в рассказах Чехова и Зощенко.
В работе (Coretta 2017, https://goo.gl/NrfgJm) рассматривается отношения между длительностью гласного и придыхание согласного. Автор собрал данные 5 носителей исландского. Дальше он извлек длительность гласного, после которого были придыхательные и непридыхательные. Скачайте данные и постройте регрессионную модель, предсказывающую длительность гласного на основе .
15.5.4 Множественная регрессия
Множественная регрессия позволяет проанализировать связь между зависимой и несколькими зависимыми переменными. Формула множественной регрессии не сильно отличается от формулы обычной линейной регрессии:
\[y_i = \hat\beta_0 + \hat\beta_1 \times x_<1i>+ \dots+ \hat\beta_n \times x_
+ \epsilon_i,\] - \(x_
\) — \(i\) -ый элемент векторов значений \(X_1, \dots, X_n\) ; - \(y_i\) — \(i\) -ый элемент вектора значений \(Y\) ;
- \(\hat\beta_0\) — оценка случайного члена (intercept);
- \(\hat\beta_k\) — коэфциент при переменной \(X_
\) ; - \(\epsilon_i\) — \(i\) -ый остаток, разница между оценкой модели ( \(\hat\beta_0 + \hat\beta_1 \times x_i\) ) и реальным значением \(y_i\) ; весь вектор остатков иногда называют случайным шумом.
В такой регресии предикторы могут быть как числовыми, так и категориальными (со всеми вытекающими последствиями, которые мы обсудили в предудщем разделе). Такую регрессию чаще всего сложно визуализировать, так как в одну регрессионную линию вкладываются сразу несколько переменных.
Попробуем предсказать длину лепестка на основе длины чашелистик и вида ириса:
Все предикторы статистически значимы. Давайте посмотрим предсказания модели для всех наблюдений:
Всегда имеет смысл визуализировать, что нам говорит наша модель. Если использовать пакет ggeffects (или предшествовавший ему пакет effects ), это можно сделать не сильно задумываясь, как это делать:
Как видно из графиков, наша модель имеет одинаковые угловые коэффициенты (slope) для каждого из видов ириса и разные свободные члены (intercept).
\[y_i = \left\<\begin
-1.70234 + 0.63211 \times \text + \epsilon_i\text<, если вид setosa>\\ -1.70234 + 2.2101 + 0.63211 \times \text + \epsilon_i\text <, если вид versicolor>\\ -1.70234 + 3.09 + 0.63211 \times \text + \epsilon_i\text <, если вид virginica>\end \right.\] 15.5.5 Сравнение моделей
Как нам решить, какая модель лучше? Ведь теперь можно добавить сколько угодно предикторов? Давайте создадим новую модель без предиктора Species :
- можно сравнивать статистическую значимость предикторов
- можно сравнивать \(R^2\)
- чаще всего используют так называемые информационные критерии, самый популярный – AIC (Akaike information criterion). Сами по себе значение этого критерия не имеет значения – только в сравнении моделей, построенных на похожих данных. Чем меньше значение, тем модель лучше.
15.5.6 Послесловие
- сущетсвуют ограничения на применение линейной регресии
- связь между предсказываемой переменной и предикторами должна быть линейной
- остатки должны быть нормально распределены (оценивайте визуально)
- дисперсия остатков вокруг регрессионной линии должно быть постоянно (гомоскидастично)
- предикторы не должны коррелировать друг с другом
- все наблюдения в регрессии должны быть независимы друг от друга
Вот так вот выглядят остатки нашей модели на основе датасета iris . Смотрите пост, в котором обсуждается, как интерпретировать график остатков.
5. Корреляционная функция случайного процесса
При исследовании вопросов зависимости или независимостидвух или более сечений случайных процессов знание лишь математического ожидания и дисперсии с.п. не достаточно.
Для определения связи между различными случайными процессами используется понятие корреляционной функции – аналог понятия ковариации случайных величин (см. Т.8)
Корреляционной (ковариационной, автоковариационной, автокорреляционной)функцией случайного процесса
называется неслучайная функция двух аргументов
, которая при каждой паре значений
равна корреляционному моменту соответствующих сечений
и
:
или (с учётом обозначения центрированной случайной функции
) имеем
.
Приведём основные свойства корреляционной функции
случайного процесса
.
1. Корреляционная функция при одинаковых значениях аргументов равна дисперсии с.п.
.
.
Доказанное свойство позволяет вычислить м.о. и корреляционную функцию являющимися основными характеристиками случайного процесса, необходимость в подсчёте дисперсии отпадает.
2. Корреляционная функция не меняется относительно замены аргументов, т.е. является симметрической функцией относительно своих аргументов:
.
Это свойство непосредственно выводится из определения корреляционной функции.
3. Если к случайному процессу прибавить неслучайную функцию, то корреляционная функция не меняется, т.е. если
, то
. Другими словами
является периодической функцией относительно любой неслучайной функции.
Действительно, из цепочки рассуждений
,
следует, что
. Отсюда получим требуемое свойство 3.
4. Модуль корреляционной функции не превосходит произведения с.к.о., т.е.
.
Доказательство свойства 4. проводится аналогично как в пункте 12.2. (теорема 12..2), с учётом первого свойства корреляционной функции с.п.
.
5. При умножении с.п.
на неслучайный множитель
её корреляционная функция умножится на произведение
, т.е., если
, то
.
5.1. Нормированная корреляционная функция
Наряду с корреляционной функцией с.п. рассматривается также нормированная корреляционная функция (или автокорреляционнаяфункция)
определяемая равенством
.
Следствие. На основании свойства 1 имеет место равенство
.
По своему смыслу
аналогичен коэффициенту корреляции для с.в., но не является постоянной величиной, а зависит от аргументов
и
.
Перечислим свойства нормированной корреляционной функции:
1.
2.
3.
.
Пример 4. Пусть с.п. определяется формулой
, т.е.
с.в.,
распределена по нормальному закону с
Найти корреляционную и нормированную функции случайного процесса
Решение. По определению имеем
,
т.е.
Отсюда с учётом определения нормированной корреляционной функции и результатов решения предыдущих примеров получим
=1, т.е.
.
5.2. Взаимная корреляционная функция случайного процесса
Для определения степени зависимости сеченийдвух случайных процессов используют корреляционную функцию связи или взаимную корреляционную функцию.
Взаимной корреляционной функцией двух случайных процессов
и
называется неслучайная функция
двух независимых аргументов
и
, которая при каждой паре значений
и
равна корреляционному моменту двух сечений
и
.
Два с.п.
и
называютсянекоррелированными, если их взаимная корреляционная функция тождественно равна нулю, т.е. если для любых
и
имеет место
Если же для любых
и
окажется
, то случайные процессы
и
называютсякоррелированными(илисвязанными).
Рассмотрим свойства взаимной корреляционной функции, которые непосредственно выводятся из её определения и свойств корреляционного момента (см. 12.2):
1.При одновременной перестановке индексов и аргументов взаимная корреляционная функция не меняется, то есть
2. Модуль взаимной корреляционной функции двух случайных процессов не превышает произведения их средних квадратичных отклонений, то есть
3. Корреляционная функция не изменится, если к случайным процессам
и
прибавить неслучайные функции
и
соответственно, то есть
, где соответственно
и
4. Неслучайные множители
можно вынести за знак корреляции, то есть, если
и, то
5. Если
, то
.
6. Если случайные процессы
и
некоррелированные, то корреляционная функция их суммы равна сумме их корреляционных функций, то есть
.
Для оценки степени зависимости сечений двух с.п. используют также нормированную взаимную корреляционную функцию
, определяемую равенством:
.
Функция
обладает теми же свойствами, что и функция
, но свойство 2
заменяется на следующее двойное неравенство
, т.е. модуль нормированной взаимной корреляционной функции не превышает единицы.
Пример 5. Найти взаимную корреляционную функцию двух с.п.
и
, где
случайная величина, при этом
Решение. Так как
,
.
То
т.е.
Корреляционный анализ в Excel. Пример выполнения корреляционного анализа
Зависимость устанавливается тогда, когда начинается выявление коэффициента корреляции. Этот метод отличается от анализа регрессии, так как здесь только один показатель, рассчитываемый при помощи корреляции. Интервал изменяется от +1 до -1. Если она плюсовая, то повышение первой величины способствует повышению 2-й. Если минусовая, то повышение 1-й величины способствует понижению 2-й. Чем выше коэффициент, тем сильнее одна величина влияет на 2-ю.
Важно! При 0-м коэффициенте зависимости между величинами нет.
Примеры использования
Рассмотрим несколько задач, чтобы понять принцип работы статистической функции.
Пример 1. В фирме есть бюджет на рекламную кампанию в месяц, а также есть объем продаж продукта, необходимо посчитать зависимость этих величин.
В произвольной ячейке записываете формулу со ссылкой на два диапазона и получаете число.
Результат близок к единице, значит между рекламой и продажами продукта существует сильная прямая зависимость.
Пример 2.
Есть показатели продаж мебели за квартал, а также изменение цены на товар за тот же период времени.
В данном случае коэффициент корреляции стремится к -1, что говорит о сильной обратной зависимости. То есть с увеличением цены товара, продажи падают.
Пример 3.
Имеются затраты на квартиру и еду за три месяца, необходимо вычислить зависимость этих статей расхода друг от друга.
Полученный результат говорит о слабой связи этих категорий.
Расчет коэффициента корреляции
Разберем расчёт на нескольких образцах. К примеру, есть табличные данные, где по месяцам описаны в отдельных столбцах траты на рекламное продвижение и объём продаж. Исходя из таблицы, будем выяснять уровень зависимости объема продаж от денег, затраченных на рекламное продвижение.
Способ 1: определение корреляции через Мастер функций
КОРРЕЛ – функция, позволяющая реализовать корреляционный анализ. Общий вид — КОРРЕЛ(массив1;массив2). Подробная инструкция:
- Необходимо произвести выделение ячейки, в которой планируется выводить итог расчета. Нажать «Вставить функцию», находящуюся слева от текстового поля для ввода формулы.
- Открывается «Мастер функций». Здесь необходимо найти КОРРЕЛ, кликнуть на нее, затем на «ОК».
2- Открылось окошко аргументов. В строку «Массив1» необходимо ввести координаты интервалы 1-го из значений. В рассматриваемом примере — это столбец «Величина продаж». Нужно просто произвести выделение всех ячеек, которые находятся в этой колонке. В строку «Массив2» аналогично необходимо добавить координаты второй колонки. В рассматриваемом примере — это столбец «Затраты на рекламу».
3- После введения всех диапазонов кликаем на кнопку «ОК».
Коэффициент отобразился в той ячейке, которая была указана в начале наших действий. Полученный результат 0,97. Этот показатель отображает высокую зависимость первой величины от второй.
4Способ 2: вычисление корреляции с помощью Пакета анализа
Существует еще один метод определения корреляции. Здесь используется одна из функций, находящаяся в пакете анализа. Перед ее использованием нужно провести активацию инструмента. Подробная инструкция:
- Переходим в раздел «Файл».
5- Открылось новое окошко, в котором нужно кликнуть на раздел «Параметры».
- Жмём на «Надстройки».
- Находим в нижней части элемент «Управление». Здесь необходимо выбрать из контекстного меню «Надстройки Excel» и кликнуть «ОК».
6- Открылось специальное окно надстроек. Ставим галочку рядом с элементом «Пакет анализа». Кликаем «ОК».
- Активация прошла успешно. Теперь переходим в «Данные». Появился блок «Анализ», в котором необходимо кликнуть «Анализ данных».
- В новом появившемся окошке выбираем элемент «Корреляция» и жмем на «ОК».
7- На экране появилось окошко настроек анализа. В строчку «Входной интервал» необходимо ввести диапазон абсолютно всех колонок, принимающих участие в анализе. В рассматриваемом примере — это столбики «Величина продаж» и «Затраты на рекламу». В настройках отображения вывода изначально выставлен параметр «Новый рабочий лист», что означает показ результатов на другом листе. По желанию можно поменять локацию вывода результата. После проведения всех настроек нажимаем на «ОК».
8
Вывелись итоговые показатели. Результат такой же, как и в первом методе – 0,97.Надстройка Пакет анализа
В надстройке Пакет анализа для вычисления ковариации и корреляции имеются одноименные инструменты анализа .
После вызова инструмента появляется диалоговое окно, которое содержит следующие поля:
- Входной интервал : нужно ввести ссылку на диапазон с исходными данными для 2-х переменных
- Группирование : как правило, исходные данные вводятся в 2 столбца
- Метки в первой строке : если установлена галочка, то Входной интервал должен содержать заголовки столбцов. Рекомендуется устанавливать галочку, чтобы результат работы Надстройки содержал информативные столбцы
- Выходной интервал : диапазон ячеек, куда будут помещены результаты вычислений. Достаточно указать левую верхнюю ячейку этого диапазона.
Надстройка возвращает вычисленные значения корреляции и ковариации (для ковариации также вычисляются дисперсии обоих случайных величин).
Определение и вычисление множественного коэффициента корреляции в MS Excel
Для выявления уровня зависимости нескольких величин применяются множественные коэффициенты. В дальнейшем итоги сводятся в отдельную табличку, именуемую корреляционной матрицей.
- В разделе «Данные» находим уже известный блок «Анализ» и жмем «Анализ данных».
9- В отобразившемся окошке жмем на элемент «Корреляция» и кликаем на «ОК».
- В строку «Входной интервал» вбиваем интервал по трём или более столбцам исходной таблицы. Диапазон можно ввести вручную или же просто выделить его ЛКМ, и он автоматически отобразится в нужной строчке. В «Группирование» выбираем подходящий способ группировки. В «Параметр вывода» указывает место, в которое будут выведены результаты корреляции. Кликаем «ОК».
10- Готово! Построилась матрица корреляции.
11PEARSON (функция PEARSON)
измените ширину столбцов, нулевые значения, учитываются.в Microsoft Excel. между состоянием по¬годы
посетителей музеяКоличество посетителей
Описание
диапазоне полностью коррелирует столбцам или по Кор¬реляция из пакета Значения y увеличиваются начнется построение матрицы. корреляции между соответствующими известны). коэффициента корреляции выглядит
Синтаксис
к другой крайней
5 совпадает, функция PEARSON
-
индекс в интервале
чтобы видеть все
Возвращает коэффициент корреляции между
Замечания
- и посещаемостью парка парка сам с собой строкам) ;
- Анализ данных.. Процедура – значения х Размер диапазона определится значениями. Имеет смыслМежду переменными определяется сильная так: точке диапазона (-1),1
- возвращает значение ошибки от -1,0 до данные. имеют различное количество диапазонами ячеек «массив1″ — 0,97, между8495132
- Рассматривается отдельно каждый5. указать выходной позволяет получить корреляционную
уменьшаются. автоматически. ее строить для
Пример
прямая связь.Чтобы упростить ее понимание, то между переменными3 #Н/Д. 1,0 включительно, которыйДанные1 точек данных, функция и «массив2». Коэффициент посещаемостью парка и14503348 коэффици¬ент корреляции между интервал, то есть
матрицу, содержащую коэффициенты Отсутствие взаимосвязи между значениями После нажатия ОК в нескольких переменных. Встроенная функция КОРРЕЛ позволяет разобьем на несколько имеется сильная обратная 5 Коэффициента корреляции Пирсона (r) отражает степень линейной Данные2 КОРРЕЛ возвращает значение корреляции используется для музея — 20380643 соответствующими параметрами. Отметим, ввести ссылку на корреляции между различными y и х3. выходном диапазоне появляется Матрица коэффициентов корреляции в Коэффициент парной корреляции в Excel
Разберем, как правильно проводить коэффициент парной корреляции в табличном процессоре Excel.
Расчет коэффициента парной корреляции в Excel
К примеру, у вас есть значения величин х и у.
Х – это зависимая переменна, а у – независимая. Необходимо найти направление и силу связи между этими показателями. Пошаговая инструкция:
- Выявим средние показатели величин при помощи функции СРЗНАЧ.
- Произведем расчет каждого х и хсредн, у и усредн при помощи оператора «-».
14- Производим перемножение вычисленных разностей.
15- Вычисляем сумму показателей в этом столбце. Числитель – найденный результат.
- Посчитаем знаменатели разницы х и х-средн, у и у-средн. Для этого произведем возведение в квадрат.
17- Используя функцию АВТОСУММА, найдем показатели в полученных столбиках. Производим перемножение. При помощи функции КОРЕНЬ возводим результат в квадрат.
- Производим подсчет частного, используя значения знаменателя и числителя.
- КОРРЕЛ – интегрированная функция, которая позволяет предотвратить проведение сложнейших расчетов. Заходим в «Мастер функций», выбираем КОРРЕЛ и указываем массивы показателей х и у. Строим график, отображающий полученные значения.
21Матрица парных коэффициентов корреляции в Excel
Разберем, как проводить подсчет коэффициентов парных матриц. К примеру, есть матрица из четырех переменных.
- Заходим в «Анализ данных», находящийся в блоке «Анализ» вкладки «Данные». В отобразившемся списке выбираем «Корелляция».
- Выставляем все необходимые настройки. «Входной интервал» – интервал всех четырех колонок. «Выходной интервал» – место, в котором желаем отобразить итоги. Кликаем на кнопку «ОК».
- В выбранном месте построилась матрица корреляции. Каждое пересечение строки и столбца – коэффициенты корреляции. Цифра 1 отображается при совпадающих координатах.
Прочие возможности
Также при помощи функции КОРРЕЛ можно провести более сложные исследования. Примером является парная и множественная корреляция. Отличие их заключается в том, что при множественной корреляции независимых переменных, влияющих на величину, может быть две и более, а при парной – только одна. Эти инструменты используют специалисты при анализе большого количества данных для проведения статистических исследований и выявления сложных зависимостей одной величины от множества других или их отсутствие.
Также можно сделать график, чтобы наглядно показать зависимость одной величины от другой. Сделаем это для первого примера с рекламой и продажами.
Такой способ отображения данных позволяет быстро оценить влияние, а коэффициент корреляции отображает силу зависимости. Однако делать окончательный вывод на основе корреляционных исследований не рекомендуется, необходимо проводить дополнительный анализ влияющих факторов.
Как видите, редактор Excel от Microsoft позволяет проводить статистические исследования и выявлять взаимосвязи между массивами данных при помощи встроенных функций. Корреляция дает общее представление о взаимосвязи данных, но более точные результаты можно получить только с использованием нескольких статистических инструментов.
Функция КОРРЕЛ для определения взаимосвязи и корреляции в Excel
КОРРЕЛ – функция, применяемая для подсчета коэффициента корреляции между 2-мя массивами. Разберем на четырех примерах все способности этой функции.
Примеры использования функции КОРРЕЛ в Excel
Первый пример. Есть табличка, в которой расписана информация об усредненных показателях заработной платы работников компании на протяжении одиннадцати лет и курсе $. Необходимо выявить связь между этими 2-умя величинами. Табличка выглядит следующим образом:
Алгоритм расчёта выглядит следующим образом:
25Отображенный показатель близок к 1. Результат:
26Определение коэффициента корреляции влияния действий на результат
Второй пример. Два претендента обратились за помощью к двум разным агентствам для реализации рекламного продвижения длительностью в пятнадцать суток. Каждые сутки проводился социальный опрос, определяющий степень поддержки каждого претендента. Любой опрошенный мог выбрать одного из двух претендентов или же выступить против всех. Необходимо определить, как сильно повлияло каждое рекламное продвижение на степень поддержки претендентов, какая компания эффективней.
27Используя нижеприведенные формулы, рассчитаем коэффициент корреляции:
- =КОРРЕЛ(А3:А17;В3:В17).
- =КОРРЕЛ(А3:А17;С3:С17).
28Из полученных результатов становится понятно, что степень поддержки 1-го претендента повышалась с каждыми сутками проведения рекламного продвижения, следовательно, коэффициент корреляции приближается к 1. При запуске рекламы другой претендент обладал большим числом доверия, и на протяжении 5 дней была положительная динамика. Потом степень доверия понизилась и к пятнадцатым суткам опустилась ниже изначальных показателей. Низкие показатели говорят о том, что рекламное продвижение отрицательно повлияло на поддержку. Не стоит забывать, что на показатели могли повлиять и остальные сопутствующие факторы, не рассматриваемые в табличной форме.
Анализ популярности контента по корреляции просмотров и репостов видео
Третий пример. Человек для продвижения собственных роликов на видеохостинге Ютуб применяет соцсети для рекламирования канала. Он замечает, что существует некая взаимосвязь между числом репостов в соцсетях и количеством просмотров на канале. Можно ли про помощи инструментов табличного процессора произвести прогноз будущих показателей? Необходимо выявить резонность применения уравнения линейной регрессии для прогнозирования числа просмотров видеозаписей в зависимости от количества репостов. Табличка со значениями:
29Теперь необходимо провести определение наличия связи между 2-мя показателями по нижеприведенной формуле:
0,7;ЕСЛИ(КОРРЕЛ(A3:A8;B3:B8)>0,7;»Сильная прямая зависимость»;»Сильная обратная зависимость»);»Слабая зависимость или ее отсутствие»)’ >
Если полученный коэффициент выше 0,7, то целесообразней применять функцию линейной регрессии. В рассматриваемом примере делаем:
30Теперь производим построение графика:
31Применяем это уравнение, чтобы определить число просматриваний при 200, 500 и 1000 репостов: =9,2937*D4-206,12. Получаем следующие результаты:
32Функция ПРЕДСКАЗ позволяет определить число просмотров в моменте, если было проведено, к примеру, двести пятьдесят репостов. Применяем: 0,7;ПРЕДСКАЗ(D7;B3:B8;A3:A8);»Величины не взаимосвязаны»)’ Получаем следующие результаты:
33Особенности использования функции КОРРЕЛ в Excel
Данная функция имеет нижеприведенные особенности:
- Не учитываются ячейки пустого типа.
- Не учитываются ячейки, в которых находится информация типа Boolean и Text.
- Двойное отрицание «—» применяется для учёта логических величин в виде чисел.
- Количество ячеек в исследуемых массивах обязаны совпадать, иначе будет выведено сообщение #Н/Д.
Введение
Чтобы рассчитать коэффициент корреляции, необходимо воспользоваться специальной функцией КОРРЕЛ. Формула содержит аргументы для двух массивов данных, между которыми нужно найти зависимость. Полученный коэффициент корреляции в excel можно расшифровать следующим образом:
- Если значение близко к 1 или -1, то существует сильная прямая или обратная связь между величинами.
- Коэффициент около 0,5 или -0,5 говорит о том, что между массивами слабая взаимосвязь.
- Если получается число близкое к нулю, то величины не связаны между собой.
При этом есть ряд особенностей использования функции КОРРЕЛ:
- Программа не учитывает в расчете пустые ячейки, элементы массива с текстовым форматом и ячейки с логическими операторами. При этом числа в виде текста будут учтены.
- Размеры двух массивов должны быть одинаковыми, в противном случае редактор выдаст ошибку типа Н/Д.
- При корреляционном анализе нельзя использовать пустые столбцы или диапазон с нулевыми значениями.
Поле корреляции (диаграмма рассеяния)
Корреляционное поле — это графическое отображение исходных данных. По расположению точек можно определить наличие зависимости и ее характер.
В редакторе Excel построение выполняется с помощью инструмента «Диаграмма»:
- Выделить столбцы с данными.
- Кликнуть «Вставка» — «Точечная» — «Точечная с маркерами».
Результат построения корреляционной матрицы.
По расположению точек на диаграмме можно сделать вывод о том, что прослеживается сильная положительная корреляционная зависимость между величиной затрат на маркетинг и объемом продаж.
Для того, чтобы использовать диаграмму в практических целях, можно добавить линию тренда и уравнение. Для этого нужно выполнить следующие действия:
Корреляционный анализ данных с использованием программного обеспечения Statistica и SPSS Текст научной статьи по специальности «Компьютерные и информационные науки»
Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гржибовский А.М., Иванов С.В., Горбатова М.А.
В настоящей работе представлены общие сведения о выполнении корреляционного анализа данных с использованием параметрических и непараметрических методов. Приведены алгоритмы расчета коэффициентов корреляции Пирсона , Спирмена и Кендалла с использованием программного обеспечения Statistica 10 и SPSS 20 и интерпретация полученных результатов анализа. Настоящая статья призвана дать общие сведения о корреляционном анализе , и не заменяет прочтения специализированной литературы по статистике и клинической эпидемиологии.
Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гржибовский А.М., Иванов С.В., Горбатова М.А.
CORRELATION ANALYSIS OF DATA USING STATISTICA AND SPSS SOFTWARE
In this paper we present the main principles of correlation analysis using parametric and non-parametric methods. Algorithms for calculations of Pearson’s, Spearmen’s and Kendall’s coefficients using Statistica 10 and SPSS 20 software are presented. Special emphasis is given to interpretation of results of statistical analysis. The article complements, but does not substitute specialized literature on biostatistics and clinical epidemiology.
Текст научной работы на тему «Корреляционный анализ данных с использованием программного обеспечения Statistica и SPSS»
Получена: 11 января 2017 / Принята: 2 февраля 2017 / Опубликована online: 28 февраля 2017 УДК 614.2 + 303.4
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ
STATISTICA И SPSS
Андрей М. Гржибовский 1-4, http://orcid.org/0000-0002-5464-0498, Сергей В. Иванов 5, http://orcid.org/0000-0003-0254-3941 Мария А. Горбатова 2, http://orcid.org/0000-0002-6363-9595
1 Национальный Институт Общественного Здравоохранения, г. Осло, Норвегия;
2 Северный Государственный Медицинский Университет, г. Архангельск, Россия;
3 Международный Казахско-Турецкий Университет им. Х.А. Ясави, г. Туркестан, Казахстан;
4 Северо-Восточный Федеральный Университет, г. Якутск, Россия;
5 "Первый Санкт-Петербургский государственный медицинский университет им. акад. И.П. Павлова", г. Санкт-Петербург, Россия.
В настоящей работе представлены общие сведения о выполнении корреляционного анализа данных с использованием параметрических и непараметрических методов. Приведены алгоритмы расчета коэффициентов корреляции Пирсона, Спирмена и Кендалла с использованием программного обеспечения Statistica 10 и SPSS 20 и интерпретация полученных результатов анализа. Настоящая статья призвана дать общие сведения о корреляционном анализе, и не заменяет прочтения специализированной литературы по статистике и клинической эпидемиологии.
Ключевые слова: Statistica, SPSS, корреляционный анализ, коэффициент корреляции Пирсона, коэффициент корреляции Спирмена, коэффициент корреляции Кендалла.
CORRELATION ANALYSIS OF DATA USING STATISTICA AND SPSS SOFTWARE
Andrej M. Grjibovski 1-4, http://orcid.org/0000-0002-5464-0498, Sergej V. Ivanov 5, http://orcid.org/0000-0003-0254-3941 Maria A. Gorbatova 2, http://orcid.org/0000-0002-6363-9595
1 Norwegian Institute of Public Health, Oslo, Norway;
2 Northern State Medical University, Arkhangelsk, Russia;
3 International Kazakh-Turkish University, Turkestan, Kazakhstan;
4 North-Eastern Federal University, Yakutsk, Russia;
5 Pavlov First Saint Petersburg State Medical University, St. Petersburg, Russia.
In this paper we present the main principles of correlation analysis using parametric and non-parametric methods. Algorithms for calculations of Pearson's, Spearmen's and Kendall's coefficients using Statistica 10 and SPSS 20 software are presented. Special emphasis is given to interpretation of results of statistical analysis. The article complements, but does not substitute specialized literature on biostatistics and clinical epidemiology.
Keywords: Statistica, SPSS, correlation analysis, Pearson's correlation coefficient, Spearmen's correlation coefficient, Kendall's correlation coefficient.
STATISTICA 10 ЖЭНЕ SPSS 20 БАГДАРЛАМАЛЫК КАМСЫНДАНДЫРУДЫ КОЛДАНУМЕН КОРРЕЛЯЦИЯЛЫК
Андрей М. Гржибовский 1-4, http://orcid.org/0000-0002-5464-0498, Сергей В. Иванов 5, http://orcid.org/0000-0003-0254-3941 Мария А. Горбатова 2, http://orcid.org/0000-0002-6363-9595
1 Когамдьщ Денсаулык сактау ¥лттык Институты, Осло к., Норвегия;
2 СолтYCтiк Мемлекетлк Медициналык Университетi, Архангельск к., Ресей;
3 Х.А. Ясави ат. Халыкаралык Казак — ТYрiк Университетi, Туркестан, Казакстан;
4 СолтYCтiк — Шыгыс Федералдык Университетi, Якутск к-, Ресей;
5 Академик И.П. Павлов атынд. бiрiншi Санкт-Петербург мемлекеттiк медициналык университетi, Санкт-Петербург к-, Ресей.
Осы жумыста nараметрлiк жэне параметрлiк емес эдiстердi колданумен корреляциялык; талдау мэлiметтерiн орындау туралы жалпы мэлiметтер усынылды.Statistica 10 жэне SPSS 20 багдарламалыккамсындандырудыколданумен Пирсонныц, Спирменныц жэне Кендаллдыц корреляциялары коэфициенттерш есептеу алгоритмдерi жэне алынган талдау нэтижелерi интерпретациясы келтiрiлген. Осы макала корреляциялык; мэлiметтердi талдау туралы жалпы мэлiметтер беруге талап етiлген жэне статистика жэне клиникалык; эпидемиология бойынша мамандандырылган эдебиеттi окудыц орнын толтырмайды.
Нег']зг'] свздер: Statistica, SPSS, корреляциялык; талдау, Пирсонныц корреляциясы коэффициентi, Спирменныц корреляциясы коэффициентi, Кендаллдыц корреляциясы коэффициент
Гржибовский А.М., Иванов С.В., Горбатова М.А. Корреляционный анализ данных с использованием программного обеспечения Statistica и SPSS / / Наука и Здравоохранение. 2017. №1. С. 7-36.
Grjibovski A.M., Ivanov S.V., Gorbatova M.A. Correlation analysis of data using Statistica and SPSS software. Nauka i Zdravookhranenie [Science & Healthcare]. 2017, 1, pp. 7-36.
Гржибовский А.М., Иванов С.В., Горбатова М.А. Statistica жэне SPSS багдарламалы; камсындандыруды колданумен корреляциялык мэлiметтердi талдау / / Гылым жэне Денсаулык сактау. 2017. №1. Б. 7-36.
Настоящая статья продолжает серию публикаций, посвященных статистическому анализу данных биомедицинских исследований [9, 13, 14, 15, 16, 17].
Статистическая обработка данных является завершающим этапом исследования, но никакой статистический анализ не может «исправить» некорректно организованное исследование и неправильно собранные данные. Именно поэтому авторы настоящей статьи настоятельно рекомендуют читателю ознакомиться с литературой по эпидемиологии [32, 23, 35], а также с практическими аспектами организации и анализа результатов
различных типов научных исследований в здравоохранении (одномоментных, когортных, экологических, экспериментальных
исследований и «случай-контроль»), которые представлены в статьях, опубликованных в 2015 году в журнале «Наука и Здравоохранение» [10, 11, 12, 18, 19].
Высокое качество статистического анализа является обязательным условием востребованности результатов исследований международным научным сообществом [27, 1], поэтому задачами настоящей серии статей является формирование у начинающего исследователя базисных представлений о
статистической обработке данных, приобретение практического опыта работы с современными статистическими пакетами программ и предупреждение типичных ошибок, возникающих в процессе анализа результатов исследования.
Данная статья посвящена
корреляционному анализу данных с использованием программного обеспечения Statistica 10 и SPSS 20.
В процессе изучения различных явлений часто возникает необходимость оценить тесноту (силу) связи между ними. Цель корреляционного анализа — количественная оценка силы и направления взаимосвязи между явлениями.
Термин «корреляция» был впервые введен Ж.Кювье и 1806 году, и только в 1886 г. Ф. Гальтоном он впервые был применен к результатам биомедицинских исследований [24].
По направлению корреляционная связь может быть прямой (положительной), когда увеличение или уменьшение значения одного признака приводит, соответственно, к увеличению или уменьшению значения другого признака, или обратной (отрицательной), когда увеличение значения одного признака приводит к уменьшению значения другого и наоборот.
Например, между степенью бактериального загрязнения воды и количеством кишечных инфекций у проживающего на загрязненной территории может быть обнаружена прямая корреляционная связь, а между уровнем финансирования здравоохранения и смертностью населения от различных заболеваний — обратная корреляционная связь
По характеру связь может быть не только корреляционной, но и функциональной, когда каждому значению одного признака соответствует точное значение другого (например, функциональная связь между массой тела и индексом массы тела).
Исследователь должен ясно понимать, что в результате корреляционного анализа невозможно установить причинно-следственные связи между явлениями, поэтому выводы о влиянии одного явления на другое на основании одного лишь корреляционного анализа данных будут неправомерными. Не допускается подмена понятия причинно-следственной связи корреляционной связью. Юмористическим примером такого заблуждения служит обнаружение сильной положительной корреляционной взаимосвязи между количеством гнезд аистов и количеством новорожденных в Копенгагене в послевоенные годы, как доказательство того, что детей приносят аисты [35].
Для количественной оценки
корреляционной связи используются различные коэффициенты корреляции, имеющие разные способы расчета, однако наиболее популярными являются следующие три [7, 32, 5]:
1. Коэффициент корреляции Пирсона (Pearson) r — параметрический.
2. Коэффициент корреляции Спирмена (Spearman) rs — непараметрический.
3. Коэффициенты корреляции Кендалла (Kendall) Ta и ть — непараметрические.
Все коэффициенты корреляции могут принимать значение от 0 до 1 или от -1 до 0.
Оценка силы корреляционной связи проводится в соответствии с таблицей 1.
Количественные критерии оценки силы и направления корреляционной связи.
Сила связи Значения коэффициента корреляции
Отсутствует 0,0 0,0
Слабая от 0,01 до 0,29 от -0,01 до -0,29
Средняя от 0,30 до 0,69 от -0,30 до -0,69
Сильная от 0,70 до 0,99 от -0,70 до -0,99
Полная (функциональная) 1,0 -1,0
Использование коэффициент корреляции обоснованно, поэтому следует указать Пирсона встречается в биомедицинских условия его применения [7, 32]: исследованиях наиболее широко, и не всегда
1. Обе переменные должны быть количественными и непрерывными.
2. Как минимум один из изучаемых признаков, а лучше оба, должны иметь распределение, близкое к нормальному.
3. Зависимость между переменными должна носить линейный характер.
4. Вариабельность одной переменной не должна зависеть от значения другой переменной, то есть разброс значений одной из переменных должен быть примерно одинаковым для всех значений другой переменной (так называемая «гомоскедастичность»).
5. Наблюдения должны быть независимы друг от друга.
6. Наблюдения должны быть парными (значение обоих анализируемых параметров
регистрируются одновременно у одного и того же объекта исследования).
7. Объем выборки должен составлять не менее 25 наблюдений [39].
Графически зависимость между переменными можно представить в виде скаттерограммы. Из представленных на рисунке 1 скаттерограмм коэффициент корреляции Пирсона можно рассчитать только для первого случая, когда наблюдается линейная зависимость между переменными и скаттерограмма гомоскедастична (для остальных двух случаев коэффициент корреляции Пирсона не может быть рассчитан вследствие несоблюдения условия гомоскедастичности и наличия нелинейной зависимости между переменными).
Линейная зависимость (гомоскедастичность)
Линейная зависимость (гетероскедастичность)
Рис. 1. Примеры скаттерограмм.
Коэффициент корреляции Пирсона для двух переменных (X и У) рассчитывается следующим образом:
1. Значения переменных X и Y располагают в ряд, в котором каждой величине X соответствует определенная величина Y.
2. Рассчитывают средние арифметические значения для каждой переменной Хф и Уф соответственно.
3. Рассчитывают отклонения каждого значения X и Y от соответствующей средней величины.
4. Отклонения для X и Y перемножают между собой.
5. Рассчитывают стандартные отклонения для X и Y (Эх и Бу) по формулам:
(Xi — Хср)2 + (X2 — Хср)2
(Yi — Yep)2 + (Y2 — Yep)2 + . + (Y, — Yep)2 n — 1
6. Рассчитывают коэффициент корреляции Пирсона по формуле (п — количество наблюдений):
(Х1 — Хср) X — Уср) + (Х2 — Хср) X ^2 — Уср) + . + (X, — Хср) х (У, — Уср)
7. Сравнивают полученное значение коэффициента Пирсона с критическим значением, взятым из специальных таблиц [30, 24, 5]. В случае, если расчетное значение г равно или превышает критическое значение для уровня статистической значимости, равного 0,05, то нулевую статистическую гипотезу отвергают и делают вывод о том, что коэффициент корреляции Пирсона статистически значимо отличается от нуля (р < 0,05).
Интерпретация коэффициента корреляции Пирсона включает следующие этапы:
1. Оценка статистической значимости коэффициента корреляции. Если р < 0,05, то коэффициента корреляции статистически значимо отличается от нуля. Если р > 0,05, то делается вывод об отсутствии корреляционной связи между анализируемыми признаками.
2. Оценка силы и направления корреляционной связи (таблица 1).
3. Оценка степени влияния одного признака на другой. Для понимания степени
«тесноты» связи между признаками используется коэффициент детерминации, который рассчитывается как коэффициент корреляции, возведенный в квадрат (г2). Коэффициент детерминации показывает, какую долю вариабельности одного из признаков способно объяснить изменение другого признака. Зависимость значения детерминации коэффициента от коэффициента корреляции представлена на рисунке 2. Из представленного графика видно, что слабая корреляционная связь может объяснить не более 8,4% вариабельности признака, обусловленной влиянием другого признака, а связь средней силы — не более 47,6% вариабельности. Таким образом, коэффициент детерминации необходимо использовать для адекватного понимания фактической «тесноты» взаимосвязи между признаками, что особенно важно на этапе практических выводов по итогам анализа данных (например, при оценке клинической роли выявленной корреляционной связи).
од 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Значение коэффициента корреляции Пирсона
Рис. 2. Зависимость значения коэффициента детерминации от значения коэффициента корреляции.
Существует важное обстоятельство, интерпретации результатов корреляционного которое необходимо учитывать в процессе анализа: выявленные взаимосвязи между
двумя признаками могут быть обусловлены влиянием некоего третьего фактора. Например, известно, что вероятность рождения ребенка с синдромом Дауна тесно коррелирует с количеством родов у матери до момента настоящей беременности. Но это вовсе не значит, что количество предшествующих родов влияет на риск рождения больного ребенка, так как в данном случае имеется третий фактор, который связан с обеими переменными — возраст женщины. Поэтому между вероятностью рождения ребенка с синдромом Дауна имеется корреляционная, но ни в коем случае не причинно-следственная связь [7].
Следует отметить существенный недостаток коэффициента корреляции Пирсона — высокую чувствительность к наличию «выскакивающих» величин (выбросов). Даже небольшое количество
выбросов может значительно исказить значение коэффициента и буквально «уничтожить» зависимость между величинами, поэтому всегда следует анализировать выбросы и выяснять, не является ли они следствием ошибки регистрации данных.
Приведем для примера гипотетическое исследование, целью которого является оценка корреляционной связи между уровнем Ю респондента и временем, затраченным на решение типовой логической задачи (всего были протестированы 10 респондентов). Следует отметить, что для корреляционного анализа необходимо наличие не менее 25 наблюдений, но в данном примере приведены только 10 наблюдений для уменьшения трудоемкости расчетов вручную.
В таблице 2 представлены результаты наблюдений и расчет промежуточных значений, необходимых для вычисления значения г.
Продолжительность решения логической задачи респондентами с различным значением !0 и результаты промежуточных расчетов
№ X (уровень IQ, ед.) У (время на решение задачи, сек.) Для расчета г Для расчета Sx и Sy
Xi — Хср Yi — Yep (Xi — Хср) х (Yi — Yep) (X — Хср)2 (Yi — Yсp)2
1 140 235 16 -43,4 -694,4 256,0 1883,6
2 112 158 -12 33,6 -403,2 144,0 1129,0
3 124 185 0 6,6 0 0,0 43,6
4 130 219 6 -27,4 -164,4 36,0 750,8
5 128 215 4 -23,4 -93,6 16,0 547,6
6 121 176 -3 15,6 -46,8 9,0 243,4
7 115 167 -9 24,6 -221,4 81,0 605,2
8 127 209 3 -17,4 -52,2 9,0 302,8
9 117 165 -7 26,6 -186,2 49,0 707,6
10 126 187 2 4,6 9,2 4,0 21,2
Сумма -1853 604 6234,4
Согласно расчетам, Хср = 124,0 ед., Уср =191,6 сек., Эх = 8,2 ед., Бу = 26,3 сек.
Соответственно, рассчитываем значение г: -1853
(10 — 1) х 8,2 х 26,3
Из таблицы критических значений критерия корреляции Пирсона для п = 10 и уровня статистической значимости 0,01 критическое значение г составляет 0,765 [30, 5, 24]. Так как расчетное значение больше критического, выявленная взаимосвязь между уровнем Ю и
длительностью решения типовой логической задачи является статистически значимой (р < 0,01).
В данном примере г = -0,95, что свидетельствует об обратной сильной зависимости: чем выше уровень Ю, тем меньше время, затрачиваемое на решение типовой логической задачи.
Значение коэффициента детерминации (г2 = 0,952 = 0,90) говорит о том, что 90%
вариабельности длительности решения типовой логической задачи обусловлены уровнем IQ (интеллектуального коэффициента) респондента (и 10% вариабельности обусловлены иными факторами).
Также следует рассчитать доверительный интервал (англ. CI — «confidence interval») для коэффициента корреляции Пирсона, так как
интервальная оценка любого генерального параметра всегда более информативна, чем точечная. Доверительные интервалы для коэффициента корреляции Пирсона можно рассчитать, с использованием z-преобразование Фишера. Нижняя (Zl) и верхняя (Zu) границы преобразованного 95% доверительного интервала для коэффициента корреляции Пирсона рассчитываются по формулам:
у 1 Г1 +r V 1,96 и Z^ = 0,5 • lnl-1+ -,
где 1п обозначает натуральный логарифм, а п — объем выборки. Само же значение коэффициента корреляции для генеральной совокупности, рассчитанное по данным выборки, будет в 95% случаев находиться в интервале
где ехр(2г) рассчитывается как е22 (где е логарифма, оно примерно равно 2,72).
В нашем примере коэффициент корреляции Пирсона для взаимосвязи между Ю респондента и продолжительностью решения задачи был равен -0,95 и статистически значимо отличался от нуля (р < 0,01). Рассчитаем сначала ZL и Zu: ZL = -2,57, Zu = -1,09. Далее:
Ехр^) = 2,72 2 х (-257) = 0,0058 Ехр^и) = 2,72 2 х (-109) = 0,1128 Соответственно, ц = -0,99, ги = -0,80.
Таким образом, мы можем записать результаты корреляционного анализа, учитывающие доверительный интервал: г = -0,95 (95% С1 -0,99; -0,80), п = 10, р < 0,01.
Доверительный интервал для коэффициента корреляции Пирсона можно рассчитать и с помощью онлайн калькулятора расположенного по адресу:
http://faculty.vassar.edu/lowry/rho.html. Данный калькулятор использует те же формулы, которые были приведены выше, но требует использовать при внесении коэффициента корреляции в поле «г» не запятую, а точку (например, «-0.95» вместо «-0,95»).
В случае, если условия применения коэффициента корреляции Пирсона не выполняются, для корреляционного анализа следует использовать непараметрические
— число Эйлера, или основание натурального
коэффициенты корреляции Спирмена или Кендалла, расчет которых основан на использовании не исходных значений признаков, а их рангов [7, 2, 22]. Если в подобной ситуации применять коэффициент корреляции Пирсона, полученные результаты будут искаженными, а выводы -сомнительными.
Преимуществами непараметрических коэффициентов корреляции по сравнению с коэффициентом корреляции Пирсона является возможность оценки связи между порядковыми и количественными признаками (коэффициент корреляции Спирмена) или только между порядковыми признаками (коэффициент корреляции Кендалла).
Коэффициент корреляции Спирмена для переменных Х и У рассчитывается следующим образом:
1. Два ряда из парных сопоставляемых признаков составляются рядом, первый обозначается как Х, второй — как У.
2. Первый ряд признака ранжируется в убывающем или возрастающем порядке, а числовые значения второго ряда размещаются напротив того значения первого ряда, которым они соответствуют.
3. Значения первой и второй переменных заменяют порядковым номером (рангом) числовым значениям второго признака ранги
должны присваиваться в том же порядке, какой был принят при раздаче их величинам первого признака. При одинаковых величинах признака в ряду ранги следует определять как среднее число из суммы порядковых номеров этих величин.
4. Определяют разности рангов между ранговыми номерами Х| и
5. Проводят расчет коэффициента корреляции Спирмена по формуле (где п -число сравниваемых пар):
6. Для оценки статистической значимости выявленной взаимосвязи между переменными расчетное значение коэффициента Спирмена сравнивают с критическим значением, взятым из таблицы [30, 5, 24]. Если расчетное значение ^ равно или превышает критическое значение, равное 0,05, то нулевая гипотеза отвергается и делается вывод о том, что коэффициент корреляции статистически значимо отличается от нуля (р < 0,05).
7. Для коэффициента корреляции Спирмена также можно рассчитать
коэффициент детерминации (гб2), но он будет означать долю вариабельности рангов одной переменной, которую можно объяснить с помощью рангов другой переменной. Данная интерпретация достаточно громоздка и не совсем понятна, поэтому целесообразность использования коэффициента детерминации гб2 в приложении к практической интерпретации результатов корреляционного анализа сомнительна.
8. Приведем для примера гипотетическое исследование, целью которого является оценка корреляционной связи между функциональным классом (ФК) сердечной недостаточности (СН) пациента и количеством приступов стенокардии, возникающих у него в течение месяца. Всего были обследованы 11 пациентов, имеющих !-!У ФК СН.
9. ФК СН является ранговой переменной, а количество приступов стенокардии -дискретной количественной переменной.
10. В таблице 2 представлены результаты наблюдений и расчет промежуточных значений, необходимых для вычисления значения гб.
Количество приступов стенокардии у пациентов с различными ФК СН.
№ пациента ФК СН (переменная X) Количество приступов стенокардии в месяц (переменная У) Ранг X Ранг Y Разность рангов d2
1 3 2,5 2,5 0 0 1
1 3 2,5 2,5 0 0 1
1 4 2,5 8,5 6 36 1
1 4 2,5 8,5 6 36 1
2 4 6 8,5 2,5 6,25 2
2 3 6 2,5 -3,5 12,25 2
2 3 6 2,5 -3,5 12,25 2
3 4 9 8,5 -0,5 0,25 3
3 6 9 14 5 25 3
3 4 9 8,5 -0,5 0,25 3
4 4 12,5 8,5 -4 16 4
4 4 12,5 8,5 -4 16 4
4 5 12,5 13 0,5 0,25 4
Согласно формуле расчета коэффициента корреляции Спирмена
Из таблицы критических значений критерия корреляции Спирмена для п = 14 и уровня статистической значимости 0,05 критическое значение Гб составляет 0,532 [29, 5, 24]. Так как расчетное значение больше критического,
выявленная взаимосвязь между ФК СН и количеством приступов стенокардии в течение месяца является статистически значимой (р < 0,05).
Рассчитать доверительные интервалы для ^ можно с использованием уже известного
преобразования [37, 7]. Формулы для расчета ZL и Zu для 95% доверительного интервала для коэффициента корреляции Спирмена будут следующими:
1_ + р)_ 1,96 •д/1 + 0,5 •р2
1+рУ 1,96 •J 1 + 0,5 •р2
где р — рассчитанное значение коэффициента корреляции Спирмена.
Далее полученные следует подставить в
значения Zl и Zu уже упоминавшуюся
Приведенная формула, по мнению D. Bonnett и T. Wright [36], является наиболее адекватной для расчета доверительного интервала для коэффициента корреляции Спирмена.
Рассчитаем значения для нижней и верхней границ 95% доверительного интервала коэффициента корреляции Спирмена, равного 0,61: Zl = 0,069, Zu = 1,349. Далее:
EXP(2Zl) = 2,72 2 * (0069) = 1,15 Exp(2Zu) = 2,72 2 * (1349) = 14,86 Соответственно, rsL = 0,07, rsu = 0,87. Таким образом, мы можем записать результаты корреляционного анализа, учитывающие доверительный интервал: rs = 0,61 (95% CI 0,07; 0,87), n = 14, р < 0,05. Следует обратить внимание на значительную ширину 95% доверительного интервала — от 0,07 (практически полное отсутствие связи) до 0,87 (сильная связь). Данный факт связан с небольшим количеством наблюдений в выборке. Например, если бы данное значение коэффициента корреляции Спирмена было бы получено на основании 28 наблюдений, то 95% доверительный интервал располагался бы в пределах от 0,28 до 0,81, а если бы расчеты проводились на основании 140 наблюдений, то границы сузились бы до значений от 0,48 до 0,71. В нашем примере большая широта доверительного интервала не позволяет делать каких-либо клинически значимых выводов о наличии корреляционной
ранее формулу для расчета верхней и нижней границ 95% доверительного интервала:
ехр(2ги) — 1 ехр(2ги) + 1
связи между ФК СН и количеством приступов стенокардии, и требует увеличения количества наблюдений в исследовании для того, чтобы выводы приобрели достаточную степень определенности.
Таким образом, приведенный пример наглядно продемонстрировал, как важно использовать интервальную, а не точечную оценку коэффициентов корреляции, так как точечная оценка «скрадывает» информацию, которая может оказаться крайне важной с клинической точки зрения.
Третьим рассматриваемым в настоящей статье коэффициентом корреляции является непараметрический коэффициент корреляции Кендалла. Существуют 3 его разновидности —
Рассмотрим наиболее простой вариант коэффициента корреляции Кендалла — Та. Допустим, речь идет о двух участниках исследования i и j, у которых в ходе исследования изучаются признаки X и Y. Изучаемыми признаками могут, например, быть рост и масса тела, индекс массы тела и артериальное давление, и др. Пару наблюдений можно обозначить как X,, У, и X], У].
Если разности Х] — Х, и ^ — У, будут одинаковы по знаку (либо X] > X и Yj > Yi, либо X] < X и ^ < Yi), то пару называют конкордантной (например, и рост, и вес участника , больше, чем рост и вес участника ]). Количество конкордантных пар (или проверсий) обозначается как С.
Если разности X] — Х, и ^ — У, различаются по знаку (либо X] > Х, и ^ < У,, либо X] < Х, и ^
> У|), то такая пара называется дискордантной (например, рост участника I больше роста участника ], а вес участника I меньше роста участника ]). Количество дискордантных пар (или инверсий) обозначается как D. Если выборка состоит из п участников исследования, то возможно формирование п х (п — 1) / 2 пар, для которых 1 < i < j < п.
Коэффициент корреляции Кендалла Та рассчитывается по формуле [7, 40, 41]:
Недостатком Та является то, что он не учитывает одинаковых (связанных, равных) рангов (англ. «ties»), которые возникают в тех случаях, когда у нескольких участников исследования изучаемый признак имеет одно и то же значение (например, одинаковый рост, или одинаковая стадия заболевания). Из формулы видно, что максимально возможное значение Та = 1 достигается только в том случае, если все пары являются конкордантными. Соотвественно, если все пары являются дискордантными, Та принимает минимально возможное значение -1. Если количество конкордантных и дискордантных пар равно, то Та = 0, что говорит об отсутствии взаимосвязи между изучаемыми признаками.
Если С представляет собой количество конкордантных пар из возможных в выборочной совокупности n х (n — 1) / 2 пар, то оценить вероятность того, что пара наблюдений будет конкордантной (п с), можно с помощью формулы:
Аналогично, вероятность того, что пара наблюдений будет дискордантной (пс), можно оценить с помощью формулы:
Таким образом, для любой пары наблюдений, отобранных случайно, коэффициент корреляции Кендалла Та может интерпретироваться как разность между вероятностью того, что пара окажется конкордантной, и того, что она окажется дискордантной, то есть
Отрицательное значение Та будет говорить о том, что вероятность того, что любая случайно отобранная пара наблюдений с характеристиками (Х|, У| и X], У]) будет скорее дискордантной, чем конкордантной, и наоборот.
Кроме того, в генеральной совокупности, для которой коэффициент корреляции Кендалла равен Та, вероятность того, что любая случайно отобранная пара наблюдений с характеристиками (Х|, У| и X], У]) окажется конкордантной, будет в (1 + Та) / (1 — Та) раза выше, чем вероятность того, что эта пара будет дискордантной. Таким образом, если в исследовании с использованием случайно отобранной репрезентативной выборки был получен коэффициент корреляции Кендалла Та = 0,5, это означает, что вероятность того, что любая случайно отобранная из генеральной совокупности пара окажется конкордантной, в среднем в (1 + 0,5) / (1 — 0,5) = 3 раза выше, чем вероятность того, что эта пара будет дискордантной.
Коэффициент корреляции Кендалла Та отличается от ть тем, что учитывает связанные ранги. Появление связанных рангов, то есть, когда два или более наблюдений по любой из переменных имеют одинаковые ранги, неизбежно при изучении порядковых признаков, таких как, например, стадия заболевания, степень тяжести, уровень образования и других, имеющее ограниченное количество значений (например, использование 3-х степеней тяжести заболевания).
В целом, использование коэффициентов корреляции Кендалла предпочтительно при анализе корреляционной связи между порядковыми (ординальными) переменными. Например, коэффициент корреляции ть рекомендован для анализа связи между порядковыми признаками, которые проще всего представить в виде многопольных таблиц, у которых число рядов равно числу столбцов.
Коэффициент корреляции Кендалла Тс используется при расчете связи между порядковыми переменными, формирующими таблицу, в которой количество рядов и количество столбцов не равны (например, оценка корреляционной связи между порядковой переменной X, имеющей 5 наименований, и другой порядковой переменной У, имеющей 3 наименования).
В данной статье подробный алгоритм расчета коэффициентов корреляции Кендалла на примерах не приводится по причине трудоемкости их ручного вычисления.
Более подробно с различными коэффициентами корреляции Кендалла можно познакомиться в [7, 6].
В статистическом программном обеспечении в рамках корреляционного анализа как правило производится расчет коэффициента корреляции Кендалла Ть.
Большой практический интерес представляет расчет доверительного интервала для Ть, который также можно рассчитать с помощью преобразования Фишера, которое дает достаточно адекватную интервальную оценку коэффициента корреляции Кендалла для генеральной совокупности при объеме выборки не менее 10 наблюдений и значении Т не более 0,8. Отличие будет заключаться в расчете вспомогательных значений ZL и Zu:
Значения ZL и Zu которые затем подставляют в уже известную формулу для расчета 95% доверительного интервала:
В завершении теоретической части настоящей статьи следует отметить, что корреляционный анализ встречается в русскоязычной научной периодике очень часто, поэтому целесообразно остановиться на основных ошибках его использования:
— Применение параметрического коэффициента корреляции Пирсона при несоблюдении необходимых условий его использования.
— Подмена понятия корреляционной связи понятием причинно-следственной связи.
— Беспорядочный расчет коэффициентов корреляции для всех пар переменных по принципу «сравнить все со всем».
— Смешивание понятий корреляционного и регрессионного анализа.
— Неполное представление результатов корреляционного анализа (значения коэффициента корреляции, объема выборки, значения уровня статистической значимости).
— Представление только точечной оценки (игнорирование доверительных интервалов).
— Отождествление статистически значимых коэффициентов корреляции с клинически важными.
— Отсутствие обсуждения, почему были получены те или иные коэффициенты корреляции (выяснение вопросов истинной или ложной является выявленная зависимость, возможность присутствия неких
переменных, тесно коррелирующих с обеими изучаемыми переменными).
— Однозначное заключение о полном отсутствии взаимосвязи между признаками при значении коэффициента корреляции близком к нулю (возможно, что взаимосвязь между переменными носит нелинейный характер, но исследователь этого не учел).
— Редкое применение скаттерограмм для графического представления зависимостей.
Для того, чтобы читатель приобрел практические навыки проведения корреляционного анализа, будет рассмотрен фрагмент данных, которые были собраны в ходе исследования, направленного на изучение метаболического синдрома и его детерминант в условиях неблагополучной социально-экологической ситуации в Южном Казахстане [20, 21, 25, 29].
В ходе данного исследования у 277 пациентов получены значения индекса массы тела (ИМТ), окружности талии, уровне креатинина и мочевины в крови (все четыре анализируемых признака являются непрерывными количественными переменными). Также были собраны данные об уровне образования пациентов (4 градации — высшее, незаконченное высшее, среднее и начальное).
На предварительном этапе обработки данных количественная шкала значений ИМТ была переведена в номинальную: были выделены 3 «рамки» значений ИМТ:
нормальная масса тела, избыточная масса тела и ожирение. Подобная группировка значений позволяет проводить сравнения между различными категориями пациентов и часто используется при анализе данных. Отметим, что получившаяся номинальная переменная, имеющая значения «нормальная масса тела», «избыточная масса тела» и «ожирение», является как номинальной, так и ординальной, поскольку все три значения могут быть ранжированы по возрастанию или убыванию.
Корреляционный анализ будет проведен с использованием программного обеспечения Statistica 10 [28, 3] и SPSS 20 [4], демонстрационные версии которого можно загрузить с официальных сайтов разработчиков (www.stаstsoft.com и www.ibm.com соответственно).
Представленные ниже алгоритмы действий являются не более чем инструментом анализа данных, в то время как корректная интерпретация полученных результатов требует наличия базисных знаний в области биомедицинской статистики, которые могут быть получены только путем изучения специализированной литературы [5, 26, 24, 34, 38].
Корреляционный анализ с использованием программы Statistica 10.
Для начала работы необходимо открыть файл 7_Correlation_STAT.sta, который потребуется загрузить с сайта журнала «Наука и Здравоохранение». В данном файле представлены следующие вариационные ряды:
1. ИМТ (переменная «BMI»): непрерывная количественная переменная.
2. Окружность талии (переменная «Waist_circum»): непрерывная количественная переменная.
3. Категория ИМТ (переменная «Category_BMI»): номинальная (или ординальная) переменная.
4. Уровень образования (переменная «Education»): номинальная (или ординальная) переменная.
5. Уровень креатинина крови (переменная «Creatinin»): непрерывная количественная переменная.
6. Уровень мочевины крови (переменная «Carbamide»): непрерывная количественная переменная.
В результате статистического анализа данных будет проведена оценка корреляционной связи между следующими переменными:
— ИМТ и окружностью талии.
— Уровнем креатинина и уровнем мочевины крови.
— Уровнем образования пациента и категорией ИМТ.
На начальном этапе обработки данных требуется построить скаттерограмму, чтобы визуально оценить степень связи между переменными.
Для этого войдем в меню «Graphs» в верхней части экрана и выберем раздел «Scatterplots. ». В появившемся окне «2D Scatterplots» (рисунок 3) нажмем на кнопку «Variables» и выберем переменные, значения которых будут отложены по осям абсцисс и ординат, как это показано на рисунке 4. Выбор подтвердим нажатием на кнопку «ОК» и в снова открывшемся окне «2D Scatterplots» снова нажимаем на кнопку «ОК».
В результате наших действий программа сформирует скаттерограмму зависимости между переменными «BMI» и «Waist_circum» (рисунок 5). Видно, что скаттерограмма отражает линейную зависимость и в достаточной мере гомоскедастична: разброс значений одной переменной практически не зависит от разброса другой переменной, и разброс точек вокруг линии тренда примерно одинаков.
На следующем этапе обработки данных требуется определить тип распределения, чтобы понять, можно ли использовать параметрический метод (коэффициент корреляции Пирсона), или потребуется сравнивать группы с помощью непараметрического критерия Спирмена. Пошаговый алгоритм проверки распределения переменных на «нормальность» нескольких групп подробно описан в [13, 8, 31].
Проверка на «нормальность» распределения изучаемых количественных переменных показала, что обе переменные имеет близкое к нормальному распределение (читатель может
самостоятельно убедиться в этом, выполнив — «Basic Statistics/Tables» — «Descriptive проверку распределения переменных с statistics» — «Normality» — кнопка использованием разделов меню «Statistics» «Histograms» программы Statistica 10).
Рис. 3. Окно «2D Scatterplots» программы Statistica 10.
Рис. 4. Окно «Select Variables for Scatterplot» программы Statistica 10.
Рис. 5. Скаттерограмма зависимости между переменными «BMI» и «Waist circum»
(программа Statistica 10).
Для проведения корреляционного анализа с входим в раздел «Basic Statistics/Tables». В
использованием коэффициента корреляции появившемся окне выбираем раздел
Пирсона выбираем меню «Statistics» (в верхней «Correlation matrices», и подтверждаем выбор
части рабочего пространства программы) и нажатием на кнопку «ОК» (рисунок 6).
В открывшемся окне нажимаем на кнопку «One variable list» (рисунок 7) и в окне «Select the variables for the analysis» выбираем переменные «BMI» и «Waist_circum», как показано на рисунке 8, и подтверждаем выбор
кнопкой «OK» (для выбора обеих переменных необходимо левой кнопкой мыши выбрать одну переменную, после чего удерживая кнопку «Ctrl» также левой кнопкой мыши выбрать вторую переменную).
..¡¿¡И Product-Moment and Partial Correlations: Correlati. I. ^ J
Second list: none
Рис. 7. Окно «Product-Moment and Partial Correlations. » программы Statistica 10.
Рис. 8. Окно «Select the variables for the analysis» программы Statistica 10 (выбор переменных «BMI» и «Waist_circum»).
Программа вернется к окну «Product-Moment and Partial Correlations. », в котором нажмем на кнопку «Graphs» для формирования скаттерограммы (рисунок 9). Сформированная программой скаттерограмма соответствует представленной на рисунке 5, также по осям представляется гистограмма
распределения, для визуальной оценки соответствия распределения включенных в анализ переменных нормальному распределению. Выше графика в строке «Correlation: r = ,85705» представлено значение коэффициента корреляции Пирсона (r = 0,86).
Scatterplot: bmi vs. Waist_circum (Casewise MD deletion) Waist circum = 41,916 + 1,8662 *bmi Correlation: r = ,85705
Mean = 29,740722 Std Dv. = 5,887103 Max. = 46,870000 Min = 17,720000
Y: Waist_circum N = 277
Mean = 97,418773 Std Dv = 12,819033 Max. = 127,000000 Min = 68.000000
О О 3, nftfelgO DO ° о о
ЧпоЖ SÄT" Чу ACT ° 8
Рис. 9. Результаты корреляционного анализа с использованием коэффициента корреляции Пирсона (скаттерограмма).
Далее нажмем на вкладку «Product-Moment. » в нижнем левом углу рабочего поля программы, чтобы вернуться к окну Product-Moment and Partial Correlations.», и нажмем на кнопку «Summary: Correlations». Программа представит таблицу (рисунок 10), в которой также приведено значение
коэффициента корреляции Пирсона, а выше таблицы программа указывает, что значение r является статистически значимым («Marked correlations are significant at p < ,05000»). В данном случае значение коэффициента статистически значим, поэтому в таблице программа выделяет его красным цветом.
Variable Correlations (Correlation_STAT) Marked correlations are significant at p < ,05000 N=277 (Casewise deletion of missing data)
Means Std. Dev. BMI Waist circum
BMI 29,74072 5 88710 1.000000 0 857052
Waist_circum 97.41877 12.81903 0 857052 1 000000
Рис. 10. Результаты корреляционного анализа с использованием коэффициента
корреляции Пирсона (таблица).
Таким образом, на основании проведенного корреляционного анализа установлено, что между ИМТ и окружностью живота существует сильная положительная корреляционная связь (г = 0,86, п = 277, p < 0,05). Соответственно, коэффициент детерминации равен г2 = 0,862 = 0,74, то есть вариабельность одной переменной способно объяснить 74% вариабельности второй переменной.
Далее рассмотрим корреляционный анализ переменных «Creatinin» и «Carbamide», имеющих распределение, отличное от нормального.
Для проведения корреляционного анализа с использованием коэффициента корреляции Спирмена выбираем меню «Statistics» (в верхней части рабочего пространства программы) и входим в раздел
«Nonparametrics». В появившемся окне выбираем раздел «Correlations (Spearman,
Kendall tau, gamma)» и подтверждаем выбор нажатием на кнопку «ОК» (рисунок 11).
Рис. 11. Окно «Nonparametric Statistics» программы Statistica 1
Программа откроет окно «Nonparametric Correlation» (рисунок 12), в котором нажмем на кнопку «Variables» для выбора переменных для анализа. В открывшемся окне выберем
переменные «Creatinin» и «Carbamide», после чего подтвердим выбор кнопкой «OK» (рисунок 13).
Рис. 12. Окно «Nonparametric Correlation» программы Statistica 10.
Программа вернется к окну «Nonparametric Correlation», в котором нажмем кнопку «Scatterplot matrix for all variables», которая сформирует представленную на рисунке 14 скаттерограмму и гистограммы распределения
переменных «Creatinin» и «Carbamide» (очевидно, что обе переменные имеют отличное от нормального, скошенное вправо распределение).
/V Select the variables for the analysis
1-BMI 2 — Waist_drcum 3 — Category_BMI 4 — Education
Sj/j Show appropriate variables only
Us« the "Show appropriate variables only-option to pre-screen variable lists and show catejorical ar-3 continuous variables Press F1 for more information.
Рис. 13. Окно «Select the variables for the analysis» программы Statistica 10 (выбор переменных «Creatinin» и «Carbamide»).
Рис. 14. Результаты корреляционного анализа с использованием коэффициента корреляции Спирмена (скаттерограмма).
Вернемся к окну анализа с помощью поля программы, и нажмем на кнопку нажатия на вкладку «Nonparametric «Spearman rank R» для запуска анализа correlations» в нижнем левом углу рабочего (рисунок 12).
В таблице, представленной на рисунке 15, программа демонстрирует значение коэффициента корреляции Спирмена (0,534125) и сообщает, что значение коэффициента статистически значимо
(«Marked correlations are significant at p < ,05000»). Как и при расчете коэффициента корреляции Пирсона, программа выделяет красным цветом значение статистически значимого коэффициента.
Variable Spearman Rank Order Correlations (Correlation_STAT) MD pairwise deleted Marked correlations are significant at p <.05000
Creatinin 1.000000L 0 534125 1.000000
Рис. 15. Результаты корреляционного анализа с использованием коэффициента корреляции Спирмена (таблица).
Таким образом, между уровнем креатинина и мочевины сыворотки крови обнаружена положительная корреляционная связь средней силы: ^ = 0,53, п = 277, p < 0,05.
Далее на примере ординальных переменных «Category_BMI» и «Educatюn» рассмотрим алгоритм расчета коэффициента корреляции Кендалла ть.
Для этого снова входим в раздел «Nonparametrics». В появившемся окне выберем раздел «Correlations (Spearman, Kendall tau, gamma)» и подтвердим выбор нажатием на кнопку «ОК» (рисунок 11).
В окне «Nonparametric Correlation» (рисунок 12), нажмем на кнопку «Variables» и выберем переменные «Category_BMI» и «Education» после чего подтвердим выбор кнопкой «OK» (рисунок 16).
Рис. 16. Окно «Select the variables for the analysis» программы Statistica 10 (выбор переменных «Category_BMI» и «Education»).
Программа вернется к окну «Nonparametric Correlation» (рисунок 12), где нажмем на вкладку «Advanced», которая открывает
возможность расчета критерия Кендалла ть. Для запуска анализа нажмем на кнопку «Kendall Tau» (рисунок 17).
Рис. 17. Вкладка «Advanced» окна «Nonparametric Correlation» программы Statistica 10.
Результаты анализа программа «Marked correlations are significant at p <
представляет в виде таблицы (рисунок 18) где ,05000» сообщает о том, что значение
указано и выделено красным цветом значение коэффициента корреляции Кендалла ть
коэффициента корреляции (0,177778). Строка статистически значимо.
Рис. 18. Результаты корреляционного анализа с использованием коэффициента корреляции Кендалла ть.
Таким образом, между уровнем образования положительная корреляционная связь: ть = 0,18, и категорией ИМТ пациентов выявлена слабая п = 277, р < 0,05).
Корреляционный анализ с использованием программы SPSS 20.
Для начала работы необходимо открыть файл 7_Correlation_SPSS.sav, который потребуется загрузить с сайта журнала «Наука и Здравоохранение». В файле представлены те же вариационные ряды, что и в файле данных программы Statistica: ИМТ («BMI»), окружность талии («Waist_circum») категория ИМТ («Category_BMI»), уровень образования («Education»), уровень креатинина
(«Creatinin») и мочевины («Carbamide») крови пациентов.
На начальном этапе корреляционного анализа с использованием коэффициента корреляции Пирсона необходимо построить скаттерограмму.
Для этого войдем в меню «Graphs», раздел «Legacy Dialogs», подраздел «Scatter/Dot» (рисунок 14).
Correlation_SPSS.sav [DataSetl] — IBM SPSS Statistics Data Editor
File Edit View Data Transform Analyze Direct Marketing Graphs Utilities Add-ons Window Help
ЁЗ hi â Ш ^ If4 ' ^У t all Chart Builder. ¿И Graphboard Template Chooser .. 1 Jt¿á.%8
Legacy Dialogs S Ваг. И 3-D Ваг. И Line. @ Area. H Pie. H High-Low.
BMI Waist circum Category_BMI Ed ucation ureatinm ^aroamiae V
1 29.34 95.00 2.00 3.00 56,27 5.68
2 29,40 106,00 2.00 1.00 74,29 7,36
3 29,22 105.00 2.00 1.00 52,49 6.85
4 30,78 97.00 3.00 3.00 59,32 7.05
5 25,97 80,00 2.00 1.00 46,93 6.35
6 24,44 89.00 1.00 3,00 72.68 6,17 g Boxplot. CT Error Bar. f-1 Population Pyramid.
7 25,86 95.00 2.00 3,00 59.61 7,03
8 39.28 110,00 3.00 1.00 49.44 4,24
9 30.48 99.00 3.00 1.00 48.63 4.12
10 29.75 104.00 2.00 1.00 63,27 5.05 LI Scatter/Dot. Ц Histogram. 1 III
11 I 25,81 86.00 2.00 3,00 47.77 3.48
Рис. 14. Выбор подраздела «Scatter/Dot» меню «Graphs» программы SPSS 20.
|] в открывшемся окне «Scatter/Dot» выберем простую скаттерограмму «Simple Scatter» и нажмем на кнопку «Define» (рисунок 15).
В открывшемся окне «Simple Scatterplot» с помощью стрелок между полями перенесем переменную «BMI» в поле «X Axis», а переменную «Waist_circum» — в поле «Y Axis» и нажмем на кнопку «OK» (рисунок 16).
Рис. 16. Окно «Simple Scatterplot» программы SPSS 20.
В результате программа сформирует скаттерограмму, представленную на рисунке
17. Данный график полностью соответствует представленному на рисунке 5.
Рис. 17. Скаттерограмма зависимости между переменными «BMI» и «Waist_circum» (программа SpsS 20).
Для расчета коэффициента корреляции Пирсона в первую очередь необходимо проверить соответствие распределения имеющихся переменных закону нормального распределения. Алгоритм проверки
распределения с помощью программы SPSS подробно описан в [13, 8].
Непосредственно для проведения корреляционного анализа войдем в меню «Analyze», раздел «Correlate», подраздел «Bivariate» (рисунок 18).
Correlation_SPSS.sav [DataSetl] — IBM SPSS Statistics Data Editor
File Edit View Data Transform Analyze Direct Marketing Graphs Utilities Add-ons Window
29.34 29.40 29,22 30.78 25.97 24,44 25.86
Descriptive Statistics Tables
General Linear Model
Generalized Linear Models
£71 Bivariate.. Partial. £73 Distances. /.üb
Рис. 18. Выбор подраздела «Correlate» — «Bivariate» меню «Analyze» программы SPSS 20.
Откроется окно «Bivariate Correlations», в котором с помощью стрелки необходимо перенести переменные «BMI» и «Waist_circum»
в правое поле (рисунок 19). Оставим отмеченной галочкой позиции «Pearson» и «Two-tailed» и нажмем на кнопку «OK» для запуска анализа.
Рис. 19. Окно «Bivariate Correlations» программы SPSS 20 (выбор переменных «BMI» и «Waist_circum»).
Результаты расчета коэффициента корреляции Пирсона составляет 0,857 (строка корреляции Пирсона для переменных «BMI» и «Pearson Correlation»), а уровень «WaisLcircum»представлены в таблице 4. В статистической значимости менее 0,001 таблице указано, что значение коэффициента (строка «Sig. (2-tailed)»).
Результаты расчета коэффициента корреляции Пирсона для переменных «BMI» и «Waist_circum»
BMI Pearson Correlation 1 ,857**
Sig. (2-tailed) ,000
Waist circum Pearson Correlation ,857** 1
Sig. (2-tailed) ,000
Correlation is significant at the 0.01 level (2-tailed).
Для расчета коэффициента корреляции Спирмена для переменных «Creatinin» и «Carbamide» снова войдем в меню «Analyze», раздел «Correlate», подраздел «Bivariate» (рисунок 18). В окне «Bivariate Correlations»
перенесем в правое поле переменные «Creatinin» и «Carbamide» и отметим галочкой позицию «Spearman», после чего запустим анализ кнопкой «OK» (рисунок 20). Результаты расчетов представлены в таблице 5.
Рис. 20. Окно «Bivariate Correlations» программы SPSS 20 (выбор переменных «Creatinin» и «Carbamide»).
Результаты расчета коэффициента корреляции Спирмена для переменных «Creatinin» и «Carbamide».
Spearman's rho Creatinin Correlation Coefficient 1,000 ,534**
Sig. (2-tailed) ,000
Carbamide Correlation Coefficient ,534** 1,000
Sig. (2-tailed) ,000
*. Correlation is significant at the 0
01 level (2-tailed).
Для расчета коэффициента корреляции Кендалла ть для переменных «Creatinin» и «Carbamide» снова войдем в меню «Analyze», раздел «Correlate», подраздел «Bivariate» (рисунок 18), и в окне «Bivariate Correlations»
перенесем в правое поле переменные «Category_BMI» и «Education» и отметим галочкой позицию «Kendall's tau-b», после чего запустим анализ кнопкой «OK» (рисунок 21). Результаты расчетов представлены в таблице 6.
Рис. 21. Окно «Bivariate Correlations» программы SPSS 20 (выбор переменных «Category_BMI» и «Education»).
Результаты расчета коэффициента корреляции Кендалла ть для переменных
Kendall's tau_b Category_BMI Correlation Coefficient 1,000 JS 8 7
Sig. (2-tailed) ,002
Education Correlation Coefficient ,178** 1,000
Sig. (2-tailed) ,002
Correlation is significant at the 0.01 level (2-tailed).
Следует отметить, что программа SPSS показывает точные значения достигнутого уровня статистической значимости для коэффициентов корреляции в отличие от Statistica 10, которая только указывает, выше или ниже критического уровня находится значение коэффициента корреляции.
В остальном результаты расчета критериев корреляции Пирсона, Спирмена и Кендалла с помощью программы SPSS 20 полностью соответствуют полученным при использовании программы Statistica 10 и не требуют дополнительных комментариев.
1. Аканов А.А., Турдалиева Б.С., Изекенова А.К., Рамазанова М.А., Абдраимова Э.Т., Гржибовский А.М. Оценка использования статистических методов в научных статьях медицинских журналов Казахстана // Экология человека. 2013. №5. С. 61-64.
2. Банержи А. Медицинская статистика понятным языком: вводный курс. М. : Практическая медицина, 2007. 287 с.
3. Боровиков В. STATISTICA. Искусство анализа данных на компьютере: для профессионалов. СПб. : Питер, 2003. 688 с.
4. Бююль А., Цефель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. СПб. : ООО «ДиаСофтЮП», 2005. 608 с.
5. Гланц С. Медико-биологическая статистика. М. : Практика, 1998. 459 с.
6. Гржибовский А.М. Анализ порядковых данных // Экология человека. 2008. №8. С. 5662.
7. Гржибовский А.М. Корреляционный анализ // Экология человека. 2008. №9. С. 5060.
8. Гржибовский А.М. Типы данных, проверка распределения и описательная статистика // Экология человека. 2008. №1. С. 52-58.
9. Гржибовский А.М., Иванов С.В. Анализ номинальных и ранговых переменных данных с использованием программного обеспечения Statistica и SPSS // Наука и Здравоохранение. 2016. № 6. С. 5-39.
10. Гржибовский А.М., Иванов С.В. Исследования типа «случай-контроль» в здравоохранении // Наука и Здравоохранение. 2015. № 4. С. 5-17
11. Гржибовский А.М., Иванов С.В. Когортные исследования в здравоохранении/ / Наука и Здравоохранение. 2015. № 3. С. 5-16.
12. Гржибовский А.М., Иванов С.В. Поперечные (одномоментные) исследования в здравоохранении // Наука и Здравоохранение.
13. Гржибовский А.М., Иванов С.В., Горбатова М.А. Описательная статистика с использованием пакетов статистических программ Statistica и SPSS: и проверка распределения // Наука и Здравоохранение.
14. Гржибовский А.М., Иванов С.В., Горбатова М.А. Сравнение количественных данных двух независимых выборок с использованием программного обеспечения Statistica и SPSS: параметрические и непараметрические критерии // Наука и Здравоохранение. 2016. № 2. С. 5-28
15. Гржибовский А.М., Иванов С.В., Горбатова М.А. Сравнение количественных данных двух парных выборок с использованием программного обеспечения Statistica и SPSS: параметрические и
непараметрические критерии // Наука и Здравоохранение. 2016. № 3. С. 5-25.
16. Гржибовский А.М., Иванов С.В., Горбатова М.А. Сравнение количественных данных трех и более независимых выборок с использованием программного обеспечения Statistica и SPSS: параметрические и непараметрические критерии // Наука и Здравоохранение. 2016. № 4. С. 5-37.
17. Гржибовский А.М., Иванов С.В., Горбатова М.А. Сравнение количественных данных трех и более парных выборок с использованием программного обеспечения Statistica и SPSS: параметрические и непараметрические критерии // Наука и Здравоохранение. 2016. № 5. С. 5-29.
18. Гржибовский А.М., Иванов С.В. Экологические (корреляционные) исследования в здравоохранении // Наука и Здравоохранение. 2015. № 5. С. 5-18.
19. Гржибовский А.М., Иванов С.В. Экспериментальные исследования в здравоохранении // Наука и Здравоохранение. 2015. № 6. С. 5-17.
20. Жунисова М.Б., Шалхарова Ж.С., Шалхарова Ж.Н., Гржибовский А.М. Типы пищевого поведения и абдоминальное ожирение // Журн. Медицина. 2015. №4. С. 9295.
21. Жунисова М.Б., Шалхарова Ж.С., Шалхарова Ж.Н., Нускабаева Г.О., Садыкова К.Ж., Маденбай К.М., Гржибовский А.М. Психоэмоциональный стресс как предиктор типа пищевого поведения в Казахстане // Экология человека. 2015. №5. С. 36-45.
22. Зайцев В.М., Лифляндский В.Г., Маринкин В.И. Прикладная медицинская статистика. СПб. : Фолиант, 2003. 428 с.
23. Зуева Л.П., Яфаев Р.Х. Эпидемиология : учебник. СПб : ООО «Издательство Фолиант», 2008. 752 с.
24. Лакин Г.Ф. Биометрия. М. : Высшая школа, 1990. 351 с.
25. Маденбай К.М., Шалхарова Ж.С., Шалхарова Ж.Н., Жунисова М.Б., Садыкова К.Ж., Нускабаева Г.О., Гржибовский А.М. Оценка связи между площадью подкожной жировой ткани и показателями электронейромиографии // Экология человека. 2015. №7. С. 58-64.
26. Петри А., Сэбин К. Наглядная статистика в медицине. М. : ГЭОТАР-Мед, 2003. 140 с.
27. Рахыпбеков Т.К., Гржибовский А.М. К вопросу о необходимости повышения качества казахстанских научных публикаций для успешной интеграции в международное научное сообщество // Наука и Здравоохранение. 2015. №1. С. 5-11.
28. Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. М. :МедиаСфера, 2002. 312 с.
29. Садыкова К.Ж., Шалхарова Ж.С., Нускабаева Г.О., Садыкова А.Д., Жунисова М.Б., Маденбай К.М., Гржибовский А.М. Распространенность анемии, ее социально-демографические детерминанты и возможная связь с метаболическим синдромом в г. Туркестан, Южный Казахстан // Экология человека. 2015. №8. С. 58-64.
30. Статистический анализ эмпирических исследований [электронный ресурс]. URL:www.statexpert.org/articles/таблицы_крити ческих_значений_статистических_критериев (дата обращения 08.09.2015).
31. Субботина А.В., Гржибовский А.М. Описательная статистика и проверка нормальности распределения количественных данных // Экология человека. 2014. №2. С. 5157.
32. Унгуряну Т.Н., Гржибовский А.М. Корреляционный анализ с использованием пакета статистических программ STATA // Экология человека. 2014. №9. С. 60-64.
33. Флетчер Р. Клиническая эпидемиология. Основы доказательной медицины: пер. с англ. / Р. Флетчер, С. Флетчер, Э. Вагнер. М. : Медиа Сфера, 1998. 352 с.
34. Юнкеров В.И., Григорьев С.Г. Математико-статистическая обработка данных медицинских исследований. СПб :ВМедА, 2002. 266 с.
35. Anderson M. RSM simplified: optimizing processes using response surface methods for design of experiments / M. Anderson P., Whitcomb. — London : Taylor & Francis, 2005. P. 39-42.
36. Beaglehole R., Bonita R. Basic epidemiology. World Health Organization, Geneva, 1993.
37. Bonett D. Wright T. Sample size requirements for estimating Pearson, Kendall and Spearman correlations // Psychometrica. 2000. Vol. 65. P. 23-28.
38. Cleopas T.J. et al. Statistics Applied to Clinical Trials. 4th ed. Springer, 2009.
39. Davi'd F. Tables of the ordinates and probability integral of the distribution of the correlation coefficient in small samples. Cambridge : Cambridge University Press, 1938.
40. Kendall M. A new method of rank correlation // Biometrika. 1938. Vol. 30. P. 91-93.
41. Krnskal W. Ordinal measures of association // Journal of the American Statistical Association.1958. Vol. 53. P. 814-861.
1. Akanov A.A., Turdalieva B.S., Izekenova A.K., Ramazanova M.A., Abdraimova, Grjibovski A.M. Otsenka ispolzovania statisticheskih metodov v nauchnih statyakh Kazakhstana [Assesment of use of statistical methods in scientific articles of the Kazakhstan's medical journals]. Ekologiya cheloveka [Human Ecology]. 2013. No.5. PP. 61-64. [in Russian]
2. Banerzhi A. Meditsinskaya statistika ponyatnym yazykom : vvodnyy kurs [Medical statistics in plain language : an introductory course ]. M. : Prakticheskaya meditsina , 2007. P. 287. [in Russian].
3. Borovikov V. STATISTICA. Iskusstvo analiza dannikh na kompyutere: dlya professionalov [STATISTICA. The art of data analysis using computer: for professionals]. SPb. : Piter, 2003. P. 688.
4. Buhl A., Zofel P. SPSS: isskustvo obrabotki informatsii. Analiz statisticheskih daanikh i vosstanovlenie skritikh zakonomernostey [SPSS: the art of information analysis. Statistical data analysis and hidden regularities identification]. SPb. : OOO «DiaSoftUP», 2005. P. 608. [in Russian]
5. Glants S. Mediko-biologicheskaya statistika [The biomedical statistics]. M. : Praktika, 1998. PP. 459. [in Russian]
6. Grjibovski A.M. Analiz poryadkovikh dannikh [Analysis of ordinal data]. Ekologiya
cheloveka [Human Ecology]. 2008. No.1. PP. 5662. [in Russian].
7. Grjibovski A.M. Korrelatsionniy analiz [Correlation analysis]. Ekologiya cheloveka [Human Ecology]. 2008. No.9. PP. 50-60. [in Russian].
8. Grjibovski A.M. Tipy dannikh, proverka raspredeleniya I opisatelnaya statistika [Types of data, distribution estimation and descriptive statistics]. Ekologiya cheloveka [Human Ecology]. 2008. No.1. PP. 52-58. [in Russian].
9. Grjibovski A.M., Ivanov S.V. Analiz nominalnykh I rangovykh peremennykh dannykh s ispol'zovaniyem programmnogo obespecheniya Statistica i SPSS [Analysis of nominal and ordinal data using Statistica and SPSS software]. Nauka i Zdravoohranenie [Science & Healthcare]. 2016. № 6. pp. 5-39. [in Russian].
10. Grjibovski A.M., Ivanov S.V. Issledovaniya tipa sluchay-kontrol v zdravoohranenii [Case-control studies in health sciences]. Nauka i Zdravookhranenie [Science & Healthcare]. 2015, 4, pp. 5-17 [in Russian].
11. Grjibovski A.M., Ivanov S.V. Kogortnie issledovaniya v zdravoohranenii [Cohort studies in health sciences]. Nauka i Zdravookhranenie [Science & Healthcare]. 2015, 3, pp. 5-16. [in Russian]
12. Grjibovski A.M., Ivanov S.V. Poperechnye (odnomomentnye) issledovaniya v zdravookhranenii [Cross-sectional studies in health sciences]. Nauka i Zdravookhranenie [Science & Healthcare]. 2015, No2, pp. 5-18. [in Russian]
13. Grjibovski A.M., Ivanov S.V., Gorbatova M.A. Opisatel'naya statistika s ispol'zovaniyem paketov statisticheskikh programm Statistica i SPSS I proverka raspredeleniya [Descriptive statistics using Statistica and SPSS software]. Nauka i Zdravookhranenie [Science & Healthcare]. 2016, 1, pp. 7-23 [in Russian].
14. Grjibovski A.M., Ivanov S.V., Gorbatova M.A. Sravneniye kolichestvennykh dannykh dvukh nezavisimykh vyborok s ispol'zovaniyem programmnogo obespecheniya Statistica i SPSS : parametricheskiye i neparametricheskiye kriterii [Comparing the quantitative data of two independent groups using the software Statistica and SPSS: parametric and nonparametric tests]. Nauka i Zdravookhranenie [Science & Healthcare]. 2016, 2, pp.5-28 [in Russian].
15. Grjibovski A.M., Ivanov S.V., Gorbatova M.A. Sravneniye kolichestvennykh dannykh dvukh parnikh viborok s ispol'zovaniyem programmnogo obespecheniya Statistica i SPSS : parametricheskiye i neparametricheskiye kriterii [Comparing the quantitative data of two dependent variations using the software Statistica and SPSS: parametric and nonparametric tests]. Nauka i Zdravookhranenie [Science & Healthcare]. 2016, 3, pp. 5-25. [in Russian].
16. Grjibovski A.M., Ivanov S.V., Gorbatova M.A. Sravneniye kolichestvennykh dannykh trekh i boleye nezavisimykh vyborok s ispol'zovaniyem programmnogo obespecheniya Statistica i SPSS : parametricheskiye i neparametricheskiye kriterii [Comparing of the quantitative data of three or more independent samples using Statistica and SPSS software: parametric and nonparametric methods]. Nauka i Zdravoohranenie [Science & Healthcare]. 2016. 4. pp. 5-37. [in Russian].
17. Grjibovski A.M., Ivanov S.V., Gorbatova M.A. Sravneniye kolichestvennykh dannykh trekh i boleye parnikh vyborok s ispol'zovaniyem programmnogo obespecheniya Statistica i SPSS : parametricheskiye i neparametricheskiye kriterii [Comparing of the quantitative data of three or more dependent samples using Statistica and SPSS software: parametric and nonparametric methods]. Nauka i Zdravoohranenie [Science & Healthcare]. 2016. 5. C. 5-29 [in Russian].
18. Grjibovski A.M., Ivanov S.V. Ekologicheskiye (korrelyatsionnye) issledovaniya v zdravoohranenii. [Ecological (correlational) studies in health sciences]. Nauka i Zdravookhranenie [Science & Healthcare]. 2015,
5, pp. 5-18. [in Russian].
19. Grjibovski A.M., Ivanov S.V. Eksperimentalnye issledovaniya v zdravookhranenii [Experimental studies in health sciences]. Nauka i Zdravookhranenie [Science & Healthcare]. 2015,
6, pp. 5-17. [in Russian].
20. Zhunissova M.B., Shalkarova Zh.S., Shalkarova Zh. N., Nuskabayeva G.O., Sadykova K.Zh., Madenbay K.M., Grjibovski A.M. Tipy pischevogo povedeniya i abdominalnoe ozhirenie [Eating behavior types and abdominal obesity]. Meditsina [Medicine]. 2015. No.4. pp. 92-95. [in Russian].
21. Zhunissova M.B., Shalkarova Zh.S., Shalkarova Zh. N., Nuskabayeva G.O., Sadykova K. Zh., Madenbay K.M., Grjibovski A.M.
Psykhoemotsionalniy stress kak predictor tipa pischevogo povedeniya v Kazakhstane [Psychoemotional stress and eating behavior in Kazakhstan]. Ekologiya cheloveka [Human Ecology]. 2015. No.5. pp. 36-45. [in Russian]
22. Zaytsev V.M., Liflyandskiy V.G., Marinkin V.I. Prikladnaya meditsinskaya statistika [Applied medical statistics] . SPb . : Foliant , 2003. P. 428. [in russian]
23. Zueva L.P, Yafaev R.H. Epidemiologiya: uchebnik [Epidemiology: the textbook]. SPb : OOO «Izdatelstvo Foliant», 2008. P. 752. [in Russian].
24. Lakin G.F. Biometria [Biometrics]. M. : Vyscshaya shkola. 1990. P. 351. [in Russian]
25. Madenbay K.M., Shalkarova Zh.S., Shalkarova Zh. N., Zhunissova M.B., Sadykova K.Zh., Nuskabayeva G.O., Grjibovski A.M. Otsenka svyazi mezhdu ploshadyu podkojnoy jirovoy tkani I pokazatelyami electroneyromiografii [Assesment of the relationship between subcutaneous fat tissue an results of electromyoneurography]. Ekologiya cheloveka [Human Ecology]. 2015. No.7. pp. 58-64. [in Russian]
26. Petri A., Sebin K. Naglyadnaya statistika v meditsine [Demonstrative statistics in medicine]. M. : GEAOTAR-Med, 2003. p. 140. [in Russian]
27. Rakhypbekov T.K., Grjibovski A.M. K voprosu o neobhodimosti povysheniya kachestva kazakhstanskih nauchykh publikatsii dlya uspeshnoi integratsii v mezhdunarodnoe nauchnoe soobschestvo [The need for improvement of the quality of Kazakhstani publications for successful integration in the international research community]. Nauka i Zdravookhranenie [Science & Healthcare]. 2015. No.1. pp. 5-11. [in Russian]
28. Rebrova O. Yu. Statisticheskii analiz meditsinskikh danykh. Primenenie paketa prikladnikh program STATISTICA [Statistical analysis of medical data. Using of STATISTICA software]. M. : MediaSphera, 2002. P. 312.
29. Sadykova K.Zh., Shalkharova Zh.S., Shalkharova Zh.N. Nuskabaeva G.O., Sadykova A.D., Zhunissova M.B., Madenbay K.M., Grjibovski A.M. Rasprostranennost' anemii, yeye sotsial'no — demograficheskiye determinanty i vozmozhnaya svyaz' s metabolicheskim sindromom v g. Turkestan, Yuzhniy Kazakhstan [Prevalence of anemia, its socio-demographic
determinants and potential association with metabolic syndrome in residents of Turkestan, Southern Kazakhstan]. Ekologiya cheloveka [Human Ecology]. 2015. No.8. pp. 58-64. [in Russian]
30. Statistical analysis of empirical research [website] Available at: www.statexpeitorg/articles/Ta6™ qbi_Kp MTunecKM x_3HaHeHMM_CTaTMCTMHecKMx_KpMTepMeB
(Accesed 08 September 2015).
31. Subbotina A.V., Grjibovski A.M. Opisatelnaya statistika I proverka normal'nosti raspredeleniya kolichestvennyh dannykh [Descriptive statistics and normality testing for quantitative data]. Ekologiya cheloveka [Human Ecology]. 2014. No.2. pp. 51-57. [in Russian].
32. Unguryanu T.N., Grjibovski A.M. Korrelatsionnyi analiz s ispol'zovaniyem paketa statisticheskikh programm STATA [Correlation analysis using STATA] Ekologiya cheloveka [Human Ecology]. 2014. No.9. PP. 60-64. [in Russian].
33. Fletcher R. et al. Klinicheskaya epidemiologiya. Osnovy dokazatel'noi meditsiny [Clinical epidemiology. Basics of the evidence-based medicine] / R. Fletchtr, C. Fletcher, E. Vagner. M. : Media Sphere, 1998. 352 p. [in Russian].
34. Yunkerov V.I., Grigoryev S.G. Matematiko-statisticheskaya obrabotka dannykh meditsinskih issledovanii [Mathematical and statistical analysis of medical research data]. SPb : VMedA, 2002. P. 266. [in Russian]
35. Anderson M. RSM simplified: optimizing processes using response surface methods for design of experiments / M. Anderson P., Whitcomb. London: Taylor & Francis, 2005. P. 39-42.
36. Beaglehole R., Bonita R. Basic epidemiology. World Health Organization, Geneva, 1993.
37. Bonett D. Wright T. Sample size requirements for estimating Pearson, Kendall and Spearman correlations // Psychometrica. 2000. Vol. 65. P. 23-28.
38. Cleopas T.J. et al. Statistics Applied to Clinical Trials. 4th ed. Springer, 2009.
39. David F. Tables of the ordinates and probability integral of the distribution of the correlation coefficient in small samples. Cambridge : Cambridge University Press, 1938.
40. Kendall M. A new method of rank 41. Kruskal W. Ordinal measures of correlation // Biometrika. 1938. Vol. 30. P. 91-93. association // Journal of the American Statistical
Association.1958. Vol. 53. P. 814-861.
Гржибовский Андрей Мечиславович — доктор медицины, магистр международного общественного здравоохранения, Старший советник Национального Института Общественного Здравоохранения, г. Осло, Норвегия; Заведующий ЦНИЛ СГМУ, г. Архангельск, Россия; Профессор Северо-Восточного Федерального Университета, г. Якутск, Россия; Профессор, Почетный доктор Международного Казахско-Турецкого Университета им. Х.А. Ясяви, г, Туркестан, Казахстан; Почетный профессор ГМУ г. Семей, Казахстан.
Почтовый адрес: INFA, Nasjonalt folkehelseinstitutt, Postboks 4404 Nydalen, 0403 Oslo, Norway. Email: Andrej.Grjibovski@gmail.com
Телефон: +4745268913 (Норвегия), +79214717053 (Россия), +77471262965 (Казахстан).