Понятие о корреляции и корреляционном анализе в психологии (стр. 1 из 4)

Алан-э-Дейл       09.09.2023 г.

Оглавление

Распространенные заблуждения

Корреляция и причинно-следственная связь

Традиционное изречение, что « корреляция не подразумевает причинной связи », означает, что корреляция не может использоваться сама по себе для вывода причинной связи между переменными. Это изречение не должно означать, что корреляции не могут указывать на потенциальное существование причинно-следственных связей. Однако причины, лежащие в основе корреляции, если таковые имеются, могут быть косвенными и неизвестными, а высокие корреляции также пересекаются с отношениями идентичности ( тавтологиями ), где не существует причинных процессов. Следовательно, корреляция между двумя переменными не является достаточным условием для установления причинно-следственной связи (в любом направлении).

Корреляция между возрастом и ростом у детей довольно прозрачна с точки зрения причинно-следственной связи, но корреляция между настроением и здоровьем людей менее очевидна. Приводит ли улучшение настроения к улучшению здоровья, или хорошее здоровье приводит к хорошему настроению, или и то, и другое? Или в основе обоих лежит какой-то другой фактор? Другими словами, корреляция может рассматриваться как свидетельство возможной причинной связи, но не может указывать на то, какой может быть причинная связь, если таковая имеется.

Простые линейные корреляции

Четыре набора данных с одинаковой корреляцией 0,816

Коэффициент корреляции Пирсона указывает на силу линейной связи между двумя переменными, но его значение, как правило, не полностью характеризует их взаимосвязь. В частности, если условное среднее из дано , обозначается , не является линейным в , коэффициент корреляции будет не в полной мере определить форму .
Y{\ displaystyle Y}Икс{\ displaystyle X}E⁡(Y∣Икс){\ displaystyle \ operatorname {E} (Y \ mid X)}Икс{\ displaystyle X}E⁡(Y∣Икс){\ displaystyle \ operatorname {E} (Y \ mid X)}

Прилегающие изображение показывает разброс участков из квартет энскомбы , набор из четырех различных пар переменных , созданный Фрэнсис Анскомбами . Четыре переменные имеют одинаковое среднее значение (7,5), дисперсию (4,12), корреляцию (0,816) и линию регрессии ( y  = 3 + 0,5 x ). Однако, как видно на графиках, распределение переменных сильно отличается. Первый (вверху слева), кажется, распределен нормально и соответствует тому, что можно было бы ожидать, рассматривая две коррелированные переменные и следуя предположению о нормальности. Второй (вверху справа) не распространяется нормально; хотя можно наблюдать очевидную взаимосвязь между двумя переменными, она не является линейной. В этом случае коэффициент корреляции Пирсона не указывает на то, что существует точная функциональная связь: только степень, в которой эта связь может быть аппроксимирована линейной зависимостью. В третьем случае (внизу слева) линейная зависимость идеальна, за исключением одного выброса, который оказывает достаточное влияние, чтобы снизить коэффициент корреляции с 1 до 0,816. Наконец, четвертый пример (внизу справа) показывает другой пример, когда одного выброса достаточно для получения высокого коэффициента корреляции, даже если связь между двумя переменными не является линейной.
у{\ displaystyle y}

Эти примеры показывают, что коэффициент корреляции как сводная статистика не может заменить визуальный анализ данных. Иногда говорят, что примеры демонстрируют, что корреляция Пирсона предполагает, что данные следуют нормальному распределению , но это верно лишь отчасти. Корреляцию Пирсона можно точно рассчитать для любого распределения, имеющего конечную матрицу ковариаций , которая включает большинство распределений, встречающихся на практике. Однако коэффициент корреляции Пирсона (вместе с выборочным средним и дисперсией) является достаточной статистикой только в том случае, если данные взяты из многомерного нормального распределения. В результате коэффициент корреляции Пирсона полностью характеризует взаимосвязь между переменными тогда и только тогда, когда данные взяты из многомерного нормального распределения.

Коэффициент корреляции и ПАММ-счета

С расчётом корреляции я как студент экономического ВУЗа познакомился еще на втором курсе

Тем не менее, долгое время недооценивал важность расчёта корреляции именно для подбора ПАММ-портфеля. 2018 год очень четко показал, что ПАММ-счета с похожими стратегиями в случае кризиса могут вести себя очень похоже

Случилось так, что с середины года отказала не просто одна стратегия управляющего, а большинство торговых систем, завязанных на активные движения валютной пары EUR/USD:

Рынок был для каждого управляющего по-своему неблагоприятным, но присутствие их всех в портфеле привело к большой просадке. Совпадение? Не совсем, ведь это были ПАММ-счета с похожими элементами в торговых стратегиях. Без опыта торговли на рынке Форекс может быть сложно понять, как это работает, но по корреляционной таблице степень взаимосвязи видна и так:

Мы ранее рассматривали корреляцию вплоть до +1, но как видите на практике даже совпадение в районе 20-30% уже говорит о некоторой схожести ПАММ-счетов и, как следствие, результатов торговли.

Чтобы снизить шансы на повторение ситуации, как в 2018 году, я считаю в портфель стоит подбирать ПАММ-счета с низкой взаимной корреляцией. По сути, нам нужны уникальные стратегии с разными подходами и разными валютными парами для торговли. На практике, конечно, сложнее подобрать прибыльные счета с уникальными стратегиями, но если хорошо покопаться в рейтинге ПАММ-счетов, то все возможно. К тому же, низкая взаимная корреляция снижает требования для диверсификации, 5-6 счетов вполне хватит.

Пару слов о расчёте коэффициента корреляции для ПАММ-счетов. Достать сами данные относительно несложно, в Альпари прямо с сайта, для остальных площадок через сайт investflow.ru. Однако с ними нужно сделать небольшие преобразования.

Данные о прибыльности ПАММов изначально хранятся в формате накопленной доходности, нам это не подходит. Корреляция стандартных графиков доходности двух прибыльных ПАММ-счетов всегда будет очень высокой, просто потому что они все движутся в правый верхний угол:

У всех счетов положительная корреляция от 0.5 и выше за редким исключением, так мы ничего не поймем. Реальное сходство стратегий ПАММ-счетов можно увидеть только по дневным доходностям. Рассчитать их не особо сложно, если знаете нужные формулы доходности. Если прибыль или убыток двух ПАММ-счетов совпадают по дням и по процентам, высока вероятность что их стратегии имеют общие элементы — и коэффициент корреляции нам это покажет:

Как видите, некоторые корреляции стали нулевыми, а некоторые остались на высоком уровне. Мы теперь видим, какие ПАММ-счета действительно похожи между собой, а какие не имеют ничего общего.

Напоследок давайте разберёмся, что делать и как посчитать корреляцию, если у вас появилась в этом необходимость.

Вычисляем коэффициент корреляции.

Коэффициент корреляции — это показатель взаимного вероятностного влияния двух случайных величин.
Коэффициент корреляции R может принимать значения от -1 до +1. Если абсолютное значение находится ближе к 1,
то это свидетельство сильной связи между величинами, а если ближе к — то, это говорит о слабой связи или ее отсутствии. Если абсолютное значение
R равно единице, то можно говорить о функциональной связи между величинами, то есть одну величину можно
выразить через другую посредством математической функции.

Rx,y  = 
cov( X,Y )
σxσy
     ( 1.1 ),    где:

cov( X,Y ) — ковариация случайных величин Х и Y

σx2  = 
1
n
n
Σ
k = 1
(xk-Mx)2  ,   σy2  = 
1
n
n
Σ
k = 1
(yk-My)2     ( 1.2 ),    — оценки дисперсий случайных величин X и Y соответственно.
Mx  = 
1
n
n
Σ
k = 1
xk  ,   My  = 
1
n
n
Σ
k = 1
yk     ( 1.3 ),    — оценки математического ожидания случайных величин X и Y соответственно.
Rx,y  = 
Mxy — MxMy
SxSy
     ( 1.4 ),    где:
Mx  = 
1
n
n
Σ
k = 1
xk ,   My  = 
1
n
n
Σ
k = 1
yk ,   Mxy  = 
1
n
n
Σ
k = 1
xkyk     ( 1.5 )
Sx2  = 
1
n
n
Σ
k = 1
xk2 — Mx2 ,   Sy2  = 
1
n
n
Σ
k = 1
yk2 — My2     ( 1.6 )

На практике, для вычисления коэффициента корреляции чаще используется формула ( 1.4 )
т.к. она требует меньше вычислений. Однако если предварительно была вычислена ковариация cov(X,Y), то выгоднее использовать
формулу ( 1.1 ), т.к. кроме собственно значения ковариации можно воспользоваться и результатами промежуточных вычислений.

1.1 Вычислим коэффициент корреляции по формуле ( 1.4 ), для этого
вычислим значения xk2, yk2 и xkyk
и занесем их в таблицу 1.

Таблица 1

 k   xk   yk   хk  yk  хkyk 
1 2 3 4 5 6
 1   25.2   30.8    635.04000    948.64000    776.16000 
 2   26.4   29.4    696.96000    864.36000    776.16000 
 3   26.0   30.2    676.00000    912.04000    785.20000 
 4   25.8   30.5    665.64000    930.25000    786.90000 
 5   24.9   31.4    620.01000    985.96000    781.86000 
 6   25.7   30.3    660.49000    918.09000    778.71000 
 7   25.7   30.4    660.49000    924.16000    781.28000 
 8   25.7   30.5    660.49000    930.25000    783.85000 
 9   26.1   29.9    681.21000    894.01000    780.39000 
 10   25.8   30.4    665.64000    924.16000    784.32000 
 11   25.9   30.3    670.81000    918.09000    784.77000 
 12   26.2   30.5    686.44000    930.25000    799.10000 
 13   25.6   30.6    655.36000    936.36000    783.36000 
 14   25.4   31    645.16000    961.00000    787.40000 
 15   26.6   29.6    707.56000    876.16000    787.36000 
 16   26.2   30.4    686.44000    924.16000    796.48000 
 17   26   30.7    676.00000    942.49000    798.20000 
 18   22.1   31.6    488.41000    998.56000    698.36000 
 19   25.9   30.5    670.81000    930.25000    789.95000 
 20   25.8   30.6    665.64000    936.36000    789.48000 
 21   25.9   30.7    670.81000    942.49000    795.13000 
 22   26.3   30.1    691.69000    906.01000    791.63000 
 23   26.1   30.6    681.21000    936.36000    798.66000 
 24   26   30.5    676.00000    930.25000    793.00000 
 25   26.4   30.7    696.96000    942.49000    810.48000 
 26   25.8   30.8    665.64000    948.64000    794.64000 

1.2. Вычислим Mx по формуле ( 1.5 )1.2.1.xk12261.2.2.Mx =  25.7500001.3. Аналогичным образом вычислим My1.3.1.yk12261.3.2.My =  30.5000001.4. Аналогичным образом вычислим Mxy1.4.1.1.4.2.Mxy =  785.1088461.5. Вычислим значение Sx2 по формуле ( 1.6. )1.5.1.1.5.2.1.5.3.xx2Sx22 0.664811.6. Вычислим значение Sy2 по формуле ( 1.6. )1.6.1.1.6.2.1.6.3.yy2Sy22 0.205381.7. Вычислим произведение величин Sx2 и Sy2x2y21.8. Извлечем и последнего числа квадратный корень, получим значение SxSyxy1.9. Вычислим значение коэффициента корреляции по формуле (1.4.)ОТВЕТ:      Rx,y  =  -0.720279

Матрицы корреляции

Корреляционная матрица случайных величин — это матрица, элементом которой является . Таким образом, диагональные элементы равны единице . Если меры корреляции используется коэффициенты продукта момент, корреляционная матрица является таким же , как ковариационная матрица из стандартизованных случайных величин для . Это применимо как к матрице корреляций совокупности (в этом случае — стандартное отклонение совокупности), так и к матрице корреляций выборки (в этом случае обозначает стандартное отклонение выборки). Следовательно, каждая из них обязательно является положительно-полуопределенной матрицей . Более того, корреляционная матрица является строго положительно определенной, если никакая переменная не может иметь все свои значения, точно сгенерированные как линейная функция значений других.
п{\ displaystyle n}Икс1,…,Иксп{\ Displaystyle X_ {1}, \ ldots, X_ {n}}п×п{\ Displaystyle п \ раз п}(я,j){\ displaystyle (я, j)}корр⁡(Икся,Иксj){\ displaystyle \ operatorname {corr} (X_ {i}, X_ {j})} Иксяσ(Икся){\ Displaystyle X_ {i} / \ sigma (X_ {i})}язнак равно1,…,п{\ Displaystyle я = 1, \ точки, п}σ{\ displaystyle \ sigma}σ{\ displaystyle \ sigma}

Матрица корреляции является симметричной, потому что корреляция между и такая же, как корреляция между и .
Икся{\ displaystyle X_ {i}}Иксj{\ displaystyle X_ {j}}Иксj{\ displaystyle X_ {j}}Икся{\ displaystyle X_ {i}}

Матрица корреляции появляется, например, в одной формуле для , меры согласия в множественной регрессии .

В статистическом моделировании корреляционные матрицы, представляющие отношения между переменными, подразделяются на различные корреляционные структуры, которые различаются такими факторами, как количество параметров, необходимых для их оценки. Например, в заменяемой корреляционной матрице все пары переменных моделируются как имеющие одинаковую корреляцию, поэтому все недиагональные элементы матрицы равны друг другу. С другой стороны, авторегрессионная матрица часто используется, когда переменные представляют собой временной ряд, поскольку корреляции, вероятно, будут больше, когда измерения ближе по времени. Другие примеры включают независимый, неструктурированный, M-зависимый и Toeplitz.

В поисковом анализе данных , то иконография корреляций состоит в замене корреляционной матрицы на диаграмме , где «замечательные» корреляции представлены сплошной линией (положительная корреляция), или пунктирной линией (отрицательная корреляция).

Коэффициенты Пирсона и Спирмена

Рассмотрим два метода расчета.

Коэффициент Пирсона — это особый метод расчета взаимосвязи показателей между выраженностью численных значений в одной группе. Очень упрощенно он сводится к следующему:

  1. Берутся значения двух параметров в группе испытуемых (например, агрессии и перфекционизма).
  2. Находятся средние значения каждого параметра в группе.
  3. Находятся разности параметров каждого испытуемого и среднего значения.
  4. Эти разности подставляются в специальную форму для расчета коэффициента Пирсона.

Коэффициент ранговой корреляции Спирмена рассчитывается похожим образом:

Гость форума
От: admin

Эта тема закрыта для публикации ответов.