Вероятность — ковариация и корреляция
Связана ли переменная А с переменной В?
Если у нас есть данные о росте и весе, мы хотим проанализировать взаимосвязь между этими двумя переменными. Ответ заключается в использовании ковариационного и корреляционного анализа.
Ковариация

Ковариация используется, чтобы выяснить, связаны ли две переменные или нет. Что нужно видеть, так это то, является ли значение положительным или отрицательным. Если она положительна, они движутся в одном направлении (положительная ковариация). Если оно отрицательное, они движутся в противоположном направлении (отрицательная ковариация). Значение ковариации не может описать, насколько сильна связь.

Где:
- x̄ = среднее значение x
- ȳ = среднее значение y
- xᵢ и yᵢ - точка наблюдения x и y
- n = количество наблюдений
Корреляция
Мы можем использовать корреляцию, если хотим узнать, насколько сильна связь между двумя переменными. Значения ковариации могут варьироваться, потому что масштаб чисел также различен. Таким образом, корреляция используется в результате нормализации ковариации со значением от -1 до 1. Мы делим ковариацию с корневой дисперсией x и y соответственно и получаем коэффициент корреляции, который варьируется от -1 до +1.

COV ( x, y ) = ковариация переменных x и y
σ 2 x = выборочная дисперсия переменной x
σ 2 y = выборочная дисперсия переменной y

Как интерпретировать корреляцию: Направление корреляции можно узнать по ее значению, положительному или отрицательному. Положительная корреляция означает, что увеличение одной переменной вызывает дополнительное значение другой переменной. Наоборот, в отрицательной корреляции. Корреляция сильная, если значение приближается к 1 или -1. При этом чем он ближе к 0, тем слабее корреляция или ее отсутствие.
Заключительные слова
Поздравляем! Надеюсь, вы узнали что-то новое из этой статьи.
Прочитав эту статью, вы должны были знать, как найти связь между двумя переменными. Если вам нравится контент, подпишитесь на мою учетную запись Medium, чтобы получать уведомления о моих будущих публикациях!
Обо мне
Энтузиаст данных, который постоянно развивается и бросает себе вызов в различных аспектах, стремится учиться и открыт для нового опыта. В настоящее время работает младшим аналитиком данных в Grouu Baby Food.
Посетите GitHub Арика , чтобы узнать о нем больше! Наконец, если у вас есть какие-либо вопросы или темы для обсуждения, свяжитесь с Ariq через LinkedIn .
Использованная литература:
[1] Берцекас, Д., и Цициклис, Дж. Н. (2008). Введение в вероятность (Том 1). Афина научная.
[2]https://towardsdatascience.com/getting-the-basics-of-correlation-covariance-c8fc110b90b4