Está en la página 1de 18

Temas

1) Correlación
2) Regresión lineal simple (dos variables)
3) Regresión lineal múltiple (tres o mas variables)
Correlación.

Cuando se realiza un análisis de información, sobre un «conjunto de datos»


(denominado dataset), cuyo origen (feed) puede ser bien una base de datos, como
sobre archivos raw, logs, datos en hojas de cálculo etc. una de las herramientas
más potentes para poder extraer conclusiones es realizar correlaciones.

El término correlación ha empezado a oírse con frecuencia en los últimos tiempos.


Sin embargo, en algunas ocasiones no suelen ser acertadas las aproximaciones,
definiciones o referencias del término, o incluso desarrollos de software que dicen
realizar estos cálculos. Un ejemplo en seguridad es el caso de algunas
herramientas SIEM o similares, cuando se comenta que realizan correlaciones,
cuando en ocasiones ejecutan en realidad otro tipo de técnicas de análisis. Estas
herramientas suelen tener módulos de ejecución de consultas, bien en SQL, en un
lenguaje propio de la herramienta, o incluso en pseudocódigo, pero que pueden no
realizar ningún análisis ni cálculo de correlación.

¿Qué es?

Es una técnica de análisis de información con base estadística y, por ende,


matemática. Consiste en analizar la relación entre, al menos, dos variables - p.e.
dos campos de una base de datos o de un log o raw data-. El resultado debe
mostrar la fuerza y el sentido de la relación.

Para analizar la relación entre variables se utilizan los llamados coeficientes de


correlación. Se realizan sobre sobre variables cuantitativas o cualitativas. Ello
determinará si se calcula o bien el coeficiente de correlación de Pearson, el
de Spearman, o el de Kendall. Esto si estamos hablando de correlaciones
bivariadas. Existen otras como pueden ser las correlaciones o las medidas de
distancia o disimilaridad de intervalos, recuentos o binarias (p.e. distancia
euclídea, euclídea al cuadrado, Chebyshev, Bloque, Minkovsky, etc.)
Es una técnica ampliamente documentada, con múltiples fuentes de información
abiertas para que cualquiera pueda acceder a sus principios y realizar sus propios
análisis.

Hasta el momento la aplicación de la correlación ha sido amplia y diversa en


diferentes campos como ciencias naturales, economía, psicología, etc. y por
supuesto, en investigaciones de todo tipo. En lo que se refiere al campo de
la seguridad de la información los fundamentos son los mismos, aunque por el
momento aún se está desarrollando.

Fundamentos matemáticos de la correlación:

Analizaremos el caso más típico de dos variables cuantitativas. La relación puede


ser de tipo lineal, polinómica, logarítmica, etc. Para ello se utiliza el Método de
Mínimos Cuadrados. Consiste en minimizar el error de la relación calculada frente
al hecho real, es decir, minimizar la desviación típica de los residuos de la
regresión (Error Cuadrático Medio).

Siendo: ei la diferencia para cada elemento entre la observación real y el dato
estimado  , y n el número de elementos observados.

De ahí, aplicando un ajuste lineal,

En el caso más simple: con una variable dependiente y otra independiente


tendríamos

De esta surge el Coeficiente de Correlación de Pearson, el más conocido de los


coeficientes de correlación:
Siendo: σxy la covarianza de las variables X e Y,σx la desviación típica de la
variable X,

y σy la desviación típica de la variable Y.

Los valores que puede tomar R son: -1≤R≤1

 R=1: existe una relación positiva perfecta.

También se pueden valer de los siguientes rangos:

1. R=-1: existe una relación negativa perfecta.


2. -1<R<-0,5: existe relación negativa fuerte.
3. R=-0,5: existe una relación negativa moderada.
4. -0,5<R<0: existe relación negativa débil.
5. R=0: no existe relación, no existe relación lineal, Y no depende linealmente
de X.
6. 0<R<0,5: existe relación positiva débil.
7. R=0,5: existe una relación positiva moderada.
8. 0,5<R<1: existe relación positiva fuerte.
9. R=1: existe una relación positiva perfecta

Dispersión y correlación.
Pares ordenados que forman una línea recta.
Regresión lineal.
La regresión lineal simple consiste en generar un modelo de regresión
(ecuación de una recta) que permita explicar la relación lineal que existe
entre dos variables. A la variable dependiente o respuesta se le identifica
como YY y a la variable predictora o independiente como XX.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
Y=β0+β1X1+ϵY=β0+β1X1+ϵ

Siendo β0β0 la ordenada en el origen, β1β1 la pendiente y ϵϵ el error


aleatorio. Este último representa la diferencia entre el valor ajustado por la
recta y el valor real. Recoge el efecto de todas aquellas variables que influyen
en YY pero que no se incluyen en el modelo como predictores. Al error
aleatorio también se le conoce como residuo.
En la gran mayoría de casos, los valores β0β0 y β1β1 poblacionales son
desconocidos, por lo que, a partir de una muestra, se obtienen sus
estimaciones β^0β^0 y β^1β^1. Estas estimaciones se conocen como
coeficientes de regresión o least square coefficient estimates, ya que toman
aquellos valores que minimizan la suma de cuadrados residuales, dando
lugar a la recta que pasa más cerca de todos los puntos. (Existen alternativas
al método de mínimos cuadrados para obtener las estimaciones de los
coeficientes).

y^=β^0+β^1xy^=β^0+β^1x

β^1=∑ni=1(xi−x¯¯¯)(yi−y¯¯¯)∑ni=1(xi−x¯¯¯)2=SySxRβ^1=∑i=1n(xi−x¯)
(yi−y¯)∑i=1n(xi−x¯)2=SySxR

β^0=y¯¯¯−β^1x¯¯¯β^0=y¯−β^1x¯

Donde SySy y SxSx son las desviaciones típicas de cada variable y RR el


coeficiente de correlación. β^0β^0 es el valor esperado la
variable YY cuando XX = 0, es decir, la intersección de la recta con el eje y. Es
un dato necesario para generar la recta, pero en ocasiones, no tiene
interpretación práctica (situaciones en las que XX no puede adquirir el valor
0).
Una recta de regresión puede emplearse para diferentes propósitos y
dependiendo de ellos es necesario satisfacer distintas condiciones. En caso
de querer medir la relación lineal entre dos variables, la recta de regresión lo
va a indicar de forma directa (ya que calcula la correlación). Sin embargo, en
caso de querer predecir el valor de una variable en función de la otra, no solo
se necesita calcular la recta, sino que además hay que asegurar que el
modelo sea bueno.

Regresión lineal positiva Regresión lineal negativa

Regresión curvilínea No relacionada

Valores observados y Recta de mejor ajuste No recta de mejor

predicho de y ajuste
Condiciones para la regresión lineal

1. Linealidad: La relación entre ambas variables debe ser lineal. Para


comprobarlo se puede recurrir a:
o Graficar ambas variables a la vez (scatterplot o diagrama de
dispersión), superponiendo la recta del modelo generado por
regresión lineal.
o Calcular los residuos para cada observación acorde al modelo
generado y graficarlos (scatterplot). Deben distribuirse de forma
aleatoria en torno al valor 0.
2. Distribución Normal de los residuos: Los residuos se tiene que
distribuir de forma normal, con media igual a 0. Esto se puede comprobar
con un histograma, con la distribución de cuantiles (qqnorm() + qqline()) o
con un test de hipótesis de normalidad. Los valores extremos suelen ser
una causa frecuente por la que se viola la condición de normalidad.
3. Varianza de residuos constante (homocedasticidad): La varianza de
los residuos ha de ser aproximadamente constante a lo largo del eje XX.
Se puede comprobar mediante gráficos (scatterplot) de los residuos de
cada observación (formas cónicas son un claro indicio de falta de
homocedasticidad) o mediante contraste de hipótesis mediante el test
de Breusch-Pagan.
4. Valores atípicos y de alta influencia: Hay que estudiar con detenimiento
los valores atípicos o extremos ya que pueden generar una falsa
correlación que realmente no existe, u ocultar una existente. (Ver
descripción detallada en la sección de apuntes varios).
5. Independencia, Autocorrelación: Las observaciones deben ser
independientes unas de otras. Esto es importante tenerlo en cuenta
cuando se trata de mediciones temporales. Puede detectarse estudiando
si los residuos siguen un patrón o tendencia. Otro caso frecuente es el de
tener varias mediciones para un mismo sujeto. En estos casos, primero se
obtiene la media de cada uno y después se ajusta el modelo empleando
las medias.

Predicción de valores

Una vez generado un modelo que se pueda considerar válido, es posible predecir
el valor de la variable dependiente YY para nuevos valores de la variable
predictora XX. Es importante tener en cuenta que las predicciones deben, a priori,
limitarse al rango de valores dentro del que se encuentran las observaciones con
las que se ha generado el modelo. Esto es importante puesto que solo en esta
región se tiene certeza de que se cumplen las condiciones para que el modelo sea
válido. Para calcular las predicciones se emplea la ecuación generada por
regresión.
Dado que el modelo generado se ha obtenido a partir de una muestra y por lo
tanto las estimaciones de los coeficientes de regresión tienen un error asociado,
también lo tienen los valores de las predicciones. Existen dos formas de medir la
incertidumbre asociada con una predicción:

Si bien ambas preguntas parecen similares, la diferencia se encuentra en que los


intervalos de confianza se aplican al valor promedio que se espera de YY para un
determinado valor de XX, mientras que los intervalos de predicción no se aplican
al promedio. Por esta razón los segundos siempre son más amplios que los
primeros.
En R se puede emplear la función predict() que recibe como argumento el modelo
calculado, un dataframe con los nuevos valores del predictor XX y el tipo de
intervalo (confidence o prediction).
Una característica que deriva de la forma en que se calcula el margen de error en
los intervalos de confianza y predicción, es que el intervalo se ensancha a medida
que los valores de XX se aproximan a los extremos el rango observado.

¿Por qué ocurre esto? Prestando atención a la ecuación del error


estándar del intervalo de confianza, el numerador contiene el
término (xk−x¯)2(xk−x¯)2 (lo mismo ocurre para el intervalo de
predicción).

Este término se corresponde con la diferencia al cuadrado entre el


valor xkxk para el que se hace la predicción y la media x¯x¯ de los
valores observados del predictor XX. Cuanto más se
aleje xkxk de x¯x¯ mayor es el numerador y por lo tanto el error
estándar.
Regresión lineal múltiple.

La regresión lineal múltiple permite generar un modelo lineal en el que el valor de


la variable dependiente o respuesta (YY) se determina a partir de un conjunto de
variables independientes llamadas predictores (X1X1, X2X2, X3X3…). Es una
extensión de la regresión lineal simple , por lo que es fundamental comprender
esta última. Los modelos de regresión múltiple pueden emplearse para predecir
el valor de la variable dependiente o para evaluar la influencia que tienen los
predictores sobre ella (esto último se debe que analizar con cautela para no
malinterpretar causa-efecto).
Los modelos lineales múltiples siguen la siguiente ecuación:

Yi=(β0+β1X1i+β2X2i+⋯+βnXni)+eiYi=(β0+β1X1i+β2X2i+⋯+βnXni)+ei

 β0β0: es la ordenada en el origen, el valor de la variable


dependiente YY cuando todos los predictores son cero.
 βiβi: es el efecto promedio que tiene el incremento en una unidad de la
variable predictora XiXi sobre la variable dependiente YY, manteniéndose
constantes el resto de las variables. Se conocen como coeficientes
parciales de regresión.
 eiei: es el residuo o error, la diferencia entre el valor observado y el
estimado por el modelo.

Es importante tener en cuenta que la magnitud de cada coeficiente parcial de


regresión depende de las unidades en las que se mida la variable predictora a la
que corresponde, por lo que su magnitud no está asociada con la importancia de
cada predictor. Para poder determinar qué impacto tienen en el modelo cada una
de las variables, se emplean los coeficientes parciales estandarizados, que se
obtienen al estandarizar (sustraer la media y dividir entre la desviación estándar)
las variables predictoras previo ajuste del modelo.

Condiciones para la regresión lineal múltiple

Los modelos de correlación lineal múltiple requieren de las mismas condiciones


que los modelos lineales simples más otras adicionales.

No colinialidad o multicolinialidad:

En los modelos lineales múltiples los predictores deben ser independientes, no


debe de haber colinialidad entre ellos. La colinialidad ocurre cuando un predictor
está linealmente relacionado con uno o varios de los otros predictores del
modelo o cuando es la combinación lineal de otros predictores. Como
consecuencia de la colinialidad no se puede identificar de forma precisa el efecto
individual que tiene cada una de las variables colineales sobre la variable
respuesta, lo que se traduce en un incremento de la varianza de los coeficientes
de regresión estimados hasta el punto que resulta prácticamente imposible
establecer su significancia estadística. Además, pequeños cambios en los datos
provocan grandes cambios en las estimaciones de los coeficientes. Si bien la
colinialidad propiamente dicha existe solo si el coeficiente de correlación simple
o múltiple entre algunas de las variables independientes es 1, esto raramente
ocurre en la realidad. Sin embargo, es frecuente encontrar la llamada casi-
colinialidad o multicolinialidad no perfecta.

No existe un método estadístico concreto para determinar la existencia de


colinialidad o multicolinialidad entre los predictores de un modelo de regresión,
sin embargo, se han desarrollado numerosas reglas prácticas que tratan de
determinar en qué medida afecta a la estimación y contraste de un modelo. Los
pasos recomendados a seguir son:
 Si el coeficiente de determinación R2R2 es alto pero ninguno de los
predictores resulta significativo, hay indicios de colinialidad.
 Calcular una matriz de correlación en la que se estudia la relación lineal
entre cada par de predictores. Es importante tener en cuenta que, a pesar
de no obtenerse ningún coeficiente de correlación alto, no está asegurado
que no exista multicolinialidad. Se puede dar el caso de tener una relación
lineal casi perfecta entre tres o más variables y que las correlaciones
simples entre pares de estas mismas variables no sean mayores que 0.5.
 Generar un modelo de regresión lineal simple entre cada uno de los
predictores frente al resto. Si en alguno de los modelos el coeficiente de
determinación R2 es alto, estaría señalando a una posible colinialidad.
 Tolerancia (TOL) y Factor de Inflación de la Varianza (VIF). Se trata de
dos parámetros que vienen a cuantificar lo mismo (uno es el inverso del
otro). El VIF de cada predictor se calcula según la siguiente fórmula:

Donde R2R2 se obtiene de la regresión del predictor XjXj sobre los otros


predictores. Esta es la opción más recomendada, los límites de referencia que se
suelen emplear son:

 VIF = 1: Ausencia total de colinialidad


 1 < VIF < 5: La regresión puede verse afectada por cierta colinialidad.
 5 < VIF < 10: Causa de preocupación
 El termino tolerancia es 1/VIF1/VIF por lo que los límites recomendables
están entre 1 y 0.1.

En caso de encontrar colinialidad entre predictores, hay dos posibles soluciones.


La primera es excluir uno de los predictores problemáticos intentando conservar
el que, a juicio del investigador, está influyendo realmente en la variable
respuesta. Esta medida no suele tener mucho impacto en el modelo en cuanto a
su capacidad predictiva ya que, al existir colinialidad, la información que aporta
uno de los predictores es redundante en presencia del otro. La segunda opción
consiste en combinar las variables colineales en un único predictor, aunque con
el riesgo de perder su interpretación.

Cuando se intenta establecer relaciones causa-efecto, la colinialidad puede llevar


a conclusiones muy erróneas, haciendo creer que una variable es la causa
cuando en realidad es otra la que está influenciando sobre ese predictor.

Parsimonia:

Este término hace referencia a que el mejor modelo es aquel capaz de explicar
con mayor precisión la variabilidad observada en la variable respuesta
empleando el menor número de predictores, por lo tanto, con menos asunciones.

Relación lineal entre los predictores numéricos y la variable respuesta:

Cada predictor numérico tiene que estar linealmente relacionado con la variable
respuesta YY mientras los demás predictores se mantienen constantes, de lo
contrario no se puede introducir en el modelo. La forma más recomendable de
comprobarlo es representando los residuos del modelo frente a cada uno de los
predictores. Si la relación es lineal, los residuos se distribuyen de forma aleatoria
entorno a cero. Estos análisis son solo aproximados, ya que no hay forma de
saber si realmente la relación es lineal cuando el resto de predictores se
mantienen constantes.
Distribución normal de los residuos:

Los residuos se deben distribuir de forma normal con media cero. Para
comprobarlo se recurre a histogramas, a los cuantiles normales o a test de
hipótesis.

Variabilidad constante de los residuos (homocedasticidad):

La varianza de los residuos debe de ser constante en todo el rango de


observaciones. Para comprobarlo se representan los residuos. Si la varianza es
constante, se distribuyen de forma aleatoria manteniendo una misma dispersión
y sin ningún patrón específico. Una distribución cónica es un claro identificador
de falta de homocedasticidad. También se puede recurrir a contrastes de
homocedasticidad como el test de Breusch-Pagan.

No autocorrelación (Independencia):

Los valores de cada observación son independientes de los otros, esto es


especialmente importante de comprobar cuando se trabaja con mediciones
temporales. Se recomienda representar los residuos ordenados acorde al tiempo
de registro de las observaciones, si existe un cierto patrón hay indicios de
autocorrelación. También se puede emplear el test de hipótesis de Durbin-
Watson.

Valores atípicos, con alto leverage o influyentes:

Es importante identificar observaciones que sean atípicas o que puedan estar


influenciando al modelo. La forma más fácil de detectarlas es a través de los
residuos.

Tamaño de la muestra:
No se trata de una condición de por sí pero, si no se dispone de suficientes
observaciones, predictores que no son realmente influyentes podrían parecerlo.
En el libro Hanbook of biological statistics recomiendan que el número de
observaciones sea como mínimo entre 10 y 20 veces el número de predictores
del modelo.

La gran mayoría de condiciones se verifican utilizando los residuos, por lo tanto,


se suele generar primero el modelo y posteriormente validar las condiciones. De
hecho, el ajuste de un modelo debe verse como un proceso iterativo en el que se
ajusta el modelo, se evalúan sus residuos y se mejora. Así hasta llegar a un
modelo óptimo.

También podría gustarte