Está en la página 1de 31

CORRELACIÓN

DEFINICIÓN

Mide la fuerza de
la relación lineal
entre las
Correlación lineal positiva variables Correlación lineal negativa
cuantitativas
apareados x e y
en una muestra.

No existe Correlación
Correlación no lineal
INTERPRETACIÓN DEL COEFICIENTE
DE CORRELACIÓN LINEAL ( R)

Correlación Correlación
negativa positiva
perfecta Ninguna perfecta
correlación
Moderada
Moderada correlación
correlación positiva
negativa
Fuerte Débil Débil Fuerte
correlación correlación correlación correlación
negativa negativa positiva positiva

-1 - 0.5 0 0.5 1
PROPIEDADES DE COEFICIENTE
DE CORRELACIÓN
1. El valor de r está siempre entre -1 y +1, inclusive. Es
decir ,
-1 ≤ r ≤1
2. El valor de r no cambia si todos los valores de
cualquier variable se convierten a una escala
diferente.
3. El valor de r no se afecta por la elección de x o y.
4. r mide la fuerza de relación lineal. No se diseñó para
medir la relación que no es lineal
ERRORES COMUNES EN LAS
CORRELACIONES

• Concluir que la correlación implica causalidad


• Datos basados en promedios
• Propiedad de la linealidad
HIPÓTESIS DE COEFICIENTE DE
CORRELACIÓN

H0 :  = 0 ; No existe correlación entre las dos


variables 
H1 :   0 ; Si existe correlación entre las dos
variables
HIPÓTESIS DE COEFICIENTE DE
CORRELACIÓN

H0 :  ≤ 0 ; No existe correlación directa entre


las dos variables 
H1 :  > 0 ; Si existe correlación directa entre
las dos variables
HIPÓTESIS DE COEFICIENTE DE
CORRELACIÓN

H0 :  ≥ 0 ; No existe correlación inversa entre


las dos variables 
H1 :  < 0 ; Si existe correlación inversa entre
las dos variables
COEFICIENTE DE CORRELACIÓN
LINEAL DE PEARSON (R)
Coeficiente de Correlación de Pearson
Se calcula mediante:
REQUISITOS

• La muestra de datos pareados es una muestra aleatoria de


datos cuantitativos.
• La distribución de las variables deben ser semejantes a la
curva normal.
• El diagrama de dispersión deben confirmar que los
puntos se acercan a una línea recta.
• Es necesario eliminar cualquier valor externo, si se sabe
que se trata de un error.
ESTADÍSTICO DE PRUEBA DE
CORRELACIÓN DE PEARSON
COEFICIENTE DE
CORRELACIÓN DE SPEARMAN

Donde :
di : es la diferencia entre los puntajes de cada observación
n : Tamaño de la muestra
ESTADÍSTICO DE PRUEBA DE
CORRELACIÓN DE SPEARMAN
Para muestras grandes (n>30) la distribución
de rs se aproxima a la normal, donde el
estadístico de prueba es:
RA

RR RR

-z z

Si el valor del estadístico de prueba es


mayor que el valor crítico de z al nivel de
/2 rechazar H0
REGRESIÓN LINEAL
SIMPLE
REQUISITOS

• La correlación es significativo entre las variables


• La muestra de datos pareados es una muestra
aleatoria de datos cuantitativos
• El diagrama de dispersión deben confirmar que los
puntos se acercan a una línea recta.
• Es necesario eliminar cualquier valor externo, si se
sabe que se trata de un error.
MODELO ESTADÍSTICO

En el modelo de regresión simple


se trata de analizar el
comportamiento de una variable a
la que denominaremos
dependiente como función lineal
de una variable independiente o

explicativa.

Yi=β0+β1Xi+ϵi,
ECUACIÓN DE REGRESIÓN

Yi=β0+β1Xi+ϵi,

β0 : Intercepto con el eje. Es el valor de Y que se obtiene


cuando x = 0.

β1 : Pendiente de la recta. Mide el cambio que se producirá


en la variable dependiente Y, cuando la variable
independiente X varía en una unidad.

La relación entre X e Y puede ser:


Directa:  β 1 >0(pendiente  positiva)
Inversa:  β 1 <0(pendiente  negativa)
ECUACIÓN MUESTRAL

Método de mínimos cuadrados para


cálculo de b1 y b2

Y = bo+b1x
PRUEBA DE HIPÓTESIS DE
COEFICIENTES

Formulación de hipótesis:

Estadístico de prueba:
REQUISITOS (CONTINUACIÓN)

• Para cada valor fijo de x, los valores correspondientes de y


tienen distribución normal ϵi∼N(0, )
• Para los distintos valores fijos de x, las distribuciones de los
valores correspondientes de y tienen la misma varianza:
Homocedasticidad
• Para los distintos valores fijos de x, las distribuciones de los
valores correspondientes de y tienen medias que se ubican en la
misma línea recta.
• Los valores de y son independientes.
Bondad de Ajuste
Coeficiente de determinación:
Indica el porcentaje (proporción) de la variabilidad de Y que
es explicada por la ecuación de regresión ajustada.

Coeficiente de no determinación:
Porcentaje (proporción) de la variabilidad de Y que no es
explicada por el modelo
ANOVA DE REGRESIÓN

Prueba la significación del modelo de regresión

Brinda información de la variabilidad dentro de la regresión

Hipótesis que se plantea:

H0: β1 = 0
H1: β1 ≠ 0
NORMALIDAD DE LOS RESIDUOS

¿ϵi tiene distribución N(0, )


Gráficos: Histograma, gráfico
probabilístico normal
Contrastes: Kolmogorov-
Smirknov, Shapiro-Wilks
INDEPENDENCIA DE LOS RESIDUOS

• No autocorrelación: Prueba de Durbin Watson


Hace referencia a los efectos de la inercia de una observación a
otra que pueda indicar la no independencia entre los residuos.
H0: No hay autocorrelación
H1: Si hay autocorrelación
• Si d < 1.18 rechazar H0
• Si d > 1,4 no rechazar H0
• SiPosibles
1.18<d< 1.4 no es concluyente
soluciones
- Transformaciones
- Añadir variables
HOMOCEDASTICIDAD

• Homocedasticidad:
Indica si la varianza de
los errores es constante
a lo largo del tiempo.
LINEALIDAD

• Linealidad:
Hace referencia a las posibles desviaciones de
los datos desde el modelo lineal que se está
ajustando.
Son diagramas de dispersión de los residuos de
cada v. independiente y los residuos de la v.
dependiente cuando se regresan ambas por
separado sobre las restantes v. independientes.
ECUACIÓN DE REGRESIÓN PARA
HACER PREDICCIONES

• Si no existe correlación lineal, el mejor


valor predicho de y es y promedio
• Si existe correlación lineal, el mejor valor
predicho de y se calcula sustituyendo el
valor de x en la ecuación de regresión
LINEAMIENTOS PARA EL USO DE LA
ECUACIÓN DE REGRESIÓN

• Si no existe una correlación lineal, no utilice la ecuación


de regresión para hacer predicciones.
• Permanezca en el ámbitos de los datos muestrales
disponibles
• Una ecuación de regresión que está basada en datos
antiguos no necesariamente es válida ahora
• No haga predicciones acerca de una población distinta de
la población de donde se obtuvieron los datos muestrales.
ERROR ESTÁNDAR DE
ESTIMACIÓN

En una medida de
dispersión de los valores
observados alrededor de
la línea de regresión
INTERVALO DE CONFIANZA

Estima el valor medio de y para una x


dada
INTERVALO DE PREDICCIÓN

Estima el rango de valores de y para


una x dada

También podría gustarte