Está en la página 1de 18

CURSO: ESTADÍSTICA GENERAL

UNIDAD IV: REGRESION Y CORRELACION LINEAL.


CHI CUADRADO
SEMANA 14: Regresión y Correlación Lineal Simple

PROFESOR: ALFREDO SALINAS MORENO


LIC. EN ESTADISTICA 1
Introducción
En este capítulo, trataremos con muestras bivariadas
cuantitativas, es decir con muestras en donde en cada
unidad estadística se observan dos características
cuantitativas medibles X e Y; por ejemplo:
• Peso y Estatura
• Ingresos y Gastos mensuales.
• Precios y Ventas
El objetivo es estudiar la asociación entre dos
variables; en este caso conocida como asociación
simple.
Correlación
• Tiene como objetivo principal determinar qué tan
intensa es la relación o asociación entre las
variables X e Y; se supone que las variables bajo
estudio son mediciones numéricas, es decir, que se
miden mediante un dispositivo o procedimiento
que genera números reales en vez de categorías (se
utilizan datos de intervalos o escala proporcional).
• En el análisis de correlación, tanto X como Y son
variables aleatorias y tienen el mismo interés.
Regresión
Consiste en determinar la probable forma en que se encuentran
relacionadas dichas variables (a través de una expresión
matemática denominada ecuación de regresión) cuando hay un
fenómeno de causa y efecto.
Su principal objetivo es el de predecir o estimar el valor de la
variable dependiente (Y) en función de otra u otras variables
llamadas independientes o predictoras (X).
Los valores que tomará la variable independiente son decididas
o preseleccionados por el investigador, es decir, estas variables
son no aleatorias; mientras que los valores de la variable
dependiente están determinados por la relación existente entre
dichas variables
Diagrama de dispersión
Tiene por objeto revelar el probable
modelo matemático a utilizarse en el
análisis de dichas variables. Constituye el
primer paso a realizarse en el estudio de
la relación entre las dos variables y consta
de un conjunto de puntos (Xi, Yi)
graficados en un sistema de ejes
cartesianos X Y.
Coeficiente de Correlación Lineal Simple
Llamado también Coeficiente de Correlación de
Pearson, mide el grado de asociación lineal entre dos
variables X e Y. Se estima con el coeficiente de
correlación muestral r:
 

r
n  XY   X  Y
n  X i
2
   X   n  Y    Y 
2
i
2 2

Además -1 ≤ r ≤ 1
  Si r = 1 se dice que hay una correlación lineal positiva perfecta.
Si r = -1 se dice que hay una correlación lineal negativa
perfecta.
Si r = 0 se dice que no hay una correlación lineal entre las
variables X e Y
Al estudiar la correlación deberá tomarse en cuenta dos
puntos importantes:
•Debe tenerse presente que se está midiendo la
correlación y no la causalidad. Podría ser perfectamente
válido que dos variables estuvieran altamente
correlacionados, pero podría ser válido o no, decir que
una variable causa el movimiento de la otra; esta es una
cuestión para el juicio del analista.
•Nótese que el coeficiente de correlación mide una
relación lineal entre dos variables. Un coeficiente de
correlación bajo, indica que las dos variables no
guardan una estrecha relación en forma lineal, pero
podría ser que si tuvieran una estrecha relación de
manera curva o no lineal.
Regresión Lineal Simple
Después que se ha determinado el modelo
matemático a utilizar y se sabe que es lineal se
procede a ajustar una recta llamada recta de
regresión:
 
Y = α + βX (Ecuación de regresión
poblacional)

En donde α y β son los parámetros.


Enseguida trataremos de estimar la ecuación de
regresión poblacional con la ecuación :
Yˆ  a  bX

Yˆ  En donde a y b son estimadores de α y β


respectivamente.
Valor estimado de Y para un determinado valor de X.
a = Es el valor que toma Y, cuando X es igual a cero.
b = Es llamado coeficiente de regresión e indica el
incremento (decremento) de la variable Y al incrementarse X
en una unidad. Para obtener los estimadores a y b utilizamos
el Método de Mínimos Cuadrados, el cual consiste en ajustar
la recta que cumpla con la condición de que la suma de los
cuadrados de las desviaciones de cada valor observado Y
respecto a su correspondiente valor de predicción, sea
mínima; esto es:
n 2

 Y
i 1
i  Yi  debe ser mínima

Al utilizar el método de mínimos cuadrados obtenemos las


siguientes dos ecuaciones conocidas como ecuaciones
normales:
n n

Y
i 1
i  an  b Xi
i 1
n n n


i 1
X i Yi  a  X i  b  X i2
i 1 i 1

Debemos resolverlas simultáneamente para obtener


a y b.
Resolviendo el sistema de ecuaciones normales se
obtiene que:

a 
 i
X 2
Y   X  X
i i i Yi
n  X   X 
2 2
i i

n  X i Yi   X Yi i
b 
X   X 
2 2
n i i

O también: a  Y  bX
Ejemplo
• En un grupo de 8 pacientes se miden las
cantidades antropométricas peso y edad
obteniéndose los siguientes resultados.
X:Edad 12 8 10 11 7 7 10 14
Y: Peso 58 42 51 54 40 39 49 56

• a)Construya el diagrama de dispersión


Diagrama de Dispersión
b) Calcule el Coeficiente de Correlación Lineal

X Y X*Y X**2 Y**2


12 58 696 144 3364
08 42 336 64 1764
10 51 510 100 2601
11 54 594 121 2916
07 40 280 49 1600
07 39 273 49 1521
10 49 490 100 2401
14 56 784 196 3136
79 389 3963 823 19303
Reemplazando en la fórmula obtenemos un r = 0.9431
Interpretación: Existe una correlación lineal positiva, lo
cual significa que cuando la edad aumenta, el peso
también aumenta.

c ) Obtenga la ecuación de regresión lineal:


Reemplazando en las fórmulas tenemos:

a = 823 (389) – 79 (3963) = 20,61


8(823) – (79)2

b = 8(3963) – 79 (389) = 2,84


8(823) – (79)2
La ecuación de regresión será: Yˆ = 20,61 + 2,84 X

Interpretación: Al aumentar la edad en un año, entonces


el peso aumenta en 2,84 kilos.

Se desea pronosticar el peso, para una determinada


persona si la edad se estableciera en 10 años.

Yˆ = 20,61 + 2,84 (10) = 49 kilos aproximadamente


d) Calcule el Coeficiente de Determinación

• Coeficiente de Determinación ( r2 ).- Mide el


porcentaje de variabilidad en Y que se debe o se
explica por la variabilidad en X.
• En nuestro ejemplo r2 = 0.89
• Interpretación.- El 89 % de las variaciones que se
observa en el peso de los pacientes se debe o se
explican por la variación de la edad y el 11 %
restante se debería o se explicaría por el efecto o
influencia de alguna otra variable no tomada en
cuenta en el presente estudio.

También podría gustarte