Está en la página 1de 31

Anlisis de

Regresin y Correlacin

1
Introduccin
Muchas veces las decisiones se basan en la relacin entre
dos o ms variables. Ejemplos:

Relacin entre peso y cantidad de colesterol.


Relacin entre nmero de horas que se duerme por da y
nmero de horas de trabajo fsico por da.
Relacin entre presencia de sndrome de hombro doloroso
(si=1, no=0) y edad.
Relacin entre tamao de un lote de produccin y horas
hombre utilizadas para realizarlo.

2
Relacin estadstica entre dos
variables
Las observaciones no caen exactamente sobre la
curva de relacin entre las variables
Ejemplo 1:

Lote de prod. Tamao del lote Horas hombre


1 30 73
2 20 50
3 60 128
4 80 170
5 40 87

3
Figura 1
Relacin estadstica entre tamao del lote y
horas hombre
180

160
Horas hombre

140

120

100

80

60

Horas hombre
40

20

0
0 10 20 30 40 50 60 70 80 90

Tamao del lote

Nota: La mayor parte de los puntos no caen directamente sobre


la lnea de relacin estadstica.
Esta dispersin de punto alrededor de la lnea representa la
variacin aleatoria 4
Figura 2
Coordenadas de puntos de control utilizados
para corregir la columna de los niveles
digitales de una imagen satelital
7000

6000

5000

4000

3000

2000

1000

0
0 2 4 6 8 10 12 14 16

Nota: se trata de un terreno rugoso donde varan notablemente


las condiciones de observacin del sensor, para corregir errores
geomtricos de la imagen, se aplican funciones de segundo
grado. Los datos sugieren que la relacin estadstica es de tipo
curvilnea. 5
Conceptos bsicos
Anlisis de Regresin: Es un procedimiento estadstico que estudia
la relacin funcional entre variables.Con el objeto de predecir una
en funcin de la/s otra/s.
Anlisis de Correlacin: Un grupo de tcnicas estadsticas usadas
para medir la intensidad de la relacin entre dos variables
Diagrama de Dispersin: Es un grfico que muestra la intensidad y el
sentido de la relacin entre dos variables de inters.
Variable dependiente (respuesta, predicha, endgena): es la
variable que se desea predecir o estimar
Variables independientes (predictoras, explicativas exgenas). Son
las variables que proveen las bases para estimar.
Regresin simple: interviene una sola variable independiente
Regresin mltiple: intervienen dos o ms variables independientes.
Regresin lineal: la funcin es una combinacin lineal de los
parmetros.
Regresin no lineal: la funcin que relaciona los parmetros no es
una combinacin lineal 6
Grfico de dispersin
Los diagramas de dispersin no slo muestran la
relacin existente entre variables, sino tambin resaltan
las observaciones individuales que se desvan de la
relacin general. Estas observaciones son conocidas
como outliers o valores inusitados, que son puntos de los
datos que aparecen separados del resto.

7
Coeficiente de correlacin
lineal
El Coeficiente de Correlacin (r)
requiere variables medidas en escala de
intervalos o de proporciones
Vara entre -1 y 1.
Valores de -1 1 indican correlacin perfecta.
Valor igual a 0 indica ausencia de correlacin.
Valores negativos indican una relacin lineal
inversa y valores positivos indican una relacin
lineal directa

8
Correlacin Negativa Perfecta
10
9
8
7
6
Y 5
4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10
X
9
Correlacin Positiva Perfecta
10
9
8
7
6
Y 5
4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10
X
10
Ausencia de Correlacin
10
9
8
7
6
Y 5
4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10
X
11
Correlacin Fuerte y Positiva
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
12
Frmula para el coeficente de
correlacin (r) . Pearson

n(XY) (X)(Y)
r=
[ n(X ) (X) ] [ n( Y ) ( Y)
2 2 2 2
]

13
Modelos de Regresin

Un modelo de regresin, es una manera de


expresar dos ingredientes esenciales de
una relacin estadstica:
Una tendencia de la variable dependiente (Y)
a variar conjuntamente con la variacin de la
o las (X) de una manera sistemtica
Una dispersin de las observaciones alrededor
de la curva de relacin estadstica

14
Modelos de Regresin

Estas dos caractersticas estn implcitas en un


modelo de regresin, postulando que:
En la poblacin de observaciones asociadas con el
proceso que fue muestreado, hay una distribucin
de probabilidades de Y para cada nivel de X.
Las medias de estas distribuciones varan de manera
sistemtica al variar X.

15
Anlisis de Regresin
Objetivo: determinar la ecuacin de regresin para
predecir los valores de la variable dependiente (Y)
en base a la o las variables independientes (X).
Procedimiento: seleccionar una muestra a partir de
la poblacin, listar pares de datos para cada
observacin; dibujar un diagrama de puntos para
dar una imagen visual de la relacin; determinar la
ecuacin de regresin.
X: X1 X2 X3 X4 .. Xn Y: Y1 Y2 Y3 Y4 . Yn
(X,Y): (X1,Y1), (X2,Y2), (X3;Y3), , (Xn,Yn)

16
Proceso de estimacin de la regresin lineal simple
Modelo de regresin Datos de la muestra
y=0+1x+ x y
x1 y1
Ecuacin de regresin x2 y2
E(y)=0+1x . .
Parmetros desconocidos . .
0, 1 . .
xn yn

Ecuacin estimada de
b0 y b1 regresin
y=b0+b1x
proporcionan estimados Estadsticos de la muestra
de 0 y 1 b0 y b1

17
Lneas posibles de regresin en la
regresin lineal simple
Seccin A Seccin B Seccin C
Relacin lineal positiva Relacin lineal negativa No hay relacin

Ey Ey Ey
La pendiente 1
Lnea de regresin * es negativa La pendiente 1
es 0
* La pendiente 1 *
es positiva Lnea de regresin Lnea de regresin

x x x

* Ordenada al origen 0
18
Estimacin del Modelo de Regresin
Lineal Simple
Y= a + bX, donde:
Y es el valor estimado de Y para distintos X.
a es la interseccin o el valor estimado de Y cuando X=0
b es la pendiente de la lnea, o el cambio promedio de Y
para cada cambio en una unidad de X
el principio de mnimos cuadrados es usado para obtener a
y b: n( XY ) ( X )( Y )
b
n( X 2 ) ( X ) 2
Y X
a b
n n
19
Coeficiente de Determinacin

Coeficiente de Determinacin (R2), es la


proporcin de la variacin total en la
variable dependiente Y que es explicada o
contabilizada por la variacin en la variable
independiente X.
El coeficiente de determinacin es el
cuadrado del coeficiente de correlacin, y
varia entre 0 y 1.

20
MODELO DE REGRESIN NO
LINEAL (Polinomial)
= b0 +b1X + b2X2 + .+bnXn

SEGN EL MTODO DE MNIMOS CUADRADOS:


nb0 + b1x + b2x2 + b3x3 + . + bnxn = y
b0x + b1x2 + b2x3+ b3x3 + . + bnx(n+1) = xy
b0x2 + b1x3 + b2x4+ b3x5 + . + bnx(n+2) = x2y

b0x(n+1) + b1x(n+2) + b2x(n+3)+ . + bnx2n = x(2n)y

21
Ejemplo
Se desean comparar las mediciones del ndice de fertilidad de
lotes de terreno realizadas por tres sensores y su relacin con los
rendimientos reales por parcelas de lotes de maz. Los
rendimientos (Y) y los ndices dados por cada uno de los 3
sensores se presentan a continuacin :

Qu sensor refleja la mejor medicin?


22
Descripcin Grfica y cuantitativa de la relacin entre
cada sensor y el rendimiento
Ttulo

45,95

Rendimiento 38,41

30,87

23,33

15,79
0,078 0,092 0,107 0,121 0,135
Lecturas del S3
Rendimiento
PRED_Rendimiento
Lecturas del S3

Y = 338.71*X - 4.87
23
R2 = 0.32
Ttulo

45,95
Rendimiento
38,41

30,87

23,33

15,79
0,22 0,26 0,30 0,34 0,37
Lecturas del S2
Rendimiento
PRED_Rendimiento
Lecturas del S2

Y = 155.37*X 13.25
R2 = 0.57
24
Ttulo

45,95
_Rendimiento

38,41

30,87

23,33

15,79
0,071 0,076 0,081 0,087 0,092

Lecturas del S1
Rendimiento
PRED_Rendimiento
Lecturas del S1

Y = -1004.34*X +112.24
R2 = 0.44 25
MODELO DE REGRESIN NO
LINEAL (CUADRTICO)
PARA S1:
= 118,095 - 1151,92X + 924,834X 2 R2=0,44

PARA S2:
= -42,97 + 357,271X - 340,869X 2 R2=0,576

PARA S3:
= -27,926 + 763,856X 1949,609X 2 R2=0,321

26
OTROS EJEMPLOS
A CONTINUACIN SE PRESENTAN LOS PESOS DE
Y LOS NIVELES DE COLESTEROL DE 10 PACIENTES
OBESOS:
X : 89 98 110 115 99 115 94 110 112 102
Y: 135 138 275 315 190 295 180 254 320
223
X= 1044 Y= 2325 XY= 248195
X2=10404 Y2=584289
Reemplazando tenemos: a=-511,949 b=7,131

= -511,949 + 7,131X R2= 0,891

27
CONCLUSIN:
EL SENSOR QUE D LAS
MEJORES MEDICIONES ES EL
3, POR TENER EL MAYOR
COEFICIENTE DE
DETERMINACIN
28
Los datos de la siguiente tabla representan las
estaturas (X, cm) y los pesos (Y, kg) de una
muestra de 12 hombres adultos. Para cada estatura
fijada previamente se observ el peso de una
persona seleccionada de entre el grupo con dicha
estatura, resultando:
X152 155 152 155 157 152 157 165 162 178 183 178
Y 50 61.5 54.5 57.5 63.5 59 61 72 66 72 84 82
Con estos datos vamos a plantear una ecuacin de
regresin lineal simple que nos permita
pronosticar los pesos conociendo las tallas.

29
Luego,
b = 1223 / 1409.667 = 0.8676
a = 65.25 (0.8676) (162.167) = -75.446
La ecuacin de regresin estimada es:
Coeficiente de correlacin: R= 0.9379
Coeficiente de determinacin: R=0.8796
=-75,446 + 0,8676X

30
El valor de b = 0.8676 indica el incremento del peso en kilogramos,
en promedio, por cada centmetro de aumento en la estatura de los
hombres adultos.

El valor de a, no tiene interpretacin prctica en el ejemplo, se


interpretara como el valor obtenido, en promedio, para el peso Y,
cuando la estatura es 0.

Utilizando la ecuacin de regresin para estimar o predecir valores


de la variable Y: Para una talla de 180 se obtiene un peso de 80.7 kg.

Cunto se espera que pese (en promedio) una persona que mide
1.60 m?
Sustituyendo el valor de inters en la ecuacin:
=-75,446 + 0,8676X
Se obtiene: =-75,446 + 0,8676(160)=63,37 kgs.

31

También podría gustarte