Está en la página 1de 17

Autor: Abel Barrantes Herrera

Pgina 1 de 17
Tema : Regresin y Correlacin
4
4.0 REGRESION Y CORRELACION
En la actualidad la industria ni las empresas sufren por falta carencia de
informacin, muy por el contrario, cada vez es mayor el volumen de datos que
se recolectan acerca de los procesos, as, se tiene archivos histricos de
consumos de materia prima, materiales y repuestos, horas hombre, energa,
ndices de medicin de la calidad del producto, etc.
Los datos as recolectados pueden guardarse sin tener un fin especfico, si en
su inicio tuvieron alguno, este ya no es actual.
El sentido del anlisis no es indicar si deben o no recolectarse tales datos,
como debera hacerse tal recoleccin. El sentido del anlisis es encontrar en
esta masa de informacin las relaciones existentes entre estas variables.
Si entendemos que existe relacin entre variables, nos interesa saber que
efecto causan en los resultados del proceso los cambios en una en un
conjunto de variables, por ello, nos planteamos las siguientes preguntas:
Cmo medir el grado de relacin entre variables?
Cmo representar de forma aproximada y simple, la relacin entre
variables, usando funciones matemticas?
La Estadstica nos ayuda con los conceptos de Regresin y Correlacin.
La Regresin trata de establecer y evaluar modelos funcionales que, basados
en el comportamiento de los valores observados de las variables, permitan
aproximar el comportamiento general de ellas mediante un modelo funcional de
funciones matemticas simples.
La Correlacin es la medida de dependencia lineal entre variables
La metodologa aplicable es en principio laboriosa por que requiere de un
nmero grande de operaciones simples, que depende de numero de datos en
anlisis, sin embargo, la tecnologa actual de computadoras, permite con
mucha facilidad realizar estos clculos, dejando ms tiempo a la interpretacin
y anlisis de resultados.
Es de vital importancia entender la metodologa propuesta y las restricciones
aplicables al modelo para poder llegar a conclusiones correctas.
La metodologa aplicable en el caso de los modelos de regresin es la de
Mnimos Cuadrados que se describe a continuacin para el caso de un modelo
lineal simple, esto es para una recta de regresin
Autor: Abel Barrantes Herrera
Pgina 2 de 17
Tema : Regresin y Correlacin
4.1 REGRESIN LINEAL SIMPLE: EL METODO DE MINIMOS CUADRADOS
Dados n puntos no colineales en el plano X,Y
) , ( );...; , ( ); , (
2 2 1 1 n n
y x y x y x
.
hallar una recta, tal que la suma de los cuadrados de las distancias segn el
eje Y de estos puntos a la recta sea un mnimo.
20
30
40
50
60
70
80
90
100
10 20 30 40 50 60 70 80 90 100
Sea la recta buscada
x b b y
1 0
+
donde b
0
es el intercepto y b
1
la pendiente
Denominamos
i i
x b b y
1 0
+
a la ordenada de la recta para
i
x x
La distancia del punto
) , (
i i
y x
a la recta, segn el eje Y es
) (
1 0 i i i i
x b b y y y +
Elevando al cuadrado y sumando por i, obtenemos
[ ]
2
1
0 1 0
) ( ) , (

+
n
i
i i
b b y b b G
Buscamos los valores de b
0
y b
1
que minimizan la funcin G, en consecuencia,
aquellos que cumplen con
Autor: Abel Barrantes Herrera
Pgina 3 de 17
Tema : Regresin y Correlacin
0
0

b
G
0
1

b
G
Derivando,
[ ]

n
i
i i
x b b y
b
G
1
1 0
0
) ( 2
[ ]

n
i
i i i
x b b y x
b
G
1
1 0
1
) ( 2
Igualando a 0, simplificando y aplicando las sumatorias se tiene el sistema de 2
ecuaciones con 2 incgnitas:


+
n
i
i
n
i
i
y x b nb
1 1
1 0
...........(I)


+
n
i
i i
n
i
i
n
y x x b x b
1 1
2
1
1
1 0
............(II)
Resolviendo estas 2 ecuaciones tenemos:
1 1 1
1 2
2
1
1
1
n n n
i i i i
n
i i
x y x y
n
b
x x
n

1
]


Propiedades de la recta de mnimos cuadrados
I. De la ecuacin (i) al dividir entre n
y x b b +
1 0
) , ( y x a la recta
II. La propiedad I implica:
x b y b
1 0

III. Por la propiedad II, la ecuacin de la recta de regresin puede
escribirse:
) ( ) (
1
x x b y y
i i

IV. Frmulas equivalentes de b
1
son
Autor: Abel Barrantes Herrera
Pgina 4 de 17
Tema : Regresin y Correlacin

n
i
n
i i
x n x
y x n y x
b
1
2 2
1
1

n
i
n
x x
y y x x
b
i i
1
2
1
1
) (
) )( (
V. Por la propiedad III
) ( ) (
1
x x b y y
i i

0 ) ( ) ( ) (
) ( ) (
) (
1
1
1 1
1
1


+

x x b y y y y
x x b y y y y
x x b y y
i
n
i
n
i
n
i
i i i i
i i
Entonces, si para cada x
i
de cada uno de los n puntos del plano
) , ( );...; , ( ); , (
2 2 1 1 n n
y x y x y x
.usados para calcular la recta de regresin,
nosotros calculamos
i i
x b b y
1 0
+
y luego los valores residuales
i i i
y y
, se cumple que la suma de esos valores residuales es igual a 0
esta propiedad se cumple siempre que el trmino independiente
0

sea
diferente de 0.
VI. Se cumple que
2
1
2
1
2
1
) ( ) ( ) ( y y y y y y
n
i
n
i
n
i
+

Demostracin:
[ ] ) )( ( 2 ) ( ) ( ) ( ) ( ) (
1
2
1
2
1
2
1
2
1
y y y y y y y y y y y y y y
i
n
i
n
i
n
i
n
i i i
n
i
i
+

analizando
) )( ( ) )( (
1
1
1
x x y y b y y y y
n
i i i
n
i


....... por la propiedad
III
2 2
1
1
1
) ( ) )( ( x x b x x y y b
i i
n
i

.......por la 2 frmula de la propiedad IV
como por la propiedad III
2
1
2
1
2
1
1
) ( ) ( ) ( ) ( x x b y y x x b y y
n
i
n
i i i


reemplazando en la primera ecuacin
2
1
2
1
2
1
2
1
) ( 2 ) ( ) ( ) ( y y y y y y y y
i
n n
i
n
i i
n
i
i
+

Autor: Abel Barrantes Herrera
Pgina 5 de 17
Tema : Regresin y Correlacin

2
1
2
1
2
1
) ( ) ( ) ( y y y y y y
n
i
n
i
n
i
+

Modelos Transformables al Modelo Lineal
1. Sea el modelo
b
ax y
Tomando logaritmos:
) ( ) ( ) ( x bLn a Ln y Ln +
Hemos reducido el modelo a
X b b Y
1
0
+
Donde
) ( y Ln Y
,
) (x Ln X
,
) (
0
a Ln b
,
b b
1
2. Sea ahora el modelo
x
ab y
Tomando logaritmos:
) ( ) ( ) ( b xLn a Ln y Ln +
Hemos reducido el modelo a
X b b Y
1
0
+
Donde
) ( y Ln Y
, x X ,
) (
0
a Ln b
,
) (
1
b Ln b
Estos ejemplos nos permiten considerar para efectos de la teora de regresin
como modelos lineales a todos aquellos que por simples transformaciones
continuas son reducibles a lineales.
Ntese que el modelo del ejemplo 1 nos permite considerar como modelos
lineales a cualquier componente entero k x
k


y tambin a
k
x dentro de las
restricciones que el anlisis matemtico exige.
Autor: Abel Barrantes Herrera
Pgina 6 de 17
Tema : Regresin y Correlacin
REGRESIN LINEAL SIMPLE: MODELO ESTADISTICO
Consideremos un proceso simple con una nica variable de entrada X y una
variable de salida Y, tal como se muestra en el grfico

Nos interesa conocer la relacin entre X e Y. Supongamos que esta es una
relacin lineal expresada por:
i i i
x y + +
1 0


donde i

es un error de estimacin
Supongamos que hemos registrado datos de Y para distintos valores de X, es
decir hemos tomado una muestra de n pares de datos
) , ( );...; , ( ); , (
2 2 1 1 n n
y x y x y x

Cmo obtener estimadores de
1 0
,
?
La respuesta est en el mtodo de mnimos cuadrados.
Sobre la base de la informacin muestral calculamos por este mtodo b
0
y b
1
;
estimadores de
1 0
,
respectivamente. Entendemos que b
0
y b
1
son variables
aleatorias al ser obtenidas de la informacin muestral, para poderlas analizar
es necesario que hagamos ciertos supuestos que nos permitan conocer su
comportamiento estadstico.
SUPUESTOS DE LA REGRESIN
1. La recta de regresin
i i i
x y + +
1 0

busca estimar Y conocido X, por


eso a X se le denomina variable independiente, en tanto que Y es la
variable dependiente (depende de X)
2.
i

es una variable aleatoria con valor esperado 0 y varianza


2

constante para todo
i

. A la propiedad que la varianza permanezca


constante se le denomina homocedasticidad
3.
i

y j

son no correlacionadas
0 ) , cov(
j i

para todo
j i
4. i

es una variable aleatoria normal


) , 0 (
2
N
i

Este supuesto implica que, por el supuesto 3 i

, j

sean
independientes
Estos son los cuatro supuestos bsicos de la regresin, de su cumplimiento
depende la bondad del modelo.
PROCESO
X Y
Autor: Abel Barrantes Herrera
Pgina 7 de 17
Tema : Regresin y Correlacin
ANLISIS ESTADSTICO DEL MODELO DE REGRESIN LINEAL SIMPLE
El modelo en anlisis es
i i i
x y + +
1 0
En consecuencia:
i i i i
x E x y E
1 0 1 0
) ( ) ( + + +
,
2 2
) (
y i
y Var
Prueba General del Modelo: Anlisis de Varianza
Por la propiedad VI
2
1
2
1
2
1
) ( ) ( ) ( y y y y y y
n
i
n
i
n
i
+

2
1
) ( y y
n
i
Suma de cuadrados de la variacin total alrededor de la media

2
1
) ( y y
n
i
Suma de cuadrados de la variacin explicada por regresin

2
1
) ( y y
n
i
Suma de cuadrados de la variacin no explicada por regresin,
variacin residual, en consecuencia tenemos que:
Suma de Cuadrados
de la variacin total
=
Suma de Cuadrados explicada
por regresin
+
Suma de Cuadrados no
explicada Residual

Como
) 1 ( ) ( ) , 0 (
2 2
1
2
y y N
n
i i

y
) 2 ( ) (
2 2
1

n y y
n
i


Entonces, el cociente de ambas variables aleatorias divididas entre sus grados
de libertad seguir una distribucin F(1,n-2). Podemos entonces construir el
cuadro de Anlisis de Varianza ANOVA, por sus siglas en ingls:
Fuente de
Variacin
Sumas de
Cuadrado
s
Grados
de
Libertad
Medias
Cuadrticas
Valor de F
Calculado
Explicada por
Regresin
2
1
) ( y y
n
i

1
2
1
( ) /1
n
i
y y

2
1
( ) /1
n
i
y y

2
1
( ) /( 2)
n
i
y y n

Residual no
explicada por
Regresin
2
1
( )
n
i i
y y

2 n
2
1
( ) /( 2)
n
i i
y y n

Total
2
1
) ( y y
n
i

1 n

Autor: Abel Barrantes Herrera
Pgina 8 de 17
Tema : Regresin y Correlacin
Con este cuadro podemos hacer la siguiente verificacin de hiptesis:
H
0
: El modelo no sirve
H
a
: El modelo si sirve
El punto 3.285 es el valor crtico de decisin para = 0.1 as, si el F calculado
es mayor a 3.285 rechazamos la hiptesis H
0
, si no, la aceptamos. .
Coeficiente de Determinacin:
R
2
= Variacin explicada por Regresin / Variacin total
2
1
2
1
2
) ( / ) ( y y y y R
n
i
n
i


El coeficiente de determinacin se expresa en porcentaje y se interpreta como
el porcentaje de variacin explicado por el modelo.
Ntese que 1 0
2
R
Usando el paquete STATISTICA, para un problema de regresin simple
obtenemos el cuadro de anlisis de varianza
Autor: Abel Barrantes Herrera
Pgina 9 de 17
Tema : Regresin y Correlacin
Donde vemos que n = 16 (n - 2 = 14), el F(1,14) calculado es 9.95193 y
tenemos un nivel de p (p-level) de 0.007026.
Este p es la probabilidad de que la variable aleatoria de distribucin F(1,14)
asuma valores mayores al F calculado (
limite

).
Nuestra regla de decisin sera:
Si

es mayor que p rechazamos H


0
, caso contrario la aceptamos
Debemos remarcar que esta prueba F evala al modelo en su conjunto y no
por cada uno de sus elementos.
Distribuciones de b
0
y b
1
Sabemos que

n
i
n
x x
y y x x
b
i i
1
2
1
1
) (
) )( (

n
i
n
x x
y x x
i i
1
2
1
) (
) (
+

n
i
n
x x
y x x
i
1
2
1
) (
) (

n
i
n
x x
y x x
i i
1
2
1
) (
) (
Desarrollando la sumatoria:

+ +

n
i
n n
n
i
n
i
x x
y x x
x x
y x x
x x
y x x
b
1
2
1
2
2 2
1
2
1 1
1
) (
) (
) (
) (
) (
) (

Tomando varianzas

+ +

n
i
n n
n
i
n
i
x x
y Var x x
x x
y Var x x
x x
y Var x x
b Var
1
2 2
2
1
2 2
2
2
2
1
2 2
1
2
1
1
) ) ( (
) ( ) (
) ) ( (
) ( ) (
) ) ( (
) ( ) (
) (
Como



n
i
y
y i
x x
b Var y Var
1
2
2
1
2
) (
) ( ) (

2
y

es desconocido, en consecuencia lo estimamos por


2
y
S
y de los supuestos
de la regresin
) 2 (
1
1 1

n t
S
b
b

; donde

n
i
y
b
x x
S
S
1
2
2
2
) (
1

Autor: Abel Barrantes Herrera
Pgina 10 de 17
Tema : Regresin y Correlacin
Para b
0
tenemos:
0 1
b y b x

) ( ) ( ) (
1
2
0
b Var x y Var b Var +
por ser
1
, b y
independientes

+
2
1
2
2
1
2
2
) ( ) (
1
0
x x n
x
x x
x
n
i
n
i
n
i
y b

como no conocemos y

tenemos
2
1
2
2
) (
0

n
i
n
i
i
y b
x x n
x
S S
y
) 2 (
0
0 0

n t
S
b
b

Con las distribuciones de b


0
y b
1
podemos:
a. Calcular intervalos de confianza
Para 0

y
n
i
n
i
S
x x n
x
n t b
2
1
2
1
2
2 / 1 0 0
) (
) 2 (

Para
1

2
1
2
2 / 1 1 1
) (
) 2 (


t

n
i
y
x x
S
n t b

b. Verificar hiptesis acerca del valor de los parmetros de la recta


poblacional, de especial inters son las verificaciones del trmino
independiente (intercepto) y del coeficiente de X (pendiente)
Test acerca del trmino independiente
0 :
0 0
H
El intercepto es 0
Autor: Abel Barrantes Herrera
Pgina 11 de 17
Tema : Regresin y Correlacin
0 :
0 0
H
El intercepto es diferente de 0
Test acerca del coeficiente de X
0 :
1 0
H
La pendiente es 0, cuyo significado equivale a que el
modelo no sirve puesto el conocimiento de X no influye
en el conocimiento de Y
0 :
1 0
H
El intercepto es diferente de 0
Autor: Abel Barrantes Herrera
Pgina 12 de 17
Tema : Regresin y Correlacin
DISTRIBUCIN CHI CUADRADO
Si
1 2
, , ,
n
X X X L
son variables normales estandarizadas e independientes,
entonces la variable aleatoria
2 2 2
1 2 n
Y X X X + + + L sigue una distribucin
2
con n grados de libertad.
1
Clculo del valor de
2
(8 grados de libertad) para una probabilidad de 90%
usando el paquete STATISTICA
Probability Density Function
y =chi2(x;8)
0,000
0,044
0,087
0,131
0,175
0,00 6,25 12,50 18,75 25,00
Probability Distribution Function
p =ichi2(x;8)
0,0
0,2
0,4
0,6
0,8
1,0
0,00 6,25 12,50 18,75 25,00
Propiedades de una distribucin
2

1
Por grados de libertad entendemos al nmero de elementos que pueden escogerse
libremente, o al nmero de variables que pueden asumir valores arbitrarios libremente.
(Nmero de variables funcionalmente independientes)
Autor: Abel Barrantes Herrera
Pgina 13 de 17
Tema : Regresin y Correlacin
i) Si X tiene una distribucin normal estandarizada, X
2
tiene una
distribucin
2
con 1 grado de libertad.
ii) Si X
1
tiene una distribucin
2
con n
1
grados de libertad, X
2
tiene una
distribucin
2
con n
2
grados de libertad; entonces Y = X
1
+ X
2
tiene
una distribucin
2
con
1 2
n n + grados de libertad.
iii) Si la poblacin es normal estandarizada, y x
i
i = 1,2,...,n son n
observaciones independientes que constituyen una muestra al azar,
entonces
2
1
n
i
i
x

tiene una distribucin


2
con n grados de libertad.
iv) Si la poblacin es normal con media , desviacin estndar y x
i
para i = 1,2,...,n son n observaciones independientes que constituyen
una muestra al azar, entonces
2
1
n
i
x

_

,

tiene una distribucin


2
con n grados de libertad.
v) Una variable Chi cuadrado vara en un rango de 0 a infinito, por ser
una suma de cuadrados.
vi) Una variable Chi cuadrado est definida completamente por su grado
de libertad, as si X es una variable aleatoria de distribucin
2
con n
grados de libertad,
E(X) = n
V(X) = 2n
vii) Las distribuciones Chi cuadrado son positivamente asimtricas, ( con
una giba hacia la izquierda), sin embargo, cuando el nmero de
grados de libertad aumenta entonces la distribucin se asemeja a
una normal. Los siguientes cuadros muestran la distribucin Chi
cuadrado para 31 y 35 grados de libertad, en ellos puede apreciarse
su cercana con la distribucin normal.

Autor: Abel Barrantes Herrera
Pgina 14 de 17
Tema : Regresin y Correlacin
DISTRIBUCIN F
Si X sigue una distribucin
2
con n
1
grados de libertad, Y sigue una
distribucin
2
con n
2
grados de libertad; entonces
1
2
X
n
F
Y
n

sigue una
distribucin F de Fischer con (n
1
,n
2
) grados de libertad. Usualmente la
designamos por F
n1,n2

Los siguientes grficos muestran la densidad y la probabilidad acumulada de
una distribucin F
14,8
.
Probability Density Function
y =F(x;14;8)
0,000
0,375
0,750
1,125
1,500
0 1 2 3 4
Probability Distribution Function
p =iF(x;14;8)
0,0
0,2
0,4
0,6
0,8
1,0
0 1 2 3 4
Propiedades de la distribucin F
i) Siendo F una razn de dos cantidades al cuadrado, F vara entre 0 e
.
ii) Hay una distribucin F para cada par de enteros positivos n
1
,n
2
.
iii) La media y varianza de F estn dadas por:
2
) (
2
2

n
n
F E
para
2
2
n
Autor: Abel Barrantes Herrera
Pgina 15 de 17
Tema : Regresin y Correlacin
) 4 ( ) 2 (
) 2 ( 2
) (
2
2
2 1
2 1
2
2

+

n n n
n n n
F Var
para
4
2
n
iv) Como en el caso de la
2
F es positivamente asimtrica, pero cuando
n
1
,n
2
aumentan, la asimetra se reduce.
v) Si la variable aleatoria X sigue una distribucin F
n1,n2
, entonces Y =
1/X sigue una F
n2,n1
. Esta es la propiedad recproca de las
distribuciones F y tambin puede expresarse por
F
(1-);n1,n2
= 1 /F
;n2,n1
.
Donde y 1 - designan al rea bajo la cola de la distribucin F
Veamos el caso F
8,11
.

Podemos verificar que 2.947989 =1/0.339214
Cumplindose lo dicho en (vi)
Autor: Abel Barrantes Herrera
Pgina 16 de 17
Tema : Regresin y Correlacin
DISTRIBUCIN t-Student
La variable aleatoria con distribucin t-student con n grados de libertad, se
genera al dividir una variable normal estandarizada N(0,1) entre la raz
cuadrada del cociente de una variable aleatoria
2
con n grados de libertad,
dividida entre n.
2
2
n
z
t

La distribucin t-student con n-1 grados de libertad tiene una funcin densidad:
2
2
1
1
2
1
2
) 1 (
1
) (
n
n
t
n
n
n
t f

,
_

,
_

,
_

1
1
]
1

Propiedades:
i) La variable t vara de - a
ii) La distribucin t es simtrica respecto del eje y
iii) E[t] = 0 Var(t) = (n-1)/(n-3)
iv) La distribucin t es similar a la distribucin normal, ambas varan de - a
+, ambas son simtricas respecto del eje Y, y ambas tienen media 0;
sin embargo, la distribucin t tiene una mayor desviacin estndar por
ser su varianza (ver iii) Var(t) 1, acercndose a 1 conforme aumenta n,
en consecuencia para n mayores de 30 podemos aproximarla por la
Distribucin Normal Estandarizada.
Los siguientes cuadros muestran los valores de t con 31 grados de libertad,
para reas de 90 y 95%, en comparacin con la normal.

Autor: Abel Barrantes Herrera
Pgina 17 de 17
Tema : Regresin y Correlacin

También podría gustarte