Está en la página 1de 22

TEMA 10.

Anlisis de la varianza y
modelos de regresin

10.1. Anlisis de la varianza

10.2 Regresin lineal simple.

10.3 Correlacin

10.4 Regresin lineal mltiple

2
5
1
10.1. Anlisis de la Varianza

El anlisis de la varianza es el mtodo que nos


permite determinar diferencias significativas
entre el efecto medio que producen los distintos
tratamientos o niveles del factor estudiado

Anlisis de la varianza

Paramtrico No Paramtrico

De un factor

De ms de un
factor

2
5
2
Ejemplos:

Una compaa farmacutica investiga los


efectos de tres compuestos. Se disea un
experimento que consiste en inyectar los
compuestos a 11 ratas de la misma especie y
anotar los tiempos que tardan en reaccionar. Los
animales se clasifican al azar en tres grupos A, B,
C. A los 4 animales del grupo A se les administra
el primer compuesto, a los 4 animales del grupo
B, el segundo compuesto y a los 3 del grupo C, el
tercero.
Si se producen diferencias entre las
reacciones de los tres grupos, stas se debern a
los compuestos, ya que las ratas se presuponen de
caractersticas similares. El tipo de compuesto es
el factor bajo estudio
De un producto dado, se tomaron 14 muestras
similares y se procedi a un almacenaje
utilizando 5 mtodos diferentes. Transcurrido un
cierto periodo de tiempo, se determin la
cantidad de agua que contena cada muestra.
Claramente, las posibles diferencias entre las
cantidades de agua se debern al mtodo de
almacenamiento, que es el factor bajo estudio
2
5
3
Anova Paramtrico de un Factor

Sean X1, X2, ..., Xk v.a.i. con Xi N (i, ), con i


y desconocidos.
Para cada variable Xi se considera una muestra
aleatoria de tamao ni:

X i1, X i 2 ,..., X ini


siendo el tamao total de las k muestras:
k
n ni
i 1
El contraste:
H 0 : 1 2 k

H1 : i j para algn i j

recibe el nombre de Anlisis de la Varianza de


una va (o un factor) de clasificacin (ANOVA)

A las k categoras de clasificacin se les dice


tratamientos

2
5
4
Hiptesis del ANOVA paramtrico

Aleatoriedad de las muestras


Independencia de las variables
Normalidad de las distribuciones
Homogeneidad de las varianzas

2
5
5
MODELO

Sean n i observaciones del tratamiento i

x ij = i eij

X i N i ; , i 1, 2,..., n
Siendo:
i Media del tratamiento i

eij Errores exp erimentales

Se formula el test de hiptesis

H 0 : 1 2 k
H 1 : i j , para algn i j

2
5
6
Clculos para el ANOVA:

Muestra Observaciones Total Medi


a
1 x11, x12 ,, x1n1 T1 x1

2 x21, x22 ,, x2n2 T2 x2

... .............................. ... ...


k xk1, xk 2 ,, xknk Tk xk
T x
Notacin:

Total de las observaciones del tratamiento i,


ni
Ti xij , i 1,2,...,k
j 1
Media de las observaciones del tratamiento i,
1 ni Ti
xi ij x , i 1,2,...,k
ni j 1 ni
k ni
Total de todas las observaciones, T xij
i 1 j 1

Media total de todas las 1 k ni T


x xij
observaciones, n i 1 j 1 n 2
5
7
Descomposicin de la variabilidad

Variabilidad Total de los datos: Desviacin de los datos


respecto de su media


k ni k ni k ni
xij x
2
xij xi 2
xi x 2
i 1 j 1 i 1 j 1 i 1 j 1

Variabilidad Variabilidad Variabilidad


total de los = dentro de los + entre grupos
datos grupos

VT = VNE + VE


Distribuciones de las varianzas bajo la hiptesis
nula de igualdad de medias:

VT Bajo Ho, VNE y VE


2
n 1 son independientes
2

n k VE F

VNE
2
nk k 1VNE k 1,nk
2

VE
2
k 1
2
2
5
8
Tabla ANOVA de una va

Fuentes Suma de Grados Varianzas Estadstico


de Cuadrados de del test
variacin libertad

Entre VE k-1 VE
grupos Se2
k 1
2
Dentro de VNE n-k VNE Se
S R2
grupos
nk S d2
Total 2 VT
VT n-1 St
n 1

Criterio de rechazo
Se2
2 Fk 1,nk
SR
Rechazamos si
2
Se
F ;k 1,nk
2
SR

2
5
9
Ejemplo:
Una compaa farmacutica investiga los efectos de 5
compuestos; el experimento consiste en inyectar los
compuestos a 12 ratas de caractersticas similares y anotar
los tiempos de reaccin. Los animales se clasifican en 5
grupos, administrndole a cada uno de ellos un compuesto
diferente. Se obtuvieron los siguientes resultados:

Familia Tiempo de reaccin


(minutos)
1 8.3, 7.6, 8.4, 8.3
2 7.4, 7.1
3 8.1, 6.4
4 7.9, 8.5, 10.0
5 7.1
Se puede considerar a un nivel =0.05 que hay diferencias
significativas entre los compuestos?

Supondremos que se verifican las hiptesis de


Aleatoriedad de las muestras
Independencia de las variables
Normalidad de las distribuciones
Homogeneidad de las varianzas

necesarias para poder llevar a cabo un anlisis de la varianza.2


6
0
Hiptesis nula: Los tiempos medios de reaccin
pueden considerarse idnticos en todos los grupos

H 0 : 1 2 3 4 5

H1 : 1 j , para algn i j

Clculos:

Compuesto Tiempos ni Ti xi
1 8.3, 7.6, 8.4, 4 32.6 8.15
8.3
2 7.4, 7.1 2 14.5 7.25
3 8.1, 6.4 2 14.5 7.25
4 7.9, 8.5, 10.0 3 27.4 9.13
5 7.1 1 7.1 7.1
Total 12 96.1 8.01


k ni
VNE xij xi 2 4.30
i 1 j 1

k
VE ni xi x 2 7.01
i 1 2
6
1
Tabla ANOVA:

Grados
Fuentes
Suma de de
de Varianzas Estadstico
Cuadrados liberta
variacin
d

Entre
VE = 7.01 k-1=4 SE2 = 1.75
grupos

Dentro de
VNE =4.30 n-k=7 SR2 = 0.61 2.8
grupos

Total VT =11.31 n-1=11

Se2
En nuestro caso:
2 F4,7
SR
A partir de las tablas se obtiene que

F0.05;4,7 = 4.12 > 2.8

por lo que no se rechaza la hiptesis de


igualdad de medias

2
6
2
Comprobacin de las hiptesis
previas al ANOVA

Aleatoriedad de las
muestras Test de rachas

Independencia Test de Independencia


de las variables Anlisis de los
residuos

Test de Bondad de
Normalidad de las ajuste
distribuciones
Teorema Central del
Lmite

Homogeneidad Test de Bartlett


de las varianzas

2
6
3
10.2. Regresin lineal simple

Suponemos que tenemos un modelo de regresin del tipo

y i =a x i b i

Donde:
Los valores xi son conocidos
Los i Errores de regresin
Los valores a y b son constantes a estimar

Hiptesis
i N (0, )
y son independientes.
Los valores de x no son todos iguales

Como consecuencia

E[y i ] =a x i b
Var[y i ] = 2
Cov[y i ,y j ] =0
y su distribucin es normal
2
6
4
Estimacin por mxima verosimilitud

La funcin de verosimilitud en este caso es

1 n 2
2

L x1,, x n (a, b, ) = 2 2 n /2
exp
2

2
i 1
yi axi b


El logaritmo de funcin de verosimilitud ser


n
n n 1
log(L(a, b, )) = log 2 log
2 2

2 i
y axi b 2
2 2 2 i 1
Las derivadas respecto de los parmetros son

log(L) 1 n
a
=
2 yi axi b xi
i 1
log(L) 1 n
b
=
2 yi axi b
i 1
n
log(L) n 1
yi axi b
2
=
2

2 2 2 2 2 i 1

Igualamos a cero y obtenemos los estimadores

2
6
5
Estimacin por mxima verosimilitud

n
yi xi n x y
Cov( x, y )
a = i 1
n 2 Var ( x)
xi 2 n x
i 1

b = y a x
2 1 n 2

=
n i 1

yi axi b

El estimador de a se puede expresar como



n n
( xi x)
a = wi yi yi
i 1 i 1
n 2
i nx
x 2
i 1
Donde
n n
wi 0, wi xi 1.
i 1 i 1
2
6
6
Insesgadez

n n n n n
E a = E wi yi wi E yi wi (axi b) a wi xi b wi a
i 1 i 1 i 1 i 1 i 1


E b = E y a x E y x E a a x b a x b

2 n
2
1
E = i i
E
n i 1
y a x b n2 2
n

Los estimadores de los coeficientes de regresin
se distribuyen normalmente.


2
2

a N a, N a,
n 2 nS 2


x
xi 2 n x

i 1
1 2
b N b,
x
2

n nS 2
x
Adems
n 2

2 Independiente
2 n2 de los estimadores
2
anteriores 6
7
Sea ei el error del modelo ajustado

ei =y i a x i b y i y i
Entonces
n n
ei =0, ei xi =0.
i 1 i 1
As se puede descomponer
n 2 n 2 n 2 n
yi y = yi yi y i y
2 y i yi y i y
i 1 i 1 i 1 i 1
Siendo la ltima sumatoria igual a cero
VT = VNE + VE
Las siguientes funciones se distribuyen de forma
Independiente:


VNE 2
2 n2 VE
F1,n2
VNE

VE 2 n2
2 1

2
6
8
Inferencia



2
2
N a, S a
a N a, N a,
n 2 nS x
2


xi 2 n x

i 1
2
b N b, 2
1 x
N b, Sb
n nS
2
x

n 2 Independiente

2
n2 de los estimadores
2
anteriores
Entonces, por ejemplo

a a
Sa
tn 2
n 2
n2

2
6
9
Tabla ANOVA

La tabla ANOVA se usa para contrastar si el


modelo ajustado es adecuado. Esto lo
planteamos mediante un contraste
H0 : y y
H1 : y ax b
Este contraste es equivalente a
H0 : a 0
H1 : a 0

Fuente Suma G.L. Cuadrados F exp.


variacin cuadra medios
dos
Regresin VE 1 VE VE/S
Error VNE n-2 S=VNE/(n-2)
Total VT n-1

2
7
0
10.3. Correlacin

La correlacin cuantifica la dependencia lineal entre


x e y. 2 2
n n
y i y y i yi
VE i 1 VNE
R2= 1 1 i 1
VT n 2 VT n 2
yi y yi y
i 1 i 1

El contraste que determina la tabla ANOVA se


puede expresar tambin como
H0 : R2 0
H1 : R 2 0
El estadstico de contraste adopta, en funcin de
la correlacin, la expresin

VE (n 2) R 2
F1,n2
VNE
n2 1 R2

2
7
1
10.2. Regresin lineal multiple

Suponemos que tenemos un modelo de regresin del tipo

y i =a 0 +a1 x1i a 2 x2i a n xni i

Donde:
Los valores x ji son conocidos
Los i Errores de regresin
Los valores ai son constantes a estimar

Hiptesis
i N (0, )
y son independientes.
La matriz de valores de x es no singular

La estimacin de los parmetros ai se realiza


siguiendo el mismo procedimiento que en el caso
simple, planteando el sistema de ecuaciones
normales.
La estimacin de la varianza tiene la misma
expresin que en el caso simple, sustituyendo los
errores por la nueva expresin.
2
7
2

También podría gustarte