Está en la página 1de 29

Estads5ca

Tema 2. Modelos de regresin

Mara Dolores Fras Domnguez


Jess Fernndez Fernndez
Carmen Mara Sordo
Departamento de Matem.ca Aplicada y
Ciencias de la Computacin
Este tema se publica bajo Licencia:
Crea.ve Commons BY-NC-SA 3.0

TEMA2:Modelosderegresin
Datosbidimensionales

Grficos,estadsticosbidimensionales

Mtododemnimoscuadrados

Regresinlinealsimple

Regresinlinealmltiple

Regresinnolineal

Idoneidaddelmodelo

Medidasdelacalidaddelajuste

MaraDoloresFras,JessFernndezyCarmenMaraSordo

Datosbidimensionales
Los mtodos vistos hasta ahora solo permiten trabajar con datos
unidimensionales.
Siseanalizanlasvariablesporseparadosepierdeinformacinsobrela
distribucindefrecuenciasconjunta.

Las variables bidimensionales surgen cuando se estudian dos


caractersticasasociadasalaobservacindeunfenmeno
En concreto, resultandetomarunamuestradetamaondeuna
variablealeatoriabidimensional(X,Y)

{(x1,y1),(x2,y2),...,(xn,yn)}

Ejemplo

Pesoyalturadeunamuestradepersonas
Altura
(cm)

Peso
(kg)

160 165 168 170 171 175 175 180 180 182
55

58

58

61

67

62

66

74

MaraDoloresFras,JessFernndezyCarmenMaraSordo

79

79

Datosbidimensionales
La relacin entre dos variables (X, Y) se puede estudiar
mediantetablas.
Distribucindefrecuenciasconjuntaymarginalesdelaaltura
yelpesode200personas.

ALTURA
PESO 155160 160165 165170 170175 175180
5060
2
11
2
0
0
6070
3
43
95
24
1
7080
0
0
5
12
2
TOTAL

54

102

36

TOTAL
15
166
19
200

Tambin se puede expresar la tabla en funcin de las


frecuenciasrelativas,sinmsquedividirentren.
MaraDoloresFras,JessFernndezyCarmenMaraSordo

Diagramadedispersin
La forma ms sencilla de representar grficamente datos
bidimensionales es mediante los diagramas de dispersin,
querepresentalosparesdedatosdelamuestrasobreunos
ejescartesianos.

Ejemplo
Seobservaquecuandola
altura aumenta el peso
aumenta.
Existe una relacin lineal
directaentrelasvariables.

MaraDoloresFras,JessFernndezyCarmenMaraSordo

Diagramadedispersin
La forma ms sencilla de representar grficamente datos
bidimensionales es mediante los diagramas de
dispersin,que representa los pares de datos de la muestra
sobreunosejescartesianos.
Y

Cuando X crece Y crece:


relacinlinealdirecta.

Cuando X crece Y decrece:


relacinlinealinversa.

Casi todos los puntos pertenecen


alprimerytercercuadrante

Casi todos los puntos pertenecen


alsegundoycuartocuadrante.

MaraDoloresFras,JessFernndezyCarmenMaraSordo

Correlacinlineal
Esposibleestimarlarelacinlinealentrelosdatostomados
dedosvariablesmedianteelcoeficientedecorrelacin:
dondeS
(x,y)eslacovarianzamuestral.

n
Toma valores entre 1 (dependencia
directa)y1(dependenciainversa).
Siseacercaa0ladependencialineal
esdbil.

MaraDoloresFras,JessFernndezyCarmenMaraSordo

Ejercicio

Regresin
En la prctica surge con frecuencia la necesidad de tener
que relacionar un conjunto de variables a travs de una
ecuacin(ej,elpesodeunaspersonasconsualtura).
La regresin es una tcnica estadstica que permite
construir modelos que representan la dependencia entre
variables o hacer predicciones deunavariableY en funcin
delasobservacionesdeotras(X1,...,Xp).
Yeslavariablerespuestaodependiente
X1, ..., Xp son las variables predictoras, dependientes o
covariables
eseltrminodeerrorquesesuponeconmediaceroyvarianza
constante.
MaraDoloresFras,JessFernndezyCarmenMaraSordo

Regresin
Las ecuaciones ms comunes que se utilizan para expresar estas
relacionesson:
Lineal
Y

Cuadrtica
Polinmica
Logartmica
Exponencial

El diagrama de dispersin puede


servir de gran ayuda a la hora de
determinar la relacin entre las
variables.

Potencial

Noscentraremosenlosmodelosderegresinlineales(enlosparmetros).
MaraDoloresFras,JessFernndezyCarmenMaraSordo

Regresinlineal
Una vez seleccionado el modelo (lineal en nuestro caso) a
ajustarapartirdelasobservacionesdeunamuestraseest
interesadoenestimarlosparmetrosdedichomodelo(i).

Rectademejorajuste?

Uno de los mtodos ms


comunes es el de
mnimos cuadrados que
consiste en ajustar los
parmetrosdelmodelode
manera que la suma de
los cuadrados de los
erroresseamnima.

MaraDoloresFras,JessFernndezyCarmenMaraSordo

Regresinlinealsimplepormn.c.
Enelcasomssencillo,regresinlinealsimple,laecuacin
nosdaunaestimacindey,siendoelerrorquesecomete,
Enestecasoaybseeligendemaneraque,
E2
Y

seamnimo

yk
k=yk ^y

^y
k

MaraDoloresFras,JessFernndezyCarmenMaraSordo

Ejercicio

Regresinlineal
Esta formulacin se extiende al caso de la regresin lineal
mltiple
enlaqueseobservaunamuestra(yk,x1k,...,xpk)conk=1,...,n
yseestinteresadoenestimarlosparmetrosdelmodelo.
Ej,estudiossobreelefectodediversascondicionesclimticas(temperatura,
humedad,radiacin...)sobrelaresistenciadeunmetalalacorrosin.

El modelo lineal se puede expresar en forma matricial de la


forma:

nx1

nx(p+1)

(p+1)x1

MaraDoloresFras,JessFernndezyCarmenMaraSordo

nx1

Regresinlineal
Aplicandoelmtododemnimoscuadradosparaobtenerlos
parmetrosdelmodelodebemosminimizar:

derivando con respecto a e igualando la expresin resultante a


ceroseobtienenlasecuacionesnormales:

quesereduciranalasecuacionesnormalesobtenidasantesparael
casodelaregresinlinealsimple.
MaraDoloresFras,JessFernndezyCarmenMaraSordo

Ejemplo
Utilicelaregresinlinealmltipleparaajustarlossiguientesdatos:

MaraDoloresFras,JessFernndezyCarmenMaraSordo

Ejemplo

MaraDoloresFras,JessFernndezyCarmenMaraSordo

Ejemplo

MaraDoloresFras,JessFernndezyCarmenMaraSordo

Ejercicio

Modelosnolineales
El mtodo de mnimos cuadrados permite obtener la mejor recta de
ajustealosdatosenelcasodelaregresinlineal.
Sin embargo, no siempre existe una relacin lineal entre la variable
dependiente e independiente y muchos modelos noson lineales en los
parmetros,impidiendoelusodelmtododemnimoscuadrados..
Enalgunoscasosesposibleaplicartransformacionesparaexpresarlos
datos en una forma compatible con la regresin lineal. Este es el caso
delmodeloexponencialydepotencias.
Exponencial

Potencial

X
MaraDoloresFras,JessFernndezyCarmenMaraSordo

Modelosnolineales
Exponencial

El modelo exponencial se linealiza


alaplicarellogaritmonatural:
Y

Linealizacin

donde si representamos el ln(Y)


frente a X obtendremos una recta
con pendiente b y corte con el eje
deordenadasln(a).

ln(Y)

X
MaraDoloresFras,JessFernndezyCarmenMaraSordo

Modelosnolineales
Potencial

El modelo potencial se linealiza al


aplicarellogaritmonatural:

Linealizacin

XX

donde si representamos el ln(Y)


frente a ln(X) obtendremos una
recta con pendiente b y corte con
elejedeordenadasln(a).

ln(Y)

ln(X)
MaraDoloresFras,JessFernndezyCarmenMaraSordo

Modelosnolineales
Ejemplo
Ajuste los datos siguientes con el modelo de potencias y aplique una
transformacinlogartmicaparaestimarlosparmetrosdedichomodelo.
Uselaecuacinresultanteparahacerelpronsticoparax=9
x

2.5

3.5

7.5

10

12.5

15

17.5

20

13

11

8.5

8.2

6.2

5.2

4.8

4.6

4.3

MaraDoloresFras,JessFernndezyCarmenMaraSordo

Modelosnolineales
Ejemplo
Ajuste los datos siguientes con el modelo de potencias y aplique una
transformacinlogartmicaparaestimarlosparmetrosdedichomodelo.
Uselaecuacinresultanteparahacerelpronsticoparax=9
x

2.5

3.5

7.5

10

12.5

15

17.5

20

ln(x) ln(y)

13

11

8.5

8.2

6.2

5.2

4.8

4.6

4.3

0.92

2.56

1.25

2.40

1.61

2.14

1.79

2.10

2.01

1.95

2.30

1.82

2.53

1.65

2.71

1.57

2.86

1.53

3.00

1.46

Parax=9:
MaraDoloresFras,JessFernndezyCarmenMaraSordo

Modelosnolineales
Rtip

#Definicindevariables
v1<c(2.5,3.5,5,6,7.5,10,12.5,15,17.5,20)
v2<c(13,11,8.5,8.2,7,6.2,5.2,4.8,4.6,4.3)
x<log(v1)
y<log(v2)
#Calculoregresinlineal
fit<lm(y~x)
a<fit$coeff[1]
b<fit$coeff[2]
#Funcionpotencialyrecta
fx<function(x,a,b)exp(a)*x^b
fxrecta<function(x,a,b)a+b*x
#Plots
pdf("figura.pdf",width=7,height=3)
par(mfrow=c(1,2),mar=c(4,4,1,1))
plot(v1,v2,xlab="v1",ylab="v2",type="n")
curve(fx(x,a,b),col="blue",lwd=4,add=TRUE)
points(v1,v2,pch=19,col="red")
plot(x,y,xlab="log(v1)",ylab="log(v2)",type="n")
curve(fxrecta(x,a,b),col="blue",lwd=4,add=TRUE)
points(x,y,pch=19,col="red")
dev.off()
MaraDoloresFras,JessFernndezyCarmenMaraSordo

Medidasdelaidoneidaddelmodelo
Todalainformacinsobrelafaltadeajustedelmodeloest
contenidaenlosresiduos.
Un diagrama de los residuos frente a los valores predichos
nossirveparadetectarposiblesdesviacionesdelashiptesis
departida:valormedioceroyvarianzaconstante.
Errorestpicoscuandoelmodelonoeseladecuado:
e
e

^
y
Caso ideal: media cero y
varianzaconstante

^
y

Varianzanoconstante

^
y

Dependenciasistemtica

Tambin se recomienda pintar los residuos frente a la variable


independienteparadetectarposiblestendencias.
MaraDoloresFras,JessFernndezyCarmenMaraSordo

Medidasdelacalidaddeajuste
Es posible cuantificar la bondad del ajuste realizado en la
regresin lineal simple al aplicar el mtodo de mnimos
cuadradosmediantelassiguientesmagnitudes:
Errorestandardelaestimacin,Se:
Cuantificaladispersindelosdatosalrededordelalneaderegresin.
Sedivideentren2yaqueseusarondosdatosestimados(0y1)paracalcularE2.

Coeficientedecorrelacin,r:
Cuantificalarelacinlinealentredosvariables.

MaraDoloresFras,JessFernndezyCarmenMaraSordo

Medidasdelacalidaddeajuste
Es posible cuantificar la bondad del ajuste realizado en la
regresin lineal simple al aplicar el mtodo de mnimos
cuadradosmediantelassiguientesmagnitudes:
Coeficientededeterminacin,r2:
Medidadelabondaddelajustelineal.Indicalafraccindevariacinexplicadaporla
rectaderegresinrespectoalavariacintotal.
Y

yk
_ Variacin
yky total

_
y

^y
k

yk ^y Variacinno
k
explicada

_
^y y Variacin
k
explicada

Tomavaloresentre0y1.
Cuantomsprximoa1mejorserelajustelinealy
cuantomsproximoa0peor.
Coincideconelcuadradodelcoeficientedecorrelacin.
X
MaraDoloresFras,JessFernndezyCarmenMaraSordo

Ejercicio

También podría gustarte