Está en la página 1de 69

Mgt. Guillermo Paucar C.

CONTENIDO TEMTICO
PRIMERA UNIDAD
Introduccin al Muestreo
Distribuciones Muestrales
Inferencia Estadstica: Teoremas del Lmite
SEGUNDA UNIDAD
Inferencia Estadstica: Estimacin Puntual de un parmetro de una
poblacin.
Inferencia Estadstica: Intervalos de confianza de los parmetros de
una poblacin. ( 1era Evaluacin Domingo 25 de Junio)
TERCERA UNIDAD
Inferencia Estadstica: Contrastes de hiptesis paramtricos.
Contrastes no paramtricos: Bondad de ajuste, Independencia y
Homogeneidad.
CUARTA UNIDAD
Anlisis de varianza y Anlisis de Regresin. (2da Evaluacin
Domingo 09 de Julio) Mgt. Guillermo Paucar Carlos
Mgt. Guillermo Paucar C.
PRUEBAS PARAMTRICAS

ANLISIS
DE
VARIANZA
Y
COVARIANZA

08/07/2017 Guillermo Paucar C.


ANLISIS DE VARIANZA
En general, al realizar una investigacin nos preguntamos si
nuestras muestras que consideramos independientes, pertenecen a
una misma poblacin.
La prueba paramtrica ms usada para verificar si dos o ms
medias muestrales proceden de la misma poblacin es el anlisis
de varianza ( ANOVA ). El ANOVA al ser un mtodo general, puede
ser extendido a ms de dos muestras y se puede demostrar que
coincide con la t de Student si slo se tienen dos muestras.

SUPUESTOS :
Las muestras son aleatorias
Las muestras son independientes
La distribucin de la poblacin de donde fueron
extradas es Normal
Las varianzas son iguales en cada grupo o nivel de
factores considerados
08/07/2017 Guillermo Paucar C.
ANLISIS DE VARIANZA

08/07/2017 Guillermo Paucar C.


MODELOS LINEALES

REGRESIN
LINEAL SIMPLE

08/07/2017 Mgt. Guillermo Paucar C.


MODELOS LINEALES
INTRODUCCIN
Analizar y calcular la regresin y la correlacin
entre dos variables y varias variables.
Estimar el modelo lineal de regresin por el
mtodo de mxima verosimilitud y mnimos
cuadrados e interpretar su ajuste.
Analizar los supuestos del modelo lineal.
Realizar inferencia sobre los parmetros
estimados del modelo lineal de regresin.
Analizar la multicolinealidad (varias variables
independientes) y heterocedasticidad.
Realizar predicciones con el modelo estimado.

08/07/2017 Mgt. Guillermo Paucar C.


ANLISIS DE REGRESIN
FASES EN EL ANLISIS DE REGRESIN

julio de 2017 9 Mgt.Guillermo Paucar C.


ANLISIS DE REGRESIN

El anlisis de las relaciones existentes entre dos o ms variables


requiere en la mayora de las ocasiones de tratamiento estadstico
debido a que:
La estructura verdadera de la relacin no es conocida
No existe dependencia funcional exacta entre las variables
consideradas

REGRESIN : La regresin mide el grado de asociacin


que se existe entre dos o ms variables. Se mide con la
covarianza.

CORRELACIN : La correlacin mide la fuerza con que


estn asociadas dos o ms variables. Se mide con el
coeficiente de correlacin.

julio de 2017 10 Mgt.Guillermo Paucar C.


MODELOS LINEALES

Existe una relacin funcional entre ellas, en el sentido de que el


conocimiento de las variables regresoras determina
completamente el valor que toma la variable respuesta, esto es,

Y m( X 1 , X 2 ,..., X n )

Existe una relacin estocstica entre la variable respuesta y las


variables regresoras, en el sentido de que el conocimiento de
stas permiten predecir con mayor o menor exactitud el valor de
la variable respuesta. Por lo tanto siguen un modelo de la forma,

Y m ( X 1 , X 2 ,..., X n )

08/07/2017 11 Profesor: Guillermo Paucar C


MODELOS LINEALES

La relacin funcional de la variable respuesta con las variables


regresoras, dada por la funcin de regresin que se define como
sigue,

m ( x1 , x 2 ,..., x n ) E (Y / X i x1 , x 2 ,..., x k )
Esto permite tener una idea general del comportamiento de la
variable respuesta en funcin de las regresoras.

Se puede estimar y predecir el valor de la variable respuesta de


un individuo del que se conocen los valores de las variables
regresoras. Esto es, de un individuo t se sabe
que X 1 x 1 ,... X k x k ,entonces se puede predecir el valor
de Y, y calcular un intervalo de prediccin del mismo.
Y m ( X 1 , X 2 ,..., X n )
08/07/2017 12 Profesor: Guillermo Paucar C
MODELOS LINEALES
CLASIFICACIN :
Segn la metodologa utilizada para su estudio:
MODELOS DE REGRESIN PARAMTRICOS. Se supone que la funcin
de regresin, m, que relaciona a la variable respuesta con las variables
regresoras pertenecen a una determinada familia paramtrica:
m ( X ) m ( , X )
Donde X ( x 1 , x 2 ,..., x k ) y ( 1 , 2 ,..., p ) p p
Podemos suponer la familia paramtrica lineal,
m( X ) 0 1x1 2 x2 ....k xk
MODELOS DE REGRESIN NO PARAMTRICOS. Es un enfoque
alternativo, con este mtodo no se hace ninguna suposicin acerca de la
forma funcional de la regresin y se estima la funcin de regresin punto
a punto. Esto es, se estima el valor de m ( x1,i , x 2 ,i ,..., x i , k ) en un enrejado
(grid) de valores ( x 1 , i , x 2 , i ,..., x i , k ) i 1 de las variables regresoras.
N

08/07/2017 13 Profesor: Guillermo Paucar C


MODELOS LINEALES

Segn la forma de recogida muestral:


MODELOS DE REGRESIN DE DISEO FIJO. Las variables
regresoras son valores predeterminados.

MODELOS DE REGRESIN CON DISEO ALEATORIO. Las


variables regresoras son variables aleatorias.

Se utiliza este modelo cuando se estudia la relacin entre la


variable respuesta y las variables regresoras a partir de una
muestra obtenida de la observacin de las variables en
unidades de experimentacin elegidas al azar.

08/07/2017 14 Profesor: Guillermo Paucar C


MODELOS LINEALES
EJEMPLO :
La resistencia del cemento depende del tiempo de secado del
cemento. En un experimento se obtuvo la resistencia de bloques
de cemento con diferente tiempo de secado los resultados fueron
los de la tabla adjunta. Analizar la relacin entre dos variables.

Tiempo (das) Resistencia


(kg/cm2)
1 13.0, 13.3, 11.8
2 21.9, 24.5, 24.7
3 29.8, 28.0, 24.1, 24.2, 26.2
7 32.4, 30.4, 34.5, 33.1, 35.7
20 35.3, 32.2, 34.5, 35.5, 37.4
28 41.8, 42.6, 40.3, 35.7, 37.3

08/07/2017 15 Profesor: Guillermo Paucar C


MODELOS LINEALES
EJEMPLO :
El siguiente conjunto de datos era tomado sobre grupos de
trabajadoras de Inglaterra y Gals en el perodo de 1970-1972. Cada
grupo est formado por trabajadores de la misma profesin
(mdicos, decoradores, trabajadores textiles, .., etc), en cada uno
de los veinticinco grupos muestreados se han observado dos
variables: el ndice estandarizado de consumo de cigarrillos
(variable regresora, x) y el ndice de muertes por cncer de pulmn
(variable dependiente, y). Se desea estudiar la relacin entre estas
dos variables.

x y x y x y x y x y x y
77 84 102 88 13 146 116 155 112 96 91 85
137 116 91 104 115 128 102 101 113 144 100 120
117 123 104 129 105 115 111 118 110 139 76 60
94 128 107 86 87 79 93 113 125 113 66 51
88
08/07/2017
104 16 Profesor: Guillermo Paucar C
ANLISIS DE REGRESIN
MODELO DE REGRESIN LINEAL
SIMPLE
FORMULACIN MATEMTICA DEL
MODELO

El modelo de regresin ms sencillo es el modelo de regresin lineal


simple que estudia la relacin lineal entre la variable respuesta ( Y)
y la variable regresora (X), a partir de una muestra , que
sigue el siguiente modelo:

Yi 0 1 x i i
Por tanto, es un modelo de regresin parmtrico de diseo fijo. En
forma matricial
08/07/2017 17 Profesor: Guillermo Paucar C
ANLISIS DE REGRESIN

SUPUESTOS DE LA REGRESIN
LINEAL
Se supone que se verifican las siguientes hiptesis:
1. La funcin de regresin es lineal,

m ( xi ) E (Y / xi ) 0 1 xi , i 1, 2,..., n
E ( i ) 0, i 1, 2,..., n
2. La varianza es constante (homocedasticidad),

Var (Y / xi ) 2 , i 1, 2,..., n
Var ( i ) 2 , i 1, 2,..., n
08/07/2017 18 Profesor: Guillermo Paucar C
ANLISIS DE REGRESIN

3. La distribucin es normal,

Y / xi N ( 0 1 xi , 2 ), i 1, 2,..., n
i N ( 0, 2 ), i 1, 2,..., n

4. Las observaciones Y, son independientes. Bajo las


hiptesis de normalidad, esto equivale a que,

Cov (Yi , Y j ) 0, i j.
Cov ( i , j ) 0, i j
08/07/2017 19 Profesor: Guillermo Paucar C
ANLISIS DE REGRESIN

ESTIMACIN DE LOS
PARMETROS DEL MODELO
En el modelo de regresin lineal simple hay tres parmetros que se
deben estimar:

0 ,1 y 2

El clculo de estimadores para estos parmetros puede hacerse por


diferentes mtodos, siendo los ms utilizados el mtodo de mxima
verosimilitud y el mtodo de mnimos cuadrados.

08/07/2017 20 Profesor: Guillermo Paucar C


ANLISIS DE REGRESIN

y x
A la recta que relaciona X e Y se le llama recta de regresin y nos
describe cmo vara la media de una variable (dependiente) en
funcin de la otra (independiente)
DIAGRAMA DE DISPERSIN

julio de 2017 21 Mgt.Guillermo Paucar C.


ANLISIS DE REGRESIN

julio de 2017 22 Mgt.Guillermo Paucar C.


ANLISIS DE REGRESIN

ESTIMACIN DE PARAMETROS
MTODO MNIMOS CUADRADOS

julio de 2017 23 Mgt.Guillermo Paucar C.


ANLISIS DE REGRESIN
El objetivo de esta etapa es hallar estimadores y de los
parmetros desconocidos y , y obtener la ecuacin de
prediccin en base a los datos.

y x
donde:
y es el valor de y pronosticado por el modelo para un valor de x.
El modelo de la regresin lineal simple en trminos de la muestra
aleatoria ( x 1 , y 1 ),..., ( x n , y n ) , es entonces:

y i x i i , i 1 , 2 ,..., n

julio de 2017 24 Mgt.Guillermo Paucar C.


ANLISIS DE REGRESIN
La recta de regresin de mnimos cuadrados de Y en X
es aquella que hace mnima la suma de los cuadrados de
los errores (SCE) alrededor de la lnea de regresin. Es
decir:
n n n
SCE
i 1
i2
i 1
( y i y i ) 2
i 1
( y i x i ) 2

Derivando esta funcin SCE respecto a y ,


se obtiene el sistema de ecuaciones:

SCE SCE
0, 0

julio de 2017 25 Mgt.Guillermo Paucar C.


ANLISIS DE REGRESIN

n n



n
i 1
x i
i 1
y i
n n n
a
i 1
x i x i x

i 1
2

i 1
i y i

Resolviendo, este sistema lineal se obtiene:

xiy i n x y
,
2 2
x i n x
y x
julio de 2017 26 Mgt.Guillermo Paucar C.
ANLISIS DE REGRESIN
OBSERVACIN:

xiy i n x y

COV ( X ,Y )

S XY


2 2 2
x i
2
n x S X S X

S
y x y XY
2
x
S X

S XX S 2

x i2
nx
2
S YY S 2

y i2
ny
2
X Y
n n

SCE i i
2
2 ( y y )
SR , var ianza residual
n2 n2
julio de 2017 27 Mgt.Guillermo Paucar C.
ANLISIS DE REGRESIN
INTERPRETACIN DE LOS PARMETROS
ESTIMADOS

y x
: Es la ordenada en el origen

: Es la variacin promedio en Y
cuando X cambiauna unidad
julio de 2017 28 Mgt.Guillermo Paucar C.
ANLISIS DE REGRESIN
CORRELACIN Y COEFICIENTE DE
DETERMINACIN
COEFICIENTE DE CORRELACIN

Para una muestra bivariante , la


correlacin entre las variables es

S S
r r xy XY
XY
S X S Y S 2
X S Y
2

julio de 2017 29 Mgt.Guillermo Paucar C.


ANLISIS DE REGRESIN
PROPIEDADES

julio de 2017 30 Mgt.Guillermo Paucar C.


ANLISIS DE REGRESIN
COEFICIENTE DE DETERMINACIN

Si el modelo estimado es: y x


El error cometido: y i y i
julio de 2017 31 Mgt.Guillermo Paucar C.
ANLISIS DE REGRESIN
Se observa que en este caso el error es ms pequeo que el existente en
ausencia de informacin. Si tomamos el valor:

y i y
Como indicativo del error cometido cuando carecemos de la informacin
proporcionada por el modelo y lo definimos como desviacin total
respecto a la media para un determinado sujeto, entonces el valor:

y i y
Har referencia a la parte que de la desviacin total explica el modelo de
regresin. Se denomina desviacin explicada por el modelo de regresin.
Queda entonces, un resto:

y i y i

julio de 2017 32 Mgt.Guillermo Paucar C.


ANLISIS DE REGRESIN
Que no logra explicar el modelo desviacin no explicada- De esta forma,
segn lo expuesto, podemos establecer la siguiente igualdad:

( y i y ) ( y i y ) ( y i y i )
DESVIACIN DESVIACIN DESVIACIN NO
TOTAL EXPLICADA EXPLICADA

Si elevamos al cuadrado ambos miembros de la igualdad

2 2 2
( yi y) ( yi y) ( yi yi ) 2( yi y)(yi yi )
Si se cumple esta igualdad para cada uno de los sujetos, se cumplir
igualmente para la suma de todos ellos. As pues:

julio de 2017 33 Mgt.Guillermo Paucar C.


ANLISIS DE REGRESIN

( y i y ) ( y i y ) ( y i y i ) 2 ( y i y )( y i y i )

2 2
2

Si se cumple esta igualdad para cada uno de los sujetos, se cumplir


igualmente para la suma de todos ellos. As:

n n n n

i
(
i1
y y)2
i
( y
y)2

i1
i i 2 (yi y)(yi yi )
( y y
)2

i1 i1

n
Donde: 2 ( yi y)(yi yi ) 0
i 1

Ya que los errores aleatorios no correlacionan con ninguna otra puntuacin


(observar que la sumatoria anterior es el numerador de la covarianza).

julio de 2017 34 Mgt.Guillermo Paucar C.


ANLISIS DE REGRESIN
A partir de los datos calcularemos la varianza explicada y no explicada,
permitindonos su cociente tomar la decisin de si el modelo lineal es un
buen indicador del comportamiento de los datos observados. Es decir

BONDAD DE AJUSTE - COEFICIENTE DE


DETERMNACIN

Tomaremos como ndice de la bondad de ajuste la proporcin de variacin


explicada por el mismo; esto es, el cociente entre la suma de cuadrados
explicada por el modelo y la suma de cuadrados total.

2
( y i y ) 2

R i 1
n


i 1
( y i y ) 2

julio de 2017 35 Mgt.Guillermo Paucar C.


ANLISIS DE REGRESIN
OBSERVACIN:

n n n
( xi)2

2
( y i y ) 2 2
(xi x)2 2 ( x i2 i1
n
)
R i1
n
n
i1
i1
n

(yi y) 2
(yi y) 2
n
( yi)2
i1 i1

i1
y i
2
i1
n
n

2
( y i y ) 2
2 nS 2
2 S 2
R i1
n
2
X
2
X
nS S
i1
( yi y)2 Y Y

2
0 R 1
julio de 2017 36 Mgt.Guillermo Paucar C.
MODELOS LINEALES
PROPIEDADES DE LOS ESTIMADORES
1. De la primera ecuacin cannica se deduce que la recta de
regresin pasa por el punto (x, y) que es el centro geomtrico de
la nube de datos.

2. El estimador 1 , es la pendiente de la recta regresin, se


denomina coeficiente de regresin y tiene una sencilla
interpretacin, indica el crecimiento (o decrecimiento) promedio
de la variable respuesta Y asociado a un incremento unitario en
la variable regresora X.

3. Utilizando las hiptesis de normalidad e independencia se


obtiene que la distribucin del estimador 1 , es una normal de
media 1 , y varianza
2
2

ns X2 .Esto es, 1 N ( 1 , 2 )
ns X
08/07/2017 37 Profesor: Guillermo Paucar C
MODELOS LINEALES
4. Por tanto la Var ( 1 )

Disminuye al aumentar n,

Disminuye al aumentar s X2

Disminuye al disminuir
2

5. El estimador 0 indica el valor de la ordenada en la recta de


regresin estimada para x = 0 tiene menor importancia y, en
muchos casos, no tiene una interpretacin prctica. La
distribucin de 0 es normal de media 0 y varianza
2
2
2
2
x
2
(1 2 )
n ns X n sX
Esto es: 2
2
x
0 N ( 0 , (1 2
))
n sX
08/07/2017 38 Profesor: Guillermo Paucar C
MODELOS LINEALES
CONTRASTE SOBRE SOBRE LOS PARMETROS
El contraste

Aceptar Ho implica que no existe la relacin lineal entre las variables X


e Y.
Utilizando la distribucin, si Ho es cierto, se sigue que

Utilizando t, como estadstico del contraste C1 que es bilateral, se


obtiene la siguiente regin de aceptacin a un nivel de significacin alfa

Siendo una variable aleatoria con distribucin tn2 . Este contraste


se denomina contraste (individual) de la t.

08/07/2017 39 Profesor: Guillermo Paucar C


MODELOS LINEALES
De la misma forma se puede hacer el contraste

Aunque este contraste tiene menor inters por su escaso significado.


En este caso, a partir de la distribucin, si Ho es cierto, se verifica que

En este caso la regin de aceptacin a un nivel de confianza alfa es

08/07/2017 40 Profesor: Guillermo Paucar C


MODELOS LINEALES
TABLA ANOVA CONTRASTE DE REGRESIN

En esta seccin se descompone la variabilidad de la variable respuesta


en variabilidad explicada por el modelo ms variabilidad no explicada o
residual, esto permitir contrastar si el modelo es significativo o no.

Bajo la hiptesis de que existe una relacin lineal entre la variable


respuesta y la regresora, se quiere realizar el siguiente contraste de
hiptesis,

08/07/2017 41 Profesor: Guillermo Paucar C


MODELOS LINEALES
Por tanto, si se acepta Ho, la variable regresora no influye y no hay
relacin lineal entre ambas variables. En caso contrario, si existe una
dependencia lineal de la variable respuesta respecto a la regresora.

Para todos los datos muestrales se hace la siguiente descomposicin

Elevando al cuadrado y sumando se obtiene,

08/07/2017 42 Profesor: Guillermo Paucar C


MODELOS LINEALES
n
Descomponer la variabilidad de la variable respuesta ( ( y i y ) 2 ). en
i 1
n
( ( y i y ) 2 )
la variabilidad explicada por la recta de regresin i 1
ms la
n
variabilidad residual o no explicada por el modelo ajustado
( ( y i y i ) 2 ).
i 1

08/07/2017 43 Profesor: Guillermo Paucar C


MODELOS LINEALES

tabla de ANOVA

FUENTE DE SUMA DE GRADOS DE VARIANZAS


VARIACIN CUADRADOS LIBERTAD

POR LA n
scE
RECTA scE
i 1
( y i y ) 2 1 s 2
1

RESIDUAL n
scR
scR ( y i y i ) 2 n2 s R2
i 1 n2
GLOBAL n
scG
scG
i 1
( yi y)2 n 1 s Y2
n 1

08/07/2017 44 Profesor: Guillermo Paucar C


MODELOS LINEALES
Si Ho es cierta (la variable X no influye), la recta de regresin es
aproximadamente horizontal y se verifica que aproximadamente y i y i
, y por lo tanto scE 0 . Pero scE es una medida con dimensiones y no
puede utilizarse como medida de discrepancia, para resolver este
inconveniente se divide por la varianza residual y como estadstico del
contraste de regresin se utiliza el siguiente
S 2
F R 2
S R
Por la hiptesis de normalidad y bajo Ho se deduce que el estadstico,
sigue una distribucin F (contraste de la F) con 1 y n-2 grados de
libertad.
S 2
F R 2 F 1 , n 2 bajo H
S R
0

Si el p-value = p , es grande (mayor que ) pero este modelo


proporciona exactamente el mismo resultado que se obtiene por el
contraste individual de la t relativo al coeficiente de regresin 1
(Contraste de la t)
08/07/2017 45 Profesor: Guillermo Paucar C
MODELOS LINEALES
TABLA ANOVA CONTRASTE DE LINEALIDAD

08/07/2017 46 Profesor: Guillermo Paucar C


MODELOS LINEALES
Un razonamiento anlogo al realizado anteriormente permite
descomponer la variabilidad no explicada como sigue,

Ahora la descomposicin de la variabilidad total es la siguiente,

08/07/2017 47 Profesor: Guillermo Paucar C


MODELOS LINEALES
TABLA ANOVA DEL MODELO DE REGRESIN

FUENTE DE SUMA DE CUADRADOS GRADOS VARIANZAS


VARIACIN DE
LIBERTAD

Recta k
scE
scE i 1
n i ( y i y i ) 2 1 S e2
1

scR(1) k
scR (1 )
scR (1) ni ( y i . y i ) 2 k 2 S R2 ,1
i 1
k 2

scR(2) k ni
scR ( 2 )
scR ( 2 )
i 1 j 1
( y ij y i . ) 2 nk S R2 , 2
nk

scR k ni
n2 scR
scR ( y ij y i ) 2 S R2
i 1 j 1
n2

Global n
scG
Global i 1
( yi y)2 k 1 S Y2
n 1
08/07/2017 48 Profesor: Guillermo Paucar C
MODELOS LINEALES

08/07/2017 49 Profesor: Guillermo Paucar C


MODELOS LINEALES
PREDICCIN EN LA REGRESIN LINEAL SIMPLE
Hay dos objetivos bsicos en el ajuste de un modelo de regresin:

Conocer la relacin existente entre la variable respuesta y las variables


regresoras. En el caso de la regresin lineal simple se estima la mejor
recta de regresin que relaciona la variable Y con la variable X y se
cuantifica la importancia de dicha relacin por medio del coeficiente de
correlacin, r.

Utilizar el modelo de regresin ajustado para predecir el valor de la


variable respuesta Y cuando la variable regresora toma un valor
determinado, X =xi.

Es decir:

08/07/2017 50 Profesor: Guillermo Paucar C


MODELOS LINEALES
PREDICCIN DE UNA OBSERVACIN

Se quiere predecir el valor de la variable aleatoria Y / X x t teniendo en


cuenta que se ha ajustado una recta de regresin.

El predictor que se utiliza y t se obtiene como aquel que minimze el


Error Cuadrtico Medio de Prediccin. Esto es, y t se obtiene como el
valor que minimiza la siguiente funcin:

Al resolver este problema de minimizacin se obtiene como predictor el


resultado de sustituir el valor de x t en la recta de regresin calculada,

08/07/2017 51 Profesor: Guillermo Paucar C


MODELOS LINEALES
EJEMPLO :
Se desea estudiar la posible relacin entre los gastos (en
publicidad, material informtico), en mltiplos de mil dlares, de
una Empresa, y los ingresos globales (por ventas), en mltiples
de diez miles de dlares. Para ello se recoge una muestra de
datos anuales de gastos e ingresos de 65 empresas, los datos
muestrales son los de la tabla adjunta. Analizar la posible
existencia de una relacin lineal entre la variable respuesta gasto
y la variable regresora ingreso global.

08/07/2017 52 Profesor: Guillermo Paucar C


MODELOS LINEALES
CHEQUEO DEL MODELO DE REGRESIN LINEAL

Falta de Linealidad, porque la relacin entre las dos variables no es


lineal o porque variables explicativas relevantes no han sido incluidas en
el modelo.

Falta de Normalidad, los residuos del modelo no se ajustan a una


distribucin normal.

Heterocedasticidad, la varianza de los residuos no es constante.

Dependencia (autocorrelacin), existe dependencia entre las


observaciones.

Existencia de valores atpicos e influyentes, existen datos atpicos


que se separan de la nube de datos muestrales e influyen en la
estimacin del modelo.

08/07/2017 53 Profesor: Guillermo Paucar C


MODELOS LINEALES
Existen puntos atpicos que
probablemente influyan en la
Claros indicios de heterocedasticidad estimacin de la recta ajustada

Existe una variable regresora binaria que se debe de incluir en el


modelo de regresin . Hay indicios de existencia de clasificacion

08/07/2017 54 Profesor: Guillermo Paucar C


MODELOS LINEALES
HIPTESIS DE LINEALIDAD -
TRANSFORMACIONES
La hiptesis bsica del modelo de regresin lineal simple es

pero en muchos casos en el grfico de la variable respuesta frente


a la variable regresora puede verse que la relacin no es de este
tipo. A pesar de ello, el modelo de regresin lineal contina siendo
vlido en muchas situaciones porque la relacin puede
convertirse en lineal por medio de una transformacin simple en la
variable respuesta Y (trabajando con lg Y , 1/Y, Y 2... ), o en la
variable regresora, X, o en ambas. Algunos de los ejemplos de
transformaciones ms interesantes son los siguientes:

08/07/2017 55 Profesor: Guillermo Paucar C


MODELOS LINEALES

08/07/2017 56 Profesor: Guillermo Paucar C


MODELOS LINEALES
GRFICO DE RESIDUOS FRENTE A
PREDICCIONES
Aparte de los grficos ya comentados el grfico de los residuos
frente a las predicciones es el que proporciona una mayor
informacin acerca del cumplimiento de las hiptesis del modelo.
Esto se observa en las siguientes figuras:

No se detecta ningn problema. El ajuste lineal no es adecuado


08/07/2017 57 Profesor: Guillermo Paucar C
MODELOS LINEALES

Ajuste lineal mal Existe


calculado. heterocedasticidad.
08/07/2017 58 Profesor: Guillermo Paucar C
MODELOS LINEALES

Ajuste no lineal y heterocedasticidad Existencia de datos atpicos

08/07/2017 59 Profesor: Guillermo Paucar C


MODELOS LINEALES
OBSERVACIONES ATIPICOS E INFLUYENTES
En el ajuste de una recta de regresin a una muestra bidimensional i = 1 , al
n

observar el grfico de y frente a x, en algunas ocasiones, existen observaciones


(valores extremos) que se separan claramente del resto de la nube de
observaciones. Es importante conocer la influencia que estos puntos tienen en el
clculo de la estimacin de la recta.

Nube con tres observaciones extremas


(outliers).
08/07/2017 60 Profesor: Guillermo Paucar C
MODELOS LINEALES
El punto A, no es un punto heterogneo respecto a las x ; pero s
respecto a las y. Esto hace que sea un punto influyente en la estimacin
de la recta, ya que segn se utilice o no el punto A en la estimacin de
la recta sta cambia de forma sustancial. Se dice que el punto A no es
influyente. El punto A es atpico.

Influencia del punto A


08/07/2017 61 Profesor: Guillermo Paucar C
MODELOS LINEALES

El punto B, no es un punto influyente en el clculo de la


recta de regresin, por tanto, el punto B no es influyente, y no es
atpico.

Influencia del punto B


08/07/2017 62 Profesor: Guillermo Paucar C
MODELOS LINEALES

El punto C, es un punto influyente, porque es un punto


heterogneo respecto a las x y a las y. Adems se observa que
su influencia es muy grande, si se utiliza o no el punto C en el
clculo de la recta de regresin el resultado cambia
totalmente.

Influencia del punto C.

08/07/2017 63 Profesor: Guillermo Paucar C


MODELOS LINEALES
LA HIPTESIS DE NORMALIDAD

Para estudiar la normalidad de los residuos estandarizados se


pueden utilizar las tcnicas que se enumeran a
continuacin:

Grficos: el grfico de cajas, el histograma, la estimacin no


paramtrica de la funcin de densidad, el grfico de simetra y los
grfico p - p y q - q.

Contrastes de normalidad: contraste de asimetra y curtosis,


contraste chi-cuadrado, contraste de Kolmogoroff-Smirnoff-Lilliefors.

08/07/2017 64 Profesor: Guillermo Paucar C


MODELOS LINEALES
LA HIPTESIS DE HOMOCEDASTICIDAD

08/07/2017 65 Profesor: Guillermo Paucar C


MODELOS LINEALES

Si = 1, la desviacin tpica de los errores crece linealmente con la variable


regresora, la transformacin adecuada es multiplicar todo el modelo por 1/X,
obteniendo

08/07/2017 66 Profesor: Guillermo Paucar C


MODELOS LINEALES
En algunos casos transformando solamente la variable respuesta se consigue
homocedasticidad y se resuelven otros posibles problemas como falta de
simetra y de normalidad. La familia de transformaciones de Box-Cox es til
para este propsito y la sencilla transformacin = 0 (tomar logaritmos en la
variable respuesta) es suficiente para obtener homocedasticidad.
Una alternativa para estimar el parmetro que se puede utilizar en la
transformacin de Box-Cox es la siguiente:

08/07/2017 67 Profesor: Guillermo Paucar C


MODELOS LINEALES

LA HIPTESIS DE INDEPENDENCIA
La hiptesis de que las observaciones muestrales son
independientes es una hiptesis bsica en el estudio de
los modelos de regresin lineal. Con ello se entiende que
n
los errores i = 1 son variables aleatorias independientes.
La falta de independencia, se produce fundamentalmente
cuando se trabaja con variables aleatorias que se observan
a lo largo del tiempo, esto es, cuando se trabaja con series
temporales. Por ello, una primera medida para tratar de
evitar la dependencia de las observaciones consiste en
aleatorizar la recogida muestral.

08/07/2017 68 Profesor: Guillermo Paucar C


MODELOS LINEALES
CONTRASTE DE DURBIN -WATSON

08/07/2017 69 Profesor: Guillermo Paucar C

También podría gustarte