Está en la página 1de 27

Universidad Autnoma de Nuevo Len

Facultad de Ciencias Qumicas


Diseo de Experimentos
San Nicols de los Garza, Nuevo Len
25 de noviembre de 2013
Trabajo Final
Integrantes:
Ashley Enver Crdenas Rodrguez 1535695
Cinthya Elizabeth Segura de la Cruz 1569782
Edith Priscila Muiz Cant 1487731
Pedro Damin Hernndez Ortiz 1569818
pg. 1

Contenido

DISEO EXPERIMENTAL DE TRES FACTORES ..................................................................... 2
PRUEBAS DE HIPTESIS Y ESTIMACIN EN LA REGRESIN LINEAL
SIMPLE5
CALIDAD DEL AJUSTE EN LA REGRESIN LINEAL SIMPLE11
REGRESIN LINEAL MLTIPLE. 16
PRUEBAS DE HIPTESIS Y ESTIMACIN EN LA REGRESIN LINEAL
MLTIPLE..19






















pg. 2



DISEO EXPERIMENTAL DE TRES FACTORES

El modelo para el experimento de tres factores es:
( ) ( ) ( ) ( )
ijkl ijk jk ik ij k j i ijkl
y c o| | o o| | o + + + + + + + + =
i= 1,2,,0; j= 1,2,,b; k= 1,2,,n.
Donde
i
o ,
j
| , y
k
son los efectos principales; ( )
ij
o| , ( )
ik
o y ( )
jk
| son los efectos
de interaccin de dos factores que tienen la misma interpretacin que en el
experimento de dos factores. El trmino ( )
ijk
o| se llama efecto de interaccin de
tres factores, trmino que representa una no aditividad de las ( )
ij
o| sobre los
diferentes niveles del factor C. Como antes, la suma de todos los efectos
principales es cero y la suma sobre cualquier subndice de los efectos de
interaccin de dos y tres actores es cero. En muchas situaciones experimentales
estas interacciones de orden superior son insignificantes y sus cuadrados medios
reflejan slo la variacin aleatoria.
La suma de cuadrados se divide en ocho trminos, cada uno de los cuales
representa una fuente de variacin de la que obtenemos estimaciones
independientes de o
2
cuando todos los efectos principales y efectos de interaccin
son cero. Si los efectos de cualquier factor dados o interaccin no son todos cero,
entonces el cuadrado medio estimar la varianza del error ms un componente
debido al efecto sistemtico en cuestin.
A continuacin se muestran las sumas de cuadrados para los tres efectos
principales e interacciones.
pg. 3


A continuacin se definen los promedios en las frmulas anteriores:



En la tabla 14.5 se resumen los clculos en una tabla de anlisis de varianza para
un problema de tres factores con n corridas replicadas en cada combinacin de
factor.
Tabla 14.5 Anlisis de varianza para un experimento de tres factores con n
rplicas
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
F
calculada
Efecto principal:
pg. 4

A SSA a-1


B SSB b-1


C SSC c-1


Interaccin de dos factores:
AB SS(AB) (a-1)(b-1)


AC SS(AC) (a-1)(c-1)


BC SS(BC) (b-1)(c-1)


Interaccin de tres factores
ABC SS(ABC) (a-1)(b-1)(c-1)


Error SSE abc(n-1)



Total SST abcn-1

Para el experimento de tres factores con una sola corrida experimental por
combinacin podemos utilizar de la tabla 14.5 al hacer n=1 y usar la suma de
cuadrados de la interaccin ABC para SSE. En este caso suponemos que todos
los efectos de interaccin ( )
ijk
o| son iguales a cero, por lo que:

( )
( )( )( )
( )
( )( )( )
2
1 1 1
2
2
1 1 1 1 1 1
o
o|
o =

+ =
(

= = =
c b a
n
c b a
ABC SS
E
a
i
b
j
c
k
ijk


Es decir, SS(ABC) representa la variacin debida slo al error experimental. Por
eso su cuadrado medio proporciona una estimacin insesgada de la varianza del
error. Con n=1 y SSE= SS(ABC), la suma de cuadrados del error se encuentra al
restar las sumas de los cuadrados de los efectos principales y las interacciones de
dos factores de la suma total de cuadrados.


pg. 5

PRUEBAS DE HIPTESIS.

Conceptos generales.
Una hiptesis estadstica es una aseveracin conjetura con respecto a una o ms
poblaciones. La verdad o falsedad de una hiptesis estadstica nunca se sabe con
absoluta incertidumbre a menos que examinemos toda la poblacin. Para esto se
toma una muestra aleatoria de la poblacin de inters y utilizamos los datos para
proporcionar evidencia que apoye o no la hiptesis. La aceptacin de una
hiptesis simplemente implica que los datos no dan suficiente evidencia para
rechazarla. Por otro lado, el rechazo implica que la evidencia muestral la refuta.

Componentes de la prueba de hiptesis
La hiptesis nula se refiere a cualquier hiptesis que deseamos probar y se denota
como H
O
. El rechazo de H
O
conduce a la aceptacin de una hiptesis alternativa,
que se denota con H
1
. Todos los posibles valores mayores al valor sobre el que se
basa la decisin, constituyen la regin crtica; y todos los posibles valores menores
o iguales a ese valor determinan la regin de aceptacin.
Cuando una hiptesis nula se rechaza y es verdadera se comete un error tipo I,
mientras que la aceptacin de sta cuando es falsa se le llama error tipo II.
La probabilidad de cometer un error tipo I, se le llama nivel de significancia y se
denota como .
En la prctica, es frecuente un nivel de significacin de 0,05 0,01, si bien se
unen algunos otros valores. Si por ejemplo se escoge el nivel de significancia 0,05
( 5%) al disear una regla de decisin, entonces hay unas cinco (05)
oportunidades entre 100 de rechazar la hiptesis cuando debiera haberse
aceptado; Es decir, tenemos un 95% de confianza de que hemos adoptado la
decisin correcta. En tal caso decimos que la hiptesis ha sido rechazada al nivel
de significacin 0,05, lo cual quiere decir que tal hiptesis tiene una probabilidad
0,05 de ser falsa.






pg. 6

PRUEBA DE UNA HIPTESIS.
-Una cola y dos colas.
Una prueba de cualquier hiptesis estadstica, donde la alternativa es unilateral
como
H
O
: O

= O
o
, H
1
= O > O
o
, H
1
= O < O
o
,
se denomina prueba de una sola cola.
En una prueba de dos colas la alternativa es bilateral, pues la regin crtica se
divide en dos partes, que a menudo tienen probabilidades iguales que se colocan
en cada cola de la distribucin estadstica de la prueba.
H
o
= O = O
o

H
1
= O > O
o
Por ejemplo, al probar una medicina nueva, se establece la hiptesis de que no es
mejor que las medicinas similares actualmente en el mercado y se prueba sta
contra la hiptesis alternativa de que la medicina nueva es superior. Tal alternativa
tendr como resultado de una prueba de una sola cola con la regin critica en la
cola derecha. Sin embargo si deseamos comparar una nueva tcnica de
enseanza con el procedimiento convencional de saln, la hiptesis debe permitir
que la nueva aproximacin sea inferior o superior al procedimiento convencional.
Por ello la prueba es de dos colas con la regin critica dividida en partes iguales,
de modo que caiga en los extremos de las colas izquierda y derecha de la
distribucin estadstica. Un valor P es el nivel (de significancia) ms bajo en el
que el valor observado de la estadstica de prueba es significativo.

-Una sola muestra
Aui se se considera la hiptesis
H
o
: =
o
H
1
: /=
o
Se estandariza

y se incluye la variable aleatoria normal estndar Z, donde





Y la siguiente expresin describe una regin de aceptacin apropiada
pg. 7


Por ejemplo. Una muestra aleatoria de 100 muertes registradas en Estados
Unidos el ao pasado muestra una vida promedio de 71.8 aos. Suponga una
desviacin estndar poblacional de 8.9 aos, esto paece indicar que la vida
media hoy en dia es mayor que 70 aos? Utilice un nivel de signiicancia de 0.05.
H
o
: = 70 aos =0.05

H
1
: > 70 aos Regin crtica: z > 1.645


Por lo que se decide rechazar la hiptesis nula y concluir que la vida media hoy en
dia es mayor que 70 aos.
Cuando se desconoce la varianza, el rechazo de H
o
en un nivel de significancia
resulta cuando una estadstica t calculada excede t
/2,n-1
o es menor que - t
/2,n-1.



Por ejemplo, el instituto Elctrico Edison publica cifras del nmero anual de
kilowatt-hora que gastan varios aparatos electrodomsticos. Se afirma que una
aspiradora gasta un promedio de 46 kW-hora/ao. Si una muestra aleatoria de 12
hogares que se incluye en un estudio planeado indica que las aspiradoras gastan
un promedio de 42 kW-hr al ao con una desviacin estndar de 11.9 kW-hr,
esto sugiere un nivel de significancia de 0.05 que las aspiradoras gastan, en
promedio, menos de 46 kW-hora anualmente?
H
o
: = 46 kW-hr =0.05

H
1
: < 46 kW-hr Regin crtica: t > -1.796


Por lo que se decide no rechazar la hiptesis nula y concluir que el numero
promedio de kW-hr que gastan al ao las aspiradoras domsticas no s
significativamente menor que 46.


pg. 8

ESTIMACIN EN LA REGRESIN LINEAL SIMPLE

El tprmino regresin lineal implica que
|x
se relaciona linealmente con x
mediante la ecuacin de lregresin de poblacin

|x
= +x
donde los coeficientes de regresin y son parmetros a estimar a partir de los
datos muestrales. Al denotar sus estimaciones con a y b respectivamente,
podemos estimar
|x
con


Donde las estimaciones a y b representan la interseccin y la pendiente,
respectivamente. El smbolo se utiliza para distinguir entre el valor estimado por
la lnea de regresin de la muestra y un valor experimental real observado y para
algn valor de x.
Para encontrar a y b, las estimaciones de y , se utiliza el mtodo de mnimo
cuadrados para que la suma de los cuadrados de los residuos sea mnima.
Dada la muestra {(x
i
,y
i
); i=1,2,,n}, las estimaciones por mnimos cuadrados a y b
de los coeficientes de regresin y se calculan a partir de las frmulas


Por ejemplo, con los siguientes datos de contaminacin estimar la lnea de
regresin que mejor ajuste.

pg. 9








pg. 10

xy
xx yy
S
r
S S
=
2
2
1 1
1
n n
yy i i
i i
S y y
n
= =
| |
=
|
\ .

2
2
1 1
1
n n
xx i i
i i
S x x
n
= =
| |
=
|
\ .

1 1 1
1
n n n
xy i i i i
i i i
S x y x y
n
= = =
| || |
=
| |
\ .\ .

CALIDAD DEL AJUSTE EN LA REGRESIN LINEAL SIMPLE


La grfica de dispersin de los puntos nos da una primera impresin del tipo de
relacin que pudiera haber entre las variables, existen dos medidas principales
que nos indican qu tan adecuadamente representa un modelo lineal la relacin
entre Y y X.
Una de ellas sirve para valorar el grado de relacin lineal entre X y Y, se trata del
coeficiente de correlacin, la otra se interpreta como el porcentaje de la
variabilidad en Y que est explicada por X, es el coeficiente de determinacin.
Debe notarse que para que estas dos medidas tengan sentido, X debe ser
tambin una variable aleatoria normal.
Coeficiente de correlacin, r
Es una medida del grado de relacin lineal entre X y Y.
Este coeficiente tiene valores entre -1 y 1.
- Si r = -1, entonces existe una relacin lineal perfecta y negativa entre X y Y;
es decir, cuando X aumenta, Y disminuye.
- Si r = 0, entonces no existe una relacin lineal entre X y Y.
- Si r = 1, entonces existe una relacin lineal perfecta y positiva entre X y Y,
es decir, cuando X aumenta, Y aumenta.













pg. 11


Una regla general para interpretar los valores de r
Coeficiente de
correlacin
Relacin lineal entre
X y Y
-1 s r s -0.5 Alta, negativa
-0.5 < r < 0 Baja, negativa
r = 0 Inexistente
0 < r < 0.5 Baja, positiva
0.5 s r s 1 Alta, positiva

Una regla general para interpretar los valores de r (muy desagregada)
Coeficiente de
correlacin
Relacin lineal entre
X y Y
-1 s r s -0.9 Muy alta, negativa
-0.9 < r s -0.5 Alta, negativa
0.5 < r s -0.3 Regular, negativa
-0.3 < r < 0 Escasa, negativa
r = 0 Ninguna
0 < r < 0.3 Escasa, positiva
0.3 s r < 0.5 Regular, positiva
0.5 s r < 0.9 Alta, positiva
pg. 12

0 2 4 6 8 10
2
3
4
5
6
7
8
r = -0.9999
X
Y
0 2 4 6 8
3
4
5
6
7
8
r = 0
X
Y
0 2 4 6 8
2
3
4
5
6
7
r = 0.75
X
Y
2 4 6 8
2
3
4
5
6
7
8
r = 0.9999
X
Y
1
2

xy
yy
S
r
S
|
=
1

xy
xx
S
S
| =
0.9 s r s 1 Muy alta, positiva
Conjuntos de datos con distintos valores del coeficiente de correlacin















Coeficiente de determinacin, r
2

Este coeficiente refleja valores entre 0 y 1. Y representa la proporcin de la
variabilidad en los datos que est explicada por el modelo.








pg. 13

0 2 4 6 8
2
3
4
5
6
7
8
r = -0.9999 , r^2 = 0.9998
X
Y
2 4 6 8
2
3
4
5
6
7
8
r = 0 , r^2 = 0
X
Y
2 4 6 8
3
4
5
6
7
8
r = 0.75 , r^2 = 0.5625
X
Y
2 4 6 8
3
4
5
6
7
r = 0.9999 , r^2 = 0.9998
X
Y
( )
2
2
2
1 1
1 1
1422 74 326.8
5
n n
xx i i
i i
S x x
n
= =
| |
= = =
|
\ .

( )( )
1 1 1
1 1
368 74 22
5
42.4
n n n
xy i i i i
i i i
xy
S x y x y
n
S
= = =
| || |
= =
| |
\ .\ .
=

( )
2
2
2
1 1
1 1
114 22 17.2
5
n n
yy i i
i i
S y y
n
= =
| |
= = =
|
\ .

Conjuntos de datos con distintos valores en el coeficiente de determinacin













Ejemplo de la calidad de ajuste de la regresin lineal simple
Calcule el coeficiente de correlacin y el de determinacin e interprete los
resultados.
Solucin:
El coeficiente de correlacin es calculado con los siguientes datos:










pg. 14

( )( )
42.4
326.8 17.2
0.5655
xy
xx yy
S
r
S S
r
= =
=
( )
2
2 2
2
0.5655
0.3198
r r
r
= =
=








Y obtenemos que existe una relacin lineal alta positiva entre X y Y.
El coeficiente de determinacin es calculado elevando al cuadrado el
coeficiente de correlacin:





Existe un 31.98% de variabilidad en los datos, es un porcentaje aceptable
ya que el modelo propuesto es simple.











pg. 15

REGRESIN LINEAL MLTIPLE

La regresin lineal mltiple estima los coeficientes de la ecuacin lineal, con una o
ms variables independientes, que mejor prediga el valor de la variable
dependiente. Por ejemplo, se puede intentar predecir el total de facturacin
lograda por servicios prestados en una IPS cada mes (la variable dependiente) a
partir de variables independientes tales como: Tipo de servicio, edad, frecuencia
del servicio, tipo de usuario y los aos de antigedad en el sistema del usuario.

Datos para regresin mltiple

Los datos para regresin lineal simple consisten en pares de observaciones (x
i
, y
i
)
de dos variables cuantitativas. Ahora tendremos mltiples variables explicativas,
por lo que la notacin ser ms elaborada. Llamaremos x
ij
el valor de la j-sima
variable del i-simo sujeto o unidad (i=1,2,...,n ; j=1,2,...,p). Los datos se pueden
organizar de la siguiente forma en una base:

1 x
1
1

x
1
2

... x
1
p

y
1

2 x
2
1

x
2
2

... x
2
p

y
2

:
n x
n
1

x
n
2

... x
n
p

y
n


Donde n es el nmero de casos o tamao muestral y p es el nmero de variables
explicatorias. Esta es una forma de organizar la base de datos, no importa el
orden de las variables.

Modelo de regresin lineal mltiple:
pg. 16


El modelo estadstico de regresin lineal mltiple es:

i ip p i i i
x x x y c | | | | + + + + + =
2 2 1 1 0

para i= 1, 2, ...,n

La respuesta media ) (Y E
y
= es una funcin lineal de las variables explicatorias:

p p y
x x x | | | | + + + + =
2 2 1 1 0


Las desviaciones
i
c son independientes y normalmente distribuidas con media 0
y desviacin estndar o: ) , 0 ( ~
2
o c N
i


Los parmetros del modelo son:
p
| | | , , ,
1 0
y o, los coeficiente de regresin y
la estimacin de la variabilidad, es decir son en total (p + 2) parmetros.


Si suponemos que la respuesta media est relacionada con los parmetros a
travs de la ecuacin:
p p y
x x x | | | | + + + + =
2 2 1 1 0
, esto quiere decir que
podemos estimar la media de la variable respuesta a travs de la estimacin de
los parmetros de regresin. Si esta ecuacin se ajusta a la realidad entonces
tenemos una forma de describir cmo la media de la variable respuesta y vara
con las variables explicatorias
p
x x x , , ,
2 1
.

Estimacin de los parmetros de regresin mltiple.

En regresin lineal simple usamos el mtodo de mnimos cuadrados para
obtener estimadores del intercepto y de la pendiente. En regresin lineal mltiple
el principio es el mismo, pero necesitamos estimar ms parmetros.

Llamaremos
p
b b b , , ,
1 0
a los estimadores de los parmetros
p
| | | , , ,
1 0


La respuesta estimada por el modelo para la i-sima observacin es:
ip p i i i
x b x b x b b y + + + + =
2 2 1 1 0


pg. 17

El i-simo residuo es la diferencia entre la respuesta observada y la predicha:

residuo = estimado observado y y

El i-simo residuo =
i i i
y y e =
( )
ip p i i i i
x b x b x b b y e + + + + =
2 2 1 1 0


El mtodo mnimos cuadrados elige los valores de los estimadores
p
b b b , , ,
1 0

ptimos, es decir, que hacen la suma de cuadrados de los residuos menor posible.
En otras palabras, los parmetros estimados
p
b b b , , ,
1 0
minimizan la diferencia
entre la respuesta observada y la respuesta estimada, lo que equivale a minimizar:
( )

i i
y y .

La frmula de los estimadores de mnimos cuadrados para regresin mltiple se
complica porque necesitamos notacin matricial, sin embargo estamos a salvo si
entendemos el concepto y dejaremos a SPSS hacer los clculos.

El parmetro
2
o mide la variabilidad de la respuesta alrededor de la ecuacin de
regresin en la poblacin. Como en regresin lineal simple estimamos
2
o como el
promedio de los residuos al cuadrado:
1

2
2 2

= =

p n
e
s
i
x y
o

( )
1

2


=

p n
y y
i i

La cantidad (n-p-1) son los grados de libertad asociados con la estimacin de la
variabilidad:
2
x y
s

2
/ x y
s
es entonces el estimador de la variabilidad de la respuesta y, tomando en
cuenta las variables explicatorias x
j
.
Lo distinguimos de
( )
1
2
2

=

n
y y
s
i i
y
que es la variabilidad de y sin tomar en
cuenta las variables explicativas x
j
.
pg. 18

PRUEBAS DE HIPTESIS Y ESTIMACIN EN LA REGRESIN
LINEAL MLTIPLE

Podemos obtener intervalos de confianza y test de hiptesis para cada uno de los
coeficientes de regresin
j
| como lo hicimos en regresin simple. Los errores
estndar de los estadsticos muestrales
p
b b b , , ,
1 0
tienen frmulas ms
complicadas, as es que nuevamente dejaremos que SPSS haga su trabajo.

Test de hiptesis para
j
| :

Para docimar la hiptesis
0 :
0 :
1
0
=
=
j
j
H
H
|
|
se usa el test t:

) 1 ( ~
) EE(b
b
j
j
= p n t t


Donde ) (
j
b EE es el error estndar de
j
b

Notas:
- Vamos a dejar a SPSS el clculo del error estndar de
j
b
- Tendremos entonces un test de hiptesis asociado a cada variable explicatoria
en el modelo.
- Podemos realizar hiptesis de una cola, donde H
1
: 0 <
j
| o H
1
: 0 >
j
| ,
pero lo usual es hacer el test bilateral.

Intervalo de confianza para
j
| :
Un intervalo de confianza ( o 1 )*100% para
j
| est dado por:


) ( ) 1 (
2
1
j j
b EE p n t b

o

donde
2
1
o

t

es el percentil apropiado de la distribucin t con (n-p-1) grados de
libertad,
) (
j
b EE
es el error estndar de
j
b

pg. 19

Intervalos de confianza para la respuesta media e intervalos de prediccin
individual:

Si queremos obtener intervalos de confianza para la respuesta media o intervalos
de confianza para futuras observaciones en los modelos de regresin mltiple, las
ideas bsicas son las mismas que ya vimos en regresin simple y dejaremos el
clculo a SPSS.





Tabla de ANOVA para regresin mltiple

La tabla de anlisis de varianza para la regresin mltiple es la siguiente:


Fuente de
variacin
gl
Grados de
libertad
SC
Suma de
Cuadrados
CM
Cuadrados
Medios

Modelo


p

=
2
) ( Mod y y SC

p
SCMod


Residuo

1 p n

=
=
n
i
i i
y y s SC
1
2
) ( Re
1
Re
p n
s SC


Total

1 n
( )

=
=
n
i
i
y y SCT
1
2


La tabla ANOVA es similar a la de regresin simple. Los grados de libertad del
modelo son ahora p en vez de 1, lo que refleja que ahora tenemos p variables
explicatorias en vez de slo una. Las sumas de cuadrados representan las fuentes
de variacin. Recordemos que la suma de cuadrados total es igual a la suma de
los cuadrados del modelo de regresin ms la suma de los cuadrados del residuo:

SCT = SCMod + SCRes

El estimador de la varianza
2
o de nuestro modelo est dado por la media
cuadrtica residual MCRes=SCRes/(n-p-1)

Estadstico F
pg. 20

La razn entre el cuadrado medio del modelo y el residuo s MC MC F Re Mod = ,
permite estimar si la relacin entre las variables explicatorias y la respuesta es
significativa. La hiptesis que docima el test F es:

cero es no un menos al :
0 :
1
2 1 0
j
p
H
H
|
| | | = = = =


La hiptesis nula dice que ninguna de las variables explicatorias son predictoras
de la variable respuesta. La hiptesis alternativa dice que al menos una de las
variables explicatorias est linealmente relacionada con la respuesta. Como en
regresin simple, valores grandes de F nos dan evidencia en contra de hiptesis
nula. Cuando H
0
es verdadera, el estadstico F tiene distribucin F de Fisher con
(p, n-p-1) grados de libertad. Los grados de libertad estn asociados a los grados
de libertad del modelo y del residuo en la tabla ANOVA.

Recordemos que en regresin lineal simple el test F de la tabla ANOVA es
equivalente al test t bilateral para la hiptesis de que la pendiente es cero. Ahora, el
test F de regresin mltiple docima la hiptesis de que todos los coeficientes de
regresin (con excepcin del intercepto) son cero, hiptesis que no es de mucho
inters. En el problema de regresin mltiple interesan ms las hiptesis individuales
para cada parmetro asociado a cada variable explicatoria.

Seleccin de modelos
Como regla general, normalmente es preferible incluir en un modelo de regresin
slo las variables explicativas que ayudan a predecir o explicar la variabilidad
observada en la respuesta y, a este modelo lo llamamos parsimonioso. En
consecuencia, si tenemos diversas variables explicativas potenciales, cmo
decidir cules se deben retener en el modelo y cules dejar afuera? Por lo
general, la decisin se toma en base a una combinacin de consideraciones
estadsticas y no estadsticas. Es fundamental identificar o conocer cules
variables podran ser importantes. Sin embargo, para estudiar cabalmente el
efecto de cada una de estas variables explicativas, sera necesario llevar a cabo
anlisis por separado de cada posible combinacin de variables. Los modelos
resultantes podran evaluarse enseguida de acuerdo con algn criterio estadstico.
Este es el mtodo ms completo, pero tambin el que ocupa ms tiempo. Si
tenemos una gran cantidad de variables explicativas el procedimiento podra no
ser factible. Existen otros mtodos paso a paso (stepwise en ingls) que son
tiles, pero que hay que usarlos con cautela porque los resultados pudieran ser
pg. 21

dependientes de los datos (la muestra) ms que basados en el conocimiento del
problema que estamos estudiando. Entonces la recomendacin es buscar un
equilibrio entre la tecnologa, el conocimiento que tenemos de las variables y los
resultados de la muestra.

Variables indicadoras

Las variables explicativas que hemos considerado hasta este momento se
midieron sobre una escala cuantitativa. Sin embargo, el anlisis de regresin
puede generalizarse para incluir asimismo, variables explicativas cualitativas. Por
ejemplo, podramos preguntarnos si las notas en la enseanza media pueden ser
explicadas adems por la dependencia del establecimiento. Para simplificar
supongamos que nos interesa solamente distinguir entre colegios particulares y
municipales o subvencionados, esta variable tendra dos categoras. Puesto que
las variables explicativas en un anlisis de regresin deben tomar valores
numricos, designamos a los colegios estatales (municipales y subvencionados)
con 1 y a los colegios particulares con 0. Estos nmeros no representan
mediciones reales; sencillamente identifican las categoras de la variable aleatoria
nominal. Debido a que estos valores no tienen significado cuantitativo, una
variable explicativa de esta clase se denomina variable indicadora o variable muda
(en ingls dummy variable).




Resumen del modelo
.592
a
.350 .349 80.29730
Modelo
1
R R cuadrado
R cuadrado
corregida
Error tp. de la
estimacin
Variables predictoras: (Constante), Estatales, Prueba Aptitud
Matemtica, Prueba Historia y Geograf a, Prueba Aptitud
Verbal
a.
pg. 22






Pasos en el anlisis de regresin mltiple:

1. Describir los datos: Descripcin numrica de las variables que se van a
utilizar en el anlisis

Ejemplo de modelo que ajusta las notas de enseanza media versus las pruebas
de aptitud en la regin del Maule el ao 2001

ANOVA
b
17170414 4 4292603.5 665.762 .000
a
31890108 4946 6447.656
49060521 4950
Regresin
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrtica F Sig.
Variables predictoras: (Constante), Estatales, Prueba Aptitud Matemtica, Prueba
Historia y Geograf a, Prueba Aptitud Verbal
a.
Variable dependiente: NEM Notas Ens Media
b.
Coeficientes
a
257.610 7.489 34.397 .000
.160 .019 .185 8.502 .000
.285 .015 .363 19.030 .000
.117 .019 .120 6.219 .000
40.086 3.668 .132 10.929 .000
(Constante)
Prueba Aptitud Verbal
Prueba Aptitud
Matemtica
Prueba Historia y
Geograf a
Estatales
Modelo
1
B Error tp.
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
Variable dependiente: NEM Notas Ens Media
a.
pg. 23

Tabla del SPSS con descripcin de variables cuantitativas:


Tabla con descripcin de variable cualitativa:
Dependencia Frecuencia %
Estatales 4346 87,8
Particular 605 12,2
Total 4951 100,0

Descripcin grfica:


Nota: En este caso podemos hacer grficos de caja conjuntos porque todas las
variables estn medidas en la misma escala.

2. Verificar los supuestos:

Estadsticos descriptivos
561.6451 99.55509 4951
471.9234 114.74092 4951
477.4286 126.43221 4951
483.8259 101.92995 4951
NEM Notas Ens Media
Prueba Aptitud Verbal
Prueba Aptitud
Matemtica
Prueba Historia y
Geograf a
Media
Desviacin
tp. N
4951 4951 4951 4951 N =
Prueba Historia y Ge
Prueba Aptitud Matem
Prueba Aptitud Verba
NEMNotas Ens Media
900
800
700
600
500
400
300
200
100
pg. 24

- linealidad (y vs x)
- no colinealidad (correlacin entre las x)

Grficos de dispersin



NEMNotas Ens Media
Prueba Aptitud Verba
Prueba Aptitud Matem
Prueba Historia y Ge
Cor relaciones
a
1 .526** .556** .485**
. .000 .000 .000
.526** 1 .783** .789**
.000 . .000 .000
.556** .783** 1 .711**
.000 .000 . .000
.485** .789** .711** 1
.000 .000 .000 .
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
NEM Notas Ens Media
Prueba Aptitud Verbal
Prueba Aptitud
Matemtica
Prueba Historia y
Geograf a
NEM Notas
Ens Media
Prueba
Aptitud Verbal
Prueba
Aptitud
Matemtica
Prueba
Historia y
Geograf a
La correlacin es signif icativa al nivel 0,01 (bilateral).
**.
N por lista = 4951
a.
pg. 25

3. Bsqueda del mejor modelo (R
2
y test de hiptesis de los coeficientes de
regresin).

Modelos

R
2
Coeficiente Intervalo de confianza

PAV
PAM
PHG



33,4%

0,153
0,275
0,096

(0,115-0,190)
(0,245-0,304)
(0,059-0,133)

PAV
PAM


33,1%

0,204
0,293

(0,172-0,236)
(0,265-0,322)

PAV
PAM
PHG
Estatal


35,0%

0,160
0,285
0,117
40,086

(0,123-0,197)
(0,256-0,315)
(0,080-0,154)
(32,9-47,3)


4. Anlisis de supuestos de residuos: Normalidad y Homocedasticidad

- Normalidad: Grficos de Normalidad y/o Test de Kolmogorov-Smirnov y
Shapiro-Wilks



Regresin Residuo tipif icado
3
.0
0
2
.5
0
2
.0
0
1
.5
0
1
.0
0
.5
0
0
.0
0
-
.5
0
-
1
.0
0
-
1
.5
0
-
2
.0
0
-
2
.5
0
-
3
.0
0
Histograma de residuos
Notas de Enseanza Media versus PAA
F
r
e
c
u
e
n
c
i
a
500
400
300
200
100
0
Desv. tp. = 1.00
Media = 0.00
N = 4951.00
Grfi co P-P normal de regresin Residuo tipificado
Variable dependiente: NEMNotas Ens Media
Prob acum observada
1.00 .75 .50 .25 0.00
P
r
o
b

a
c
u
m

e
s
p
e
r
a
d
a
1.00
.75
.50
.25
0.00
pg. 26

- Homocedasticidad: Grfico de residuos vs y estimada

Grfico de residuos versus predichos
Regresin Valor pronosticado
800 700 600 500 400
Re
gr
esi
n
Re
sid
uo
est
ud
en
tiz
ad
o
4
3
2
1
0
-1
-2
-3
-4


Nota: Si no se obtiene normalidad u homogeneidad de varianza, se pueden
trasformar los datos.

También podría gustarte