Está en la página 1de 52

Estadstica Inferencial II

Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda


Ingeniera Industrial Juana Monserrat Rubio Carbajal

Regresin lineal mltiple


Conceptos bsicos

Un modelo de regresin mltiple trata de explicar el comportamiento de una


variable dependiente en funcin de un conjunto de variables explicativas.

Variable dependiente: Una variable dependiente es aquella cuyos valores


dependen de los que tomen otra variable. La variable dependiente en una funcin
que suele representar por y.

Variable independiente: Una variable independiente es aquella cuyo valor no


depende de otra variable. Es aquella caracterstica o propiedad que se supone es
la causa del fenmeno estudiado.

Se est interesado en investigar la variable ndice de criminalidad en relacin con


otras variables. Para ello se dispone de datos de 47 estados de EEUU relativos al
ao 1960.

R AGE S ED EX1 EX2 LF M N


79,1 151 1 91 58 56 510 950 33
163,5 143 0 113 103 95 583 1012 13
57,8 142 1 89 45 44 533 969 18
196,9 136 0 121 149 141 577 994 157
123,4 141 0 121 109 101 591 985 18
68,2 121 0 110 118 115 547 964 25
96,3 127 1 111 82 79 519 982 4
155,5 131 1 109 115 109 542 969 50
85,6 157 1 90 65 62 553 955 39
70,5 140 0 118 71 68 632 1029 7
167,4 124 0 105 121 116 580 966 101
84,9 134 0 108 75 71 595 972 47
51,1 128 0 113 67 60 624 972 28
66,4 135 0 117 62 61 595 986 22
79,8 152 1 87 57 53 530 986 30
94,6 142 1 88 81 77 497 956 33
53,9 143 0 110 66 63 537 977 10
92,9 135 1 104 123 115 537 978 31
75 130 0 116 128 128 536 934 51
122,5 125 0 108 113 105 567 985 78
74,2 126 0 108 74 67 602 984 34
43,9 157 1 89 47 44 512 962 22
121,6 132 0 96 87 83 564 953 43
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

96,8 131 0 116 78 73 574 1038 7


52,3 130 0 116 63 57 641 984 14
199,3 131 0 121 160 143 631 1071 3

Datos de variables

R = ndice de criminalidad, nmero de delitos conocidos por la polica por cada


milln de habitantes

Age = distribucin de la edad, nmero de varones de edad 14-24 por cada mil de
toda la poblacin del estado

S = variable binaria que distingue entre estados del sur (S = 1) del resto

Ed = nivel educativo, nmero medio de aos de escolarizacin

Ex1 = gasto per cpita en proteccin policial relativa a 1960

Ex2 = gasto per cpita en proteccin policial relativa a 1959

LF = proporcin en participacin en trabajos de fuerza por cada mil hombres con


edad 14-24

M = Nmero de varones por mil mujeres

N = Tamao de la poblacin del estado en cien mil

DECLARACIN DE VARIABLES

Variables independientes o predictoras:

X1 = distribucin de la edad, nmero de varones de edad 14-24 por cada mil de


toda la poblacin del estado

X2 = variable binaria que distingue entre estados del sur (S = 1) del resto

X3 = nivel educativo, nmero medio de aos de escolarizacin

X4 = gasto per cpita en proteccin policial relativa a 1960

X5 = gasto per cpita en proteccin policial relativa a 1959

X6 = proporcin en participacin en trabajos de fuerza por cada mil hombres con


edad 14-24

X7 = Nmero de varones por mil mujeres


Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

X8 = Tamao de la poblacin del estado en cien mil

Variable dependiente o respuesta:

Y= ndice de criminalidad, nmero de delitos conocidos por la polica por cada


milln de habitantes

ECUACIN DE REGRESIN
De acuerdo a los datos, se presentar la siguiente ecuacin a resolver:

Y=0+
1X1+2X2+3X3+4X4+5X5+6X6+7X7+
8X8
La ecuacin de regresin est formada por:

1. Ocho variables independientes o predictoras. (X1, X2, X3, X4)


2. Una variable dependiente o respuesta. (Y)
3. Coeficientes de regresin poblacional o pendientes. (0, 1, 2, 3)

Mediante el uso del el programa MINITAB 17; se calcular la ecuacin de


regresin mltiple obteniendo lo siguiente:

ECUACIN DE REGRESIN
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Interpretacin:

Nos muestra que a menor nmero de variable binaria, nivel educativo,


nmero medio de aos de escolarizacin, gasto per cpita en proteccin
policial relativa a 1960, gasto per cpita en proteccin policial relativa a
= 1959, etctera haciendo referencia a las variables X 1, X2,, Xn
(independientes), el ndice de criminalidad y el nmero de delitos conocidos
por la polica por cada milln de habitantes tiene un valor menor ya que
afecta de manera proporcional a la disminucin o aumento de estos.

= El aumento promedio en el ndice de criminalidad es de 0.437 por cada


incremento en una unidad en la distribucin de la edad, asumiendo que la
las variables X2, X3, X4, X5, X6, X7 y X8 son constantes.

El aumento promedio en el ndice de criminalidad es de 3.75 por cada


= incremento en una unidad en la variable binaria que distingue entre estados
del sur, asumiendo que la las variables X1, X3, X4, X5, X6, X7 y X8 son
constantes.

El decremento promedio en el ndice de criminalidad es de 0.615 por cada


= aumento en una unidad en el nivel educativo, nmero medio de aos de
escolarizacin asumiendo que la las variables X1, X2, X4, X5, X6, X7 y X8
son constantes.

El aumento promedio en el ndice de criminalidad es de 2.78 por cada


incremento en el gasto per capita en proteccin policial relativa a 1960,
=
asumiendo que la las variables X1, X2, X3, X5, X6, X7 y X8 son
constantes.

El decremento promedio en el ndice de criminalidad es de 1.94 por cada


aumento en una unidad en el gasto per capita en proteccin policial
= relativa a 1959 asumiendo que la las variables X1, X2, X3, X4, X6, X7 y X8
son constantes.

6 = El decremento promedio en el ndice de criminalidad es de 0.010 por cada


aumento en una unidad en la proporcin en participacin en trabajos de
fuerza asumiendo que la las variables X1, X2, X3, X4, X5, X7 y X8 son
constantes.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

El aumento promedio en el ndice de criminalidad es de 0.534 por


7 cada incremento en el nmero de varones por cada mil mujeres
=
asumiendo que la las variables X1, X2, X3, X4, X5, X6 y X8 son
constantes.

El aumento promedio en el ndice de criminalidad es de 0.450 por


88 cada incremento en el tamao de la poblacin del estado en cien mil,
=
asumiendo que la las variables X1, X2, X3, X4, X5, X6 y X7 son
constantes.

COEFICIENTE DE DETERMINACION AJUSTADA

El coeficiente de determinacin ajustada es el porcentaje de variacin en la


variable de respuesta que es explicado por su relacin con una o ms variables
predictoras. El valor de R2 ajustado incorpora el nmero de predictores del modelo
para elegir el modelo correcto. El R 2 ajustado se utiliza para determinar qu tan
bien se ajusta el modelo; ajusta a los datos cuando desee ajustar el nmero de
predictores del modelo.

Coeficiente de determinacin ajustado de los datos:

COEFICIENTE DE DETERMINACIN AJUSTADO

Interpretacin

El coeficiente de determinacin al cuadrado ajustado indica que se puede


minimizar en un 69.16% la suma de todas las correlaciones entre las variables
predictoras (X1, X2, X3 Xn) con nuestra variable dependiente.

COEFICIENTE DE CORRELACION MULTIPLE

El coeficiente de correlacin mltiple establece una medida del grado de


asociacin lineal entre la variable respuesta (Y) y las variables predictoras (X 1, X2,
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

X3, X4, X5, X6, X7, X8), concretamente entre la variable respuesta y la recta de
regresin estimada. Se representa por r y vara entre -1 y 1.

DATOS OBTENIDOS CON ANLISIS DE DATOS EN EXCEL

El valor de 79.03% se traduce como el porcentaje de variabilidad de Y (ndice de


criminalidad, nmero de delitos conocidos por la polica por cada milln de
habitantes) explicada o debida a la recta de regresin, en tanto que puede
comprobarse que cuando todos los puntos se encuentran sobre la recta de
regresin estimada, a suma de cuadrados de residuos, SSE, toma el valor cero.

COEFICIENTE DE MALLOWS

El Coeficiente de Mallows se utiliza como ayuda para elegir entre mltiples


modelos de regresin, comparando la precisin y el sesgo del modelo completo
con modelos que incluyen un subconjunto de los predictores.

Por lo general se deben buscar modelos en los que el Coeficiente de Mallows sea
pequeo y est cerca del nmero de predictores del modelo ms la constante (p).
Un valor pequeo del Coeficiente de Mallows indica que el modelo es
relativamente preciso (tiene poca varianza) para estimar los coeficientes de
regresin reales y predecir futuras respuestas. En este caso, se observa que
nuestro valor ms pequeo es 2.1.

Los resultados indican que el modelo con las variables Ed = nivel educativo,
nmero medio de aos de escolarizacin, Ex1 = gasto per cpita en proteccin
policial relativa a 1960, M = Nmero de varones por mil mujeres y N = Tamao
de la poblacin del estado en cien mil son relativamente precisos y no tienen
sesgo puesto que su Coeficiente de Mallows es (2.1) siendo el valor ms bajo y el
ms cercano al nmero de predictores ms la constante.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

PRUEBA DE HIPOTESIS DEL CONJUNTO

Prueba de todo el conjunto de datos el cual determinar si existe una regresin


lineal en la poblacin, en la variable dependiente (Y) con todas las variables
independientes en conjunto.

1. Planteamiento de la hiptesis

H0 : 0 = 1 = 2 = 3 = 4 = 5 = 6 = 7 = 8
H1 : Al menos una de las i 0

2. Nivel de significancia

=0.05

3. Regin critica.
Parmetro desconocido de la
poblacin sobre el que queremos
realizar un contraste; regin de
valores que dan lugar a rechazar
la hiptesis.
F0.05, 8,17= 2.548
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

4. Clculos.

Valor de f = 80.09. Distribucin f con 5 grados de libertad en el numerador y 16 grados de


libertad en el denominador

5. Conclusin.

Dado que el valor de F (80.09) > F0.05, 8,17 = 2.548 con un nivel de significancia de
=0.05 se rechaza la hiptesis nula. Con un error de riesgo de error tipo I, se puede
afirmar que las evidencias mustrales sugieren que si hay efecto significativo entre
el ndice de criminalidad y las variables distribucin de la edad, variable binaria
que distingue entre estados del sur, nivel educativo, gasto per capita en proteccin
policial relativa a 1960, gasto per capita en proteccin policial relativa a 1959,
proporcin en participacin en trabajos de fuerza, nmero de varones por mil
mujeres y el tamao de la poblacin del estado en cien mil.

PRUEBA DE HIPOTESIS DEL SUBCONJUNTO

1. Datos
B0 = - 1.82
2. Prueba de hiptesis

H0: B0 = - 1.82

H1: B0 > - 1.82

3. Nivel de significancia Zona de


=0.05 rechazo
Zona de
aceptacin
4. Regin critica

5. Clculos
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Como Tr (0.980) < T0.05, 25 (1.725) con un nivel de significancia de = 0.05 se


acepta H1. Por lo que el ndice de criminalidad es de 1.82 cuando el resto de las
variables son 0.

PRUEBAS INDIVIDUALES DE COEFICIENTES INDIVIDUALES DEL


MODELO

Estas pruebas permiten deducir qu variables predictivas contribuyen de manera


significativa al modelo de regresin lineal mltiple.

1. Planteamiento de hiptesis

8
6 7
8
6 7

2. Nivel de significancia rea de aceptacin


=0.05

3. Regin critica

rea de
4. Clculos rechazo

Los datos obtenidos para realizar la


comparacin de cada uno de los
coeficientes se obtuvo de los
coeficientes individuales
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Comparacin entre estadstico de prueba y nivel de significancia:

Para llevar a cabo esta comparacin hay que tomar en cuenta que cuando el valor
estadstico de prueba es mayor que el valor crtico, H 0 se rechaza.

Tval1= 0.63. Como Tcal1= 0.63 < 2.060, por lo tanto se ACEPTA
Tval2= 0.19. Como Tcal2= 0.19 < 2.060, por lo tanto se ACEPTA
Tval3= - 0.66. Como Tcal3= - 0.66 < 2.060, por lo tanto se ACEPTA
Tval4= 1.01. Como Tcal4= 1.01 < 2.060, por lo tanto se ACEPTA
Tval5= - 0.65. Como Tcal5= -0.65 < 2.060, por lo tanto se RECHAZA
Tval6= - 0.04. Como Tcal3= -0.04 < 2.060, por lo tanto se ACEPTA
Tval7= 1.85. Como Tcal4= 1.85< 2.060, por lo tanto se ACEPTA
Tval8= 2.27. Como Tcal5= 2.27 > 2.060, por lo tanto se RECHAZA

P-valor y el nivel de significancia:

P-valor1= 0.535 es > = 0.05, se acepta


P-valor2= 0.849 es > = 0.05, se acepta
P-valor3= 0.520 es > = 0.05, se acepta
P-valor4= 0.324 es > = 0.05, se acepta
P-valor5= 0.523 es > = 0.05, se acepta
P-valor6= 0.969 es > = 0.05, se acepta
P-valor7= 0.082 es < = 0.05, se rechaza
P-valor8= 0.037 es > = 0.05, se acepta

5. Conclusin
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Los resultados sugieren que las variables X1, X2, X3, X4, X5, X6 Y X8 no son
significativas en el modelo de anlisis de regresin lineal mltiple para la variable
de respuesta Y (ndice de criminalidad), a excepcin de la variable X7 que hace
referencia al nmero de varones por mil mujeres puesto que esta variable s
representa muestra un efecto significativo para el modelo.

INTERVALO DE PREDICCION

Utilizando una muestra aleatoria especificada de una poblacin se obtiene un


intervalo o lmite de prediccin para una nica observacin futura de la poblacin.

Interpretacin:

Existe una herramienta y la posibilidad de obtener un intervalo de prediccin con


MIBITAB 17. De acuerdo a los datos, con un intervalo de prediccin del 95% se
asume que el valor futuro del ndice de criminalidad caer en el intervalo de
(146,653; 289,605).

INTERVALO DE CONFIANZA

Un intervalo de confianza es un rango de valores, derivado de los estadsticos de


la muestra, que posiblemente incluya el valor de un parmetro de poblacin
desconocido.

La desviacin estndar de una estadstica empleada como estimador de un


parmetro poblacional tambin se denomina error estndar del estimado
(abreviado SE) porque se refiere a la precisin denomina. Es posible calcular el
error que se comete al tratar de predecir valores de Y a travs de la ecuacin de
regresin:
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Haciendo uso de la siguiente frmula:

Los valores de Y que se obtienen al reemplazar los valores de X1, X2, X3, X4, X5,
X6, X7 y X8 en la ecuacin de regresin
Este error indica la diferencia promedio entre los valores reales de Y y los
valores estimados de Y a partir de la ecuacin de regresin.

Syx1x2x3x4x5x6x7x8 = 24,78

Al estimar valores de la variacin se encontr que se alejan en 24,78 promedio en


las 26 observaciones. Es un dato considerable y podra causar una importante
fluctuacin en el resultado global.

ANLISIS DE DATOS EN EXCEL

Los clculos de los intervalos de confianza se pueden obtener mediante:

Haciendo uso de las herramientas que nos proporciona Excel, fue posible obtener
los intervalos de confianza por cada variable, arrojando los siguientes resultados:
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Grafica de distribucin
de normalidad (t). Esto
facilita la obtencin de
los intervalos de
confianza.

Intervalo de confianza del 95 (1-) % para la interseccin (0)

Con un intervalo de confianza del 95% se asume que el valor medio de la


interseccin caer en el intervalo de: (-1112.73, 81.84)

Intervalo de confianza del 95 (1-) % para el coeficiente 1

Con un intervalo de confianza del 95% se asume que el valor medio de la


distribucin de la edad caer en el intervalo de: (-1.02, 1.89)

Intervalo de confianza del 95 (1-) % para el coeficiente 2

Con un intervalo de confianza del 95% se asume que el valor medio de la variable
binaria que distingue entre estados del sur caer en el intervalo de: (-36.25, 43.58)

Intervalo de confianza del 95 (1-) % para el coeficiente 3

Con un intervalo de confianza del 95% se asume que el valor medio de la variable
nivel educativo, nmero medio de aos de escolarizacin caer en el intervalo de:
(-2.59, 1.36)

Intervalo de confianza del 95 (1-) % para el coeficiente 4

Con un intervalo de confianza del 95% se asume que el valor medio de la variable
gasto per capita en proteccin policial relativa a 1960 caer en el intervalo de: (-
3.00, 8.57)

Intervalo de confianza del 95 (1-) % para el coeficiente 5


Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Con un intervalo de confianza del 95% se asume que el valor medio de la variable
(8.22, 4.34)

Intervalo de confianza del 95 (1-) % para el coeficiente 6

Con un intervalo de confianza del 95% se asume que el valor medio de la variable
proporcin en participacin en trabajos de fuerza caer en el intervalo de: (-0.57,
0.55)

Intervalo de confianza del 95 (1-) % para el coeficiente 7

Con un intervalo de confianza del 95% se asume que el valor medio de la variable
nmero de varones por cada mil mujeres caer en el intervalo de: (-0.08, 1.14)

Intervalo de confianza del 95 (1-) % para el coeficiente 8

Con un intervalo de confianza del 95% se asume que el valor medio de la variable
tamao de la poblacin del estado en cien mil caer en el intervalo de: (0.03, 0.87)

METODO DE SELECCIN PASO A PASO

Regresin paso a paso es una herramienta que se utiliza en las etapas


preliminares de la construccin de modelos para identificar un subconjunto til de
predictores. El proceso aade sistemticamente la variable ms significativa o
elimina la variable menos significativa durante cada paso. Adems, busca de entre
todas las posibles variables explicativas aquellas que ms y mejor expliquen a la
variable dependiente sin que ninguna de ellas sea combinacin lineal de las
restantes.

Nivel de significancia: = 0.25

Subconju
nto
ptimo
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Utilizando este mtodo de paso a paso, el programa nos arroja que con un nivel
de significancia de = 0.1 las variables dentro de nuestro modelo tienen una
significancia importante en la regresin lineal mltiple. A su vez, este modelo se
encarga de eliminar variables innecesarias. Por ello, al analizar la recta de
regresin lineal mltiple original, se tiene:

Despus de hacer la regresin lineal mltiple con el mtodo paso a paso ajustado
podemos observar la eliminacin de algunas variables dado que stas, son
insignificantes para el modelo de regresin ajustado.

Asimismo, se observa que el coeficiente de determinacin para la regresin paso


a paso del modelo nuevo o de eliminacin de variables es de r^2 = 77.68%. Nos
muestra que las otras variables tales como el ndice de criminalidad, nmero de
delitos conocidos por la polica por cada milln de habitantes, distribucin de la
edad, nmero de varones de edad 14-24 por cada mil de toda la poblacin del
estado, variable binaria que distingue entre estados del sur (S = 1) del resto,
gasto per cpita en proteccin policial relativa a 1959 y la proporcin en
participacin en trabajos de fuerza por cada mil hombres con edad 14-24 se han
eliminado. Con esto se obtienen variables significativas para el modelo de
regresin haciendo uso de la herramienta paso a paso.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

METODO DE SELECCIN HACIA ATRS

El procedimiento hacia atrs incluye todas las variables en el modelo de regresin


sin embargo en sta se van eliminando variables progresivamente de menor a
mayor contribucin hasta que sta sea lo suficientemente significativa como para
no poder ser eliminada.

Subconjunto
ptimo

En la eliminacin las variables incluidas en el modelo se toman de la ecuacin


original y se van eliminando conforme se consideren variables insignificantes para
el modelo final ajustado.
Con un valor de =0.1 las variables propuestas en el modelo de regresin
original cambian ya que algunas tienden a ser insignificantes para explicar el
ndice de criminalidad (Y). Por ello, al analizar la recta de regresin lineal mltiple
original, se tiene:

Despus de hacer la regresin lineal mltiple con el mtodo hacia atrs, podemos
observar la eliminacin de algunas variables dado que stas, son insignificantes
para el modelo de regresin ajustado. El programa arroj la siguiente ecuacin:
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Como puede observarse, s hubo variables eliminadas puesto que fueron


insignificantes en el modelo de regresin ajustado.

Asimismo, se observa que el coeficiente de determinacin para la regresin paso


a paso del modelo nuevo o de eliminacin de variables es de r^2 = 77.68%. Nos
muestra que las otras variables tales como el ndice de criminalidad, nmero de
delitos conocidos por la polica por cada milln de habitantes, distribucin de la
edad, nmero de varones de edad 14-24 por cada mil de toda la poblacin del
estado, variable binaria que distingue entre estados del sur (S = 1) del resto,
gasto per cpita en proteccin policial relativa a 1959 y la proporcin en
participacin en trabajos de fuerza por cada mil hombres con edad 14-24 se han
eliminado. Con esto se obtienen variables significativas para el modelo de
regresin haciendo uso de la herramienta paso a paso.

METODO DE SELECCIN HACIA ENFRENTE

El procedimiento hacia delante (es equivalente al anterior excepto en el sentido


que no existe ninguna reevaluacin, y se van incluyendo, por tanto en el modelo
las variables segn su importancia. Frecuentemente este mtodo coincide con el
anterior cuando no hay que extraer ninguna de las variables introducidas.

Subconju
nto

ptimo

Al realizar el anlisis de regresin para obtener el modelo mediante el mtodo de


eliminacin hacia adelante y con un valor de =0.1 las variables propuestas en el
modelo de regresin original cambian ya que algunas tienden a ser insignificantes
para explicar el ndice de criminalidad (Y). Por ello, al analizar la recta de regresin
lineal mltiple original, se tiene:
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Despus de hacer la regresin lineal mltiple con el mtodo hacia atrs, podemos
observar la eliminacin de algunas variables dado que stas, fueron insignificantes
para el modelo de regresin ajustado. El programa arroj la siguiente ecuacin:

En este mtodo, a diferencia de los otros se incluye la variable EX2 referente al


gasto per cpita en proteccin policial relativa a 1959. Se observa que el
coeficiente de determinacin para la regresin hacia enfrente del modelo nuevo o
de eliminacin de variables es de r^2 = 78.30%. Nos muestra que las otras
variables tales como el ndice de criminalidad, nmero de delitos conocidos por la
polica por cada milln de habitantes, distribucin de la edad, nmero de
varones de edad 14-24 por cada mil de toda la poblacin del estado, variable
binaria que distingue entre estados del sur (S = 1) del resto y la proporcin en
participacin en trabajos de fuerza por cada mil hombres con edad 14-24 se han
eliminado. Con esto se obtienen variables significativas para el modelo de
regresin haciendo uso de la herramienta paso a paso.

ANLISIS DE GRAFICA DE RESIDUOS; RESIDUALES GRAFICA DE


NORMALIDAD, RESIDUALES HISTOGRAMA, RESIDUALES VARIANZA
AJUSTES Y ANALISIS DE LOS RESIDUALES VARIANZA ORDEN
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

PLOT DE NORMALIDAD: Permite comprobar si la distribucin est sesgada, si es


demasiado plana o picuda, o si tiene valores extremos permitiendo cotejar
normalidad. El grfico ms especfico para este fin es el de probabilidad
normal (q-q plot), en el que los valores se ajustan a la lnea diagonal si la
distribucin sigue una normal. Si los puntos estn bien cerca de una lnea recta se
concluye, que hay normalidad.

Interpretacin: En este caso si existe una normalidad dado que los puntos estn
muy juntos a la lnea recta, excepto por el punto sealado el cual no se ajusta
completamente a la grfica.

HISTOGRAMA DE LOS RESIDUOS: El histograma de residuos determina si los


datos son asimtricos o si existen valores atpicos en los datos. Tambin
permitiendo cotejar normalidad. Cuando el histograma es simtrico, con un nico
pico en el centro, se concluye que hay normalidad.

Interpretacin: en el histograma, el flujo es simtrico excepto por el nico lado


izquierdo el punto o limite el cual esta fuera, o se aleja de -50 a 50.

PLOT DE RESIDUALES VERSUS LOS VALORES PREDICHOS (FITS): Esta


grfica muestra un patrn aleatorio de residuos a ambos lados de 0. Los patrones
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

no aleatorios, pueden violar el supuesto de que las variables predictoras no estn


relacionadas con los residuos.

Interpretacin: En este caso la grfica nos muestra datos no tan dispersos a


excepcin de uno que se encuentra sealado excepto por un punto el cual est
sealado en la parte inferior, pero afecta en un pequea parte al modelo. Por lo
tanto se puede deducir que es normal.

PLOT DE RESIDUALES VERSUS LA VARIABLE PREDICTORA: Al utilizar los


residuos vs. los ajustes para verificar el supuesto de que los residuos tienen
varianza constante. Es usado para detectar datos anormales as como si la
varianza de los errores es constante con respecto a la variable predictora.

Interpretacin: El plot de los residuales versus los valores predichos muestra que
la varianza de los errores es inconstante con respecto a la variable de respuesta,
pues va fluctuando y tiende a aumentar cuando el valor de la variable de
respuesta aumenta.

DISEO DE UN SOLO FACTOR


Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

MODELO DEL DISEO COMPLETAMENTE ALEATORIZADO: MUESTRAS


IGUALES

El anlisis de la varianza de un factor (ANOVA) es una metodologa para analizar


la variacin entre muestras y la variacin al interior de las mismas mediante la
determinacin de varianzas.

ECUACION DEL MODELO ESTADISTICO

Yij = + i + ij

Yij= medicin que corresponde al tratamiento i y al bloque j

= media global

i= parmetro que mide el efecto del al tratamiento i

ij= error aleatorio atribuible a la medicin Yij

Los datos siguientes presentan las producciones de frijol soya (en bushels por
acre) plantados a dos pulgadas de distancia entre s en terrenos esencialmente
similares con las columnas de 20, 24, 28 y 32 pulgadas de distancia:

ANLISIS DE VARIANZA
Haciendo uso de MINITAB 17 el programa nos arroja los siguientes datos:
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

El anlisis de varianza (ANOVA) es la tcnica central en el anlisis de datos


experimentales. En el caso del DCA (diseo completamente aleatorizado) de
muestra desigual lo que se lleva a cabo es separar la variabilidad debida a los
tratamientos y la variabilidad debida al error, para as poder contrastar los
resultados y poder hacer una inferencia en los efectos logrados en el experimento.

Los valores sealados en el ANOVA se utilizaran para hacer comparaciones y para


el resto del ejercicio.

PRUEBA DE HIPTESIS
Nivel de significancia.

=0.05
Prueba hiptesis

HO: 1 = 2 = 3=0 4=0


H1: al menos una de las medias no son iguales.

Regin crtica

Zona de aceptacin Zona de rechazo

F0.05, 3,20 = 3.098

Clculos
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Conclusin

Comparando F: 10.78 > 3.098, se rechaza Ho.


Utilizando el valor P: P = 0.000 < 0.05, se rechaza Ho
Dado que p (0.000) es menor que el nivel de significancia de =0.05 se rechaza
H0 (hiptesis nula) y concluimos que la distancia (pulgadas) a la que estn
plantados los bushels s influye en las producciones de frijol soya.

PRUEBA DE MEDIAS

Cuando no se rechaza la hiptesis nula H0: A B C D el objetivo del


experimento est cubierto y la conclusin es que los tratamientos no son
diferentes. Si se rechaza H0, y por consiguiente se acepta la hiptesis alternativa
es necesario investigar cules tratamientos resultaron diferentes, o cules
provocan la diferencia.

PRUEBA TUKEY

El mtodo de Tukey se utiliza en ANOVA para crear intervalos de confianza para


todas las diferencias en parejas entre las medias de los niveles de los factores
mientras controla la tasa de error por familia que especifique. Es importante
considerar la tasa de error por familia cuando se realizan mltiples comparaciones
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

debido a que la probabilidad de cometer un error tipo I para una serie de


comparaciones es mayor que la tasa de error para cualquier comparacin
individual. Para contrapesar esta mayor tasa de error, el mtodo de Tukey ajusta el
nivel de confianza de cada intervalo individual, de modo que el nivel de confianza
simultneo resultante sea igual al valor que especifique. El valor crtico est dado
por:

El mtodo de Tukey trabaja con un error a muy cercano al declarado por el


experimentador.

Interpretacin: Las medias que no comparten una letra son


significativamente diferentes. Nuestros datos muestran que tres de nuestros
factores comparten la letra A. Sin embargo, el cuarto factor que hace referencia a
las 32 pulgadas, aparece con una letra distinta indicando que con un nivel de
confianza del 95% se concluye que una hay variacin significativa entre la
distancia de 32 pulgadas a la que estn plantados los bushels y las producciones
de frijol-soya.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Prueba Fisher

Interpretacin: Las medias que no comparten una letra son


significativamente diferentes. Esta prueba nos indica que nuestros datos
distintos datos. Por lo que se puede concluir con un nivel de confianza del 95%
que una hay variacin significativa entre la distancia (pulgadas) a la que estn
plantados los bushels y las producciones de frijol-soya.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

PRUEBA DE VARIANZAS

Prueba de Levene

La prueba de Levene utiliza la desviacin absoluta de las observaciones en cada


tratamiento de la mediana del tratamiento. Luego evala si la media de estas
desviaciones es o no igual para todos los tratamientos. Si las desviaciones medias
son iguales, las varianzas de las observaciones en todos los tratamientos sern
iguales. El estadstico de la prueba de Levene es el estadstico F de ANOVA para
probar igualdad de medias aplicado a las desviaciones absolutas.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Interpretacin: Como podemos observar en la prueba de Levene el estadstico de


prueba de valor p que es igual a 0.433 y dado que nuestro valor P > 0.05 podemos
concluir con un nivel de confianza del 95% que la variacin entre grupos de
factores y respuestas demuestra desigual no es estadsticamente significativa en
cuanto a la variabilidad.

GRAFICAS E INTERPRETACIN

Esta grfica revela la diferencia que hay en promedio de la resistencia entre las
cuatro medidas de pulgadas incluidas en el anlisis.
Indica tambin que en el conjunto de pulgadas comparado con el nivel de
coeficientes obtenidos muestran una simetra constante en la cual se tiene
variabilidad y dispersiones similares.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Plot de Normalidad: Permite cotejar normalidad. Si los puntos estn cerca de una
lnea recta se concluye que hay normalidad.

Interpretacin: En este caso nos indica la normalidad que existe en los factores y
las rplicas, es decir que si los puntos estn completamente alineados en la lnea
azul se puede decir que hay distribucin de normalidad en los datos. Excepcin
por dos puntos que salen por una desviacin menor, se tendran que revisar estos
datos con otros estudios para que hubiese una normalidad exacta.

Histograma de Residuales: De igual manera permite cotejar normalidad. Cuando


el histograma es simtrico, con un nico pico en el centro, se concluye que hay
normalidad.

Interpretacin: En este caso nos seala que la variabilidad en funcin del valor
no se modifica a gran escala. La fluctuacin de los puntos no es anormal y se
puede decir que las varianzas son constantes. Los puntos no se muestran tan
dispersos y se encuentran siempre apegados a la lnea de referencia.

Plot de Residuales versus los valores predichos (FITS): Se usa para detectar
si hay datos anormales, cuando hay datos que caen bastantes alejados, tanto en
el sentido vertical como horizontal.

Interpretacin: Los datos no se encuentran tan dispersos excepto por algunos


datos que afectan en una mnima parte al modelo.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Plot de Residuales versus la variable predictora: Es usado para detectar datos


anormales as como si la varianza de los errores es constante con respecto a la
variable predictora.

DISEO DE UN SOLO FACTOR

MODELO DEL DISEO COMPLETAMENTE ALEATORIZADO: MUESTRAS


DESIGUALES

El gerente de un restaurante quiere determinar si las ventas de platillos


preparados con pollo dependen de la manera en que estos se describen en el
men. Tiene tres clases de mens impresos, que listan, entre otros, platillos de
pollo o los clasifican como Especialidades del Chef y Delicias para el gourmet y
pretende usar cada clase de men en seis domingos distintos. En realidad, el
gerente recopila los datos siguientes que revelan el nmero de platillos preparados
con pollo vendidos en doce domingos:

Listados entre
76 94 85 77 89
otros platillos
Clasificados
como
109 117 102 92 115
especialidade
s del chef
Clasificados
como delicias
100 83 102 91 79
para el
gourmet
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

NIVEL DE

SIGNIFICANCIA.

=0.05

PRUEBA HIPTESIS

HO: 1 = 2 = 3=0
H1: al menos una de las medias no son iguales.

REGIN CRTICA

Zona de aceptacin Zona de rechazo

F0.05, 2,12 = 3.885

Clculos
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Conclusin

Comparando F: 7.71 > 3.885, por lo tanto Ho se acepta


Utilizando el valor P: P = 0.007 < 0.05, por lo tanto Ho se acepta
Dado que p (0.007) es menor que el nivel de significancia de =0.05 aceptamos
la hiptesis nula y concluimos que las ventas de platillos preparados con pollo
dependen de la manera en que estos se describen en el men.

PRUEBA DE MEDIAS

Cuando no se rechaza la hiptesis nula H0: A B C D el objetivo del


experimento est cubierto y la conclusin es que los tratamientos no son
diferentes. Si se rechaza H0, y por consiguiente se acepta la hiptesis alternativa
es necesario investigar cules tratamientos resultaron diferentes, o cules
provocan la diferencia.

PRUEBA TUKEY

El mtodo de Tukey se utiliza en ANOVA para crear intervalos de confianza para


todas las diferencias en parejas entre las medias de los niveles de los factores
mientras controla la tasa de error por familia que especifique. Es importante
considerar la tasa de error por familia cuando se realizan mltiples comparaciones
debido a que la probabilidad de cometer un error tipo I para una serie de
comparaciones es mayor que la tasa de error para cualquier comparacin
individual. Para contrapesar esta mayor tasa de error, el mtodo de Tukey ajusta el
nivel de confianza de cada intervalo individual, de modo que el nivel de confianza
simultneo resultante sea igual al valor que especifique. El valor crtico est dado
por:
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

El mtodo de Tukey trabaja con un error a muy cercano al declarado por el


experimentador.

Interpretacin: Las medias que no comparten una letra son


significativamente diferentes. Nuestros datos muestran que dos de nuestros
factores comparten la letra B. Sin embargo, el factor 2 que hace referencia a los
platillos clasificados como especialidades del chef, aparece con una letra distinta
indicando con un nivel de confianza del 95% que hay una variacin significativa
entre los platillos de pollo, Especialidades del Chef y Delicias para el gourmet.

Prueba Fisher

Interpretacin: Las medias que no comparten una letra son


significativamente diferentes. Nuestros datos muestran que dos de nuestros
factores comparten la letra B. Sin embargo, el factor 2 que hace referencia a los
platillos clasificados como especialidades del chef, aparece con una letra distinta
indicando con un nivel de confianza del 95% que hay una variacin significativa
entre los platillos de pollo, Especialidades del Chef y Delicias para el gourmet.

PRUEBA DE VARIANZAS
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Prueba de Levene

La prueba de Levene utiliza la desviacin absoluta de las observaciones en cada


tratamiento de la mediana del tratamiento. Luego evala si la media de estas
desviaciones es o no igual para todos los tratamientos. Si las desviaciones medias
son iguales, las varianzas de las observaciones en todos los tratamientos sern
iguales. El estadstico de la prueba de Levene es el estadstico F de ANOVA para
probar igualdad de medias aplicado a las desviaciones absolutas.

Interpretacin: Como podemos observar la prueba de valor p que es igual a 0.00


y dado que nuestro valor P > 0.05 podemos concluir con un nivel de confianza del
95% que la variacin entre grupos de factores y respuestas de muestra desigual
no es estadsticamente significativa en cuanto a la variabilidad.

INDEPENDENCIA

La suposicin de independencia en los residuos puede verificarse si se grafica el


orden en que se colect un dato contra el residuo correspondiente.
Al graficar de esta manera, dado que no se detecta un patrn del todo definido o
una tendencia claramente definida, esto es evidencia de que no es probable que
exista una correlacin entre los errores y por lo tanto, el supuesto de
independencia se pudiera cumplir.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Anlisis de grficas

Esta grfica muestra que existe una considerable diferencia que hay los platillos
preparados con pollo. Indica que en el conjunto de platillos comparado con el nivel
de coeficientes obtenidos muestran una simetra constante en la cual forma se
tiene variabilidad y dispersiones similares.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Plot de Normalidad: Permite cotejar normalidad. Si los puntos estn cerca de una
lnea recta se concluye que hay normalidad.

Interpretacin: En este caso nos indica la normalidad que existe en los factores y
las rplicas, es decir que si los puntos estn completamente alineados en la lnea
azul se puede decir que hay distribucin de normalidad en los datos. Sin
embargo, en este problema existe un punto que sale por una desviacin menor, de
igual manera se tendran que revisar estos datos con otros estudios para que
hubiese una normalidad exacta.

Histograma de Residuales: Permite cotejar normalidad. Cuando el histograma es


simtrico, con un nico pico en el centro, se concluye que hay normalidad.

Interpretacin: Nos seala que la variabilidad en funcin del valor no se modifica


a gran escala; sin embargo, la fluctuacin de los puntos es anormal y se puede
decir que las varianzas podran no ser constantes. Los puntos no se muestran un
poco dispersos y no se encuentran siempre apegados a la lnea de referencia..

Plot de Residuales versus los valores predichos (FITS): Se usa para detectar
si hay datos anormales, cuando hay datos que caen bastantes alejados, tanto en
el sentido vertical como horizontal.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Interpretacin: Los datos no se encuentran tan dispersos excepto por un dato


que podra afectar en una mnima parte al modelo.

Plot de Residuales versus la variable predictora: Es usado para detectar datos


anormales as como si la varianza de los errores es constante con respecto a la
variable predictora.

DISEO COMPLETAMENTE AL AZAR (DCA)

El diseo completamente al azar es el ms simple de todos los diseos. Es un


diseo en el cual los tratamientos son asignados aleatoriamente a las
unidades experimentales sin ningn tipo de restriccin. Este diseo es
utilizado cuando las unidades experimentales son bastante homogneas, es decir
cuando la variabilidad entre ellas es pequea y no existe ningn criterio de
bloqueo que permita disminuirla. Dado que los tratamientos constituyen el nico
criterio de clasificacin para las unidades experimentales, a este diseo se le
conoce tambin como diseo de clasificacin de una va.

MODELO ESTADSTICO

Los siguientes son los contenidos de colesterol (en miligramos por paquete) que
cuatro laboratorios obtuvieron por paquetes de 6 onzas de tres alimentos
dietticos muy similares:
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Alimentos Laboratorios
dietticos
1 2 3 4

A 3.7 2.8 3.1 3.4

B 3.1 2.6 2.7 3.0

C 3.5 3.4 3.0 3.3

Hiptesis

H0: 1=2=3=4=5 H0:1=2=3=4=5


HI: Al menos una es diferente HI: Al menos una ser distinto a 0

Las hiptesis en relacin al problema serian

Bloques

H0: No existe una diferencia significativa de los niveles de colesterol en los


alimentos dietticos.

H1: Existe una diferencia significativa de los niveles de colesterol en los alimentos
dietticos.

Tratamiento

H0: No existe una relacin significativa entre las muestras tomadas de colesterol
por los laboratorios

H1: Existe una relacin significativa entre las muestras tomadas de colesterol por
los laboratorios

El nivel de significancia correspondiente es: =0.05


Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Valor Crtico: Por medio del programa MINITAB se obtuvo la grfica de


distribucin, la cual nos servir de ayuda para poder observar si se aceptan o se
rechazan las hiptesis propuestas anteriormente

[Escriba una cita del


documento o el resumen de un
punto interesante. Puede
situar el cuadro de texto en
cualquier lugar del documento.
Use la ficha Herramientas de
dibujo para cambiar el formato
del cuadro de texto de la cita.]

Despus de calcular f
f > f [K-1, (K-1)(b-1)]

CON P-VALOR

P-VALOR < 0.05

Analisis de varianza (ANOVA) el cual se obtuvo en Minitab


Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Interpretacion de los datos obtenidos en minitab:

Para los bloques que estos son los


alimentos dieteticos, el valor F
podemos observar que es menor al valor obtenido en la grafica lo cual nos
indica que la hipotesis nula H0 se acepta 1.40 < 5.41

Podemos
inferir con un
nivel de
significancia
del 0.05 que NO existe una
diferencia significativa de los niveles de colesterol
en los alimentos dietticos.

Para los
tratamientos que en este caso seran los
laboratorios, comparando los valores de F con la grfica podemos observar que
es menor 3.37 < 5.41 por lo tanto la hiptesis nula H0 se acepta.

En este caso podemos inferir con un nivel de confianza del 95% que NO existe
una relacin significativa entre las muestras tomadas de colesterol por los
laboratorios.

ANALISIS DE LOS RESIDUALES GRAFICA DE NORMALIDAD


Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Interpretacin: se puede observar que los puntos de las muestras se ajustan a la


recta. Sin embargo, los dos ltimos puntos se encuentran un poco alejados del
resto, esto nos indica que existe una ligera variacin entre estos dos datos, por lo
que analizarlo a fondo y tratar de eliminarlo nos proporciona una mejor tendencia.

ANALISIS DE LOS RESIDUALES RESIDUOS HISTOGRAMA


Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Interpretacin: El histograma nos muestra una ausencia de simetra. Podemos


observar que hay un rango que no cuenta con una barra; esto podra afectar el
supuesto de normalidad debido a que la grfica nos permite verificar que los
residuos presenten dicha normalidad. Aunado a ello, estos resultados nos indican
que se debe analizar el experimento para averiguar las causas de valores atpicos.

ANALISIS DE LOS RESIDUALES VARIANZA AJUSTES

Interpretacin: una forma de verificar el supuesto de varianza constante es


graficando los predichos contra los residuos. Si los residuos se distribuyen de una
manera aleatoria y en una banda horizontal, es seal de que se cumple el
supuesto de que los tratamientos tienen igual varianza. Estos residuos se
encuentran dispersos y no siguen un patrn constante por lo que se concluye que
la varianza es constante.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

ANALISIS DE LOS RESIDUALES VARIANZA ORDEN

vs. orden
(la respuesta es colesterol)

0.3

0.2

0.1
Residuo

0.0

-0.1

-0.2

1 2 3 4 5 6 7 8 9 10 11 12
Orden de observacin

Interpretacin: La suposicin de independencia en los residuos puede verificarse


si se grafica el orden en que se colect un dato contra el residuo correspondiente.
Se observa que no existe un patrn definido en la grfica de varianza de orden, lo
que indica la ausencia de correlacin entre los errores y demuestra que el
supuesto de independencia se cumple. Cuando este supuesto no se cumple,
indica que existen deficiencias en la ejecucin del experimento.

DISEO CUADRADO LATINO (DCL)

En este diseo la restriccin para controlar la variabilidad est en


dos direcciones, hileras y columnas. Los tratamientos se arreglan en bloques de
dos sentidos y cada tratamiento aparece una vez en cada hilera y columna. El
anlisis de los datos puede eliminar el error la variabilidad debida a la hilera y
columna. Debe existir el mismo nmero de tratamientos, hileras y columnas, o
sea, el nmero de tratamientos es igual al nmero de repeticiones. Un
arreglo para cuatro tratamientos podra ser:
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

MODELO ADITIVO LINEAL

EJERCICIO

Para comparar cuatro diseos diferentes de pelotas de golf, A, B, C, D, cada una


golpeado por cada uno de cuatro golfistas profesionales, P 1, P2, P3, P4, usando una
vez cada uno de cuatro palos, D 1, D2, D3, D4. Las distancias del tee a los puntos en
que las pelotas se detuvieron (en yardas) aparecen en las siguientes tablas:

Datos:

D1 D2 D3 D4

P1 D 231 B 215 A 261 C 199

P2 C 234 A 300 B 280 D 266

P3 A 301 C 208 D 247 B 255

P4 B 253 D 258 C 210 A 290

Hiptesis
H0: A=B=C=D
Hi: Al menos una de las = 0

Ho: no hay diferencia alguna entre las pelotas de golf por lo que no influyen en la
distancias del tee.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Hi: si hay diferencia entre las pelotas de golf por lo que s influyen en la distancias
del tee.

Nivel de significancia:
= 0.05

Regin crtica
f > f [p-1, (p-1)(p-2)]
f0.05 (3,6)=4.76

Se obtiene el ANOVA con MINITAB donde aparecen los siguientes resultados:

Clculos:
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Interpretacin de los datos obtenidos en el ANOVA de F, comparndolos con


la grfica de la distribucin: Para el primer dato que seran los golfistas, el dato
que se obtuvo de F es mayor que el valor de la grfica lo cual podemos decir que
H0 se rechaza, por lo cual podemos inferir con un nivel de significancia del 0.05
que existe una relacin en la forma de golpear las pelotas de golfs de los golfistas
profesionales.

Columna en este caso son los palos de golf, analizando el resultado obtenido de
F junto con la grfica es menor que el valor de 4.76 de la zona de rechazo por lo
tanto en este caso se acepta H0, se infiere con un nivel de significancia del 0.05
que NO existe una diferencia significativa de los palos de golf.

Fila (distancia), se observa que este dato de F es mayor que el dato que se
observa en la grfica por lo tanto se rechaza H, entonces se puede concluir con un
nivel de significancia del 0.05 que existe una distancia significativa entre las
pelotas de golf que fueron golpeadas.

ANALISIS DE LOS RESIDUALES GRAFICA DE NORMALIDAD

Interpretacin: Existe una tendencia lineal dentro de los primeros datos; se


mantienen juntos. Sin embargo, los cuatro ltimos puntos se encuentran un poco
alejados del resto, esto nos indica que existe una ligera variacin.

ANALISIS DE LOS RESIDUALES HISTOGRAMA


Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Interpretacin: El histograma nos muestra una ausencia de simetra. Podemos


observar hay un rango que no cuenta con una barra; esto podra afectar el
supuesto de normalidad debido a que la grfica nos permite verificar si los
residuos presenten normalidad. Estos resultados nos indican que se debe analizar
el experimento para averiguar las causas de valores atpicos

ANALISIS DE LOS RESIDUALES VARIANZA AJUSTES

Interpretacin: graficar los predichos contra los residuos nos permiten verificar el
supuesto de varianza constante. Si los residuos se distribuyen de una manera
aleatoria y en una banda horizontal, es seal de que se cumple el supuesto de que
los tratamientos tienen igual varianza. Estos residuos se encuentran dispersos y
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

no siguen un patrn constante por lo que se concluye que la varianza es


constante.

ANALISIS DE LOS RESIDUALES VARIANZA ORDEN

Interpretacin: La suposicin de independencia en los residuos puede verificarse


si se grafica el orden en que se colect un dato contra el residuo correspondiente.
Se observa que no existe un patrn definido en la grfica de varianza de orden, lo
que indica la ausencia de correlacin entre los errores y demuestra que el
supuesto de independencia se cumple. Cuando este supuesto no se cumple,
indica que existen deficiencias en la ejecucin del experimento.

DISEO CUADRADO GRECO-LATINO (DCL)


El modelo en cuadrado greco-latino se puede considerar como una extensin del
cuadrado latino en el que se incluye una tercera variable de control o
variable de bloque. En este modelo, como en el diseo en cuadrado latino, todos
los factores deben tener el mismo nmero de niveles K y el nmero de
observaciones necesarias sigue siendo K 2. Este diseo es, por tanto,
una fraccin del diseo completo en bloques aleatorizados con un factor principal
y 3 factores secundarios que requerira K4 observaciones. Los cuadrados greco-
latinos se obtienen por superposicin de dos cuadrados latinos del
mismo orden y ortogonales entre s, uno de los cuadrados con letras latinas el otro
con letras griegas. Dos cuadrados reciben el nombre de ortogonales si,
al superponerlos, cada letra latina y griega aparecen juntas una sola vez en el
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Planteamiento del modelo

En un diseo en cuadrado greco-latino la variable respuesta Y ij (hp) viene descrita


por la siguiente ecuacin

EJERCICIO

Se compara el rendimiento de tres procesos de fabricacin (A, B, C) entre


condiciones experimentales (, , ) tres das distintos con tres
procedimientos de medicin. El diseo y los resultados obtenidos se indican en el
cuadro. El nmero entre parntesis en cada casilla es la media de
las dos replicaciones.

Datos
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Anlisis de varianza (ANOVA) de Minitab

Si el P valor es menor a 0,05 se rechaza la hiptesis alterna, eso quiere


decir que hay diferencia significativa entre tratamientos (sali valor =
0,000) hay diferencia entre tratamientos Si el P valor fuese mayor que 0,05
se acepta la hiptesis nula, No hay diferencia entre tratamientos.

Regin crtica

Interpretacin de los datos obtenidos en MINITAB comparndolos con la


grfica de distribucin
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

Procesos donde observamos que F es menor 1.09<4.26 por lo tanto H0 se


acepta por lo tanto con un nivel de significancia del 0.05 afirmamos que el
rendimiento de los procesos de fabricaciones es significativo en los tres
casos.
Las condiciones experimentales analizamos F la cual es menor 0.82 <
4.26, por lo cual podemos inferir con un nivel de confianza del 95% que las
condiciones experimentales son significativas en los procesos de
fabricacin, H0 se acepta.
Los das de acuerdo a los datos que nos arroj minitab la F es menor 1.96
< 4.26, por lo tanto se infiere con un nivel de significancia del 0.05 que H0
se acepta y entonces los das tienen relacin significativa con los
procedimientos de medicin.
Mtodos que como se observa la F es mayor 4.36 > 4.26 por lo tanto H0 se
rechaza con un nivel de confianza del 95% se puede inferir que NO existe
una relacin significativa entre los mtodos utilizados durante los procesos
de fabricacin. Por lo tanto se deberan de mejor para que los mtodos
utilizados tuvieran mayor relacin con esto se pretenda mejorar tiempos en
los procesos.
ANALISIS DE RESIDUALES GRAFICA DE NORMALIDAD

Grfica de probabilidad normal


(la respuesta es Rendimiento)
99

95

90

80
Porcentaje

70
60
50
40
30
20

10

1
-3 -2 -1 0 1 2 3
Residuo
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

En este grafico de probabilidad normal para greco-latino realmente se puede


observar que los residuos estn distribuidos pero de una manera simtrica, por lo
tanto el rendimiento es bastante bueno.

ANALISIS DE RESIDUALES HISTOGRAMA

Histograma
(la respuesta es Rendimiento)
9

6
Frecuencia

0
-2 -1 0 1 2
Residuo

Interpretacin: El histograma muestra simetra, no presenta cambios que


pudieran afectar los resultados obtenidos, por lo que se concluye que el supuesto
de normalidad demuestra que los residuos son normales sin fluctuaciones
atpicas.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal

ANALISIS DE RESIDUALES VARIANZA AJUSTES

Interpretacin: Existe una


constante en la varianza
dentro de los puntos, lo cual
hace que sea significativo el
equilibrio en los puntos que
estn sobre la lnea de 0.

ANALISIS DE RESIDUALES VARIANZA ORDEN

Interpretacin: No hay un patrn definido en la grfica del orden, esto muestra


que no existe correlacin entre los errores. Se debe prestar atencin a ciertos
puntos atpicos puestos que estos, nos podran indicar qu factores o qu es lo
que afecta a los resultados obtenidos, sin embargo el supuesto de independencia
se cumple.