UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FACULTAD DE INGENIERÍA INDUSTRIAL Y SISTEMAS
ESCUELA PROFESIONAL DE INGENIERÍA INDUSTRIAL
TEMA
“EXAMEN FINAL DE ESTADÍSTICA INDUSTRIAL”
AUTOR:
Acero Claros, Valery Alexandra 73002934
Castro Mariano, Diana Carolina 72643591
Romero puertas, Sergio Alejandro 70005920
Villa Lazaro, Gonzalo Pablo 76518534
Chupillon Carbajal Jaime 75947099
Lima, 2021
PERÚ
1
CAPITULO 1: REGRESIÓN LINEAL
Caso:
En la escuela de odontología de la UNMSM, un tesista desea demostrar que cuando un
individuo presenta mayor número de caries dental, este influye para que su saliva aumente
su viscosidad, por ello es que realiza una estimación de su muestra en relación con la
población a estudiar y concluye que evaluara a 41 alumnos de pregrado de su facultad ,
la población universal es de 305 alumnos en el año 2016.
Hipótesis Nula: El número de piezas la cariadas no influye en el aumento de la viscosidad
salival en el individuo
Hipótesis alterna: El número de piezas la cariadas si influye en el aumento de la
viscosidad salival en el individuo
Primero evaluamos los estadísticos descriptivos
Estadísticos descriptivos
Desv.
Media Desviación N
VISCOSIDA 1,2378 ,21213 41
D
CARIES 4,9024 2,36437 41
Y observamos que la media de la viscosidad es de 1,2378 y de la caries es de 4,9024.
MODELO DE REGRESIÓN
Coeficientesa
Coeficient
es Estadísticas
Coeficientes no estandariz de
estandarizados ados Correlaciones colinealidad
Orde
Desv. n Parci Part Tolera
Modelo B Error Beta t Sig. cero al e ncia VIF
1 (Constant 1,023 ,068 15,026 ,000
e)
CARIES ,044 ,013 ,488 3,492 ,001 ,488 ,488 ,488 1,000 1,000
a. Variable dependiente: VISCOSIDAD
b.
Pendiente= 0,044 Constante = 1,023
2
FÓRMULA
Y=1,023+,044X
Debido a que el Sig. Es igual a 0.001 y este es menor al 0.05 se rechaza la hipotesis nula
CUADRO RESUMEN DEL MODELO
Resumen del modelob
Durbin-
R Error Estadísticos de cambio Watson
cuadra estándar Cambio
R do de la en R Sig.
Mode cuadra ajustad estimaci cuadrad Cambi Cambio
lo R do o ón o o en F gl1 gl2 en F
a
1 ,488 ,238 ,219 ,18751 ,238 12,194 1 39 ,001 2,276
a. Predictores: (Constante), CARIES
b. Variable dependiente: VISCOSIDAD
Tenemos un valor de R de 0,488
La bondad de ajuste nos los brinda los siguientes datos
Un valor de R2 que es el coeficiente de determinación, nos presenta con una calidad de
modelo de 0.238 para predecir los resultados y la proporción de varianza que nos sugiere
el modelo; lo que significa que el 23,8% se puede explicar mediante la variable x
Un valor R2 ajustado el cual corrige el valor sobreestimado del valor poblacional de R2
Un valor de error estándar de estimación la cual es la raíz cuadrada de la varianza residual,
cuyo valor es 0,18751, es decir que este valor es la varianza no explicada por el modelo
Con el ANOVA veo la validez del modelo de regresión lineal
ANOVAa
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión ,429 1 ,429 12,194 ,001b
Residuo 1,371 39 ,035
Total 1,800 40
a. Variable dependiente: VISCOSIDAD
b. Predictores: (Constante), CARIES
3
Debido a que el Sig. Es igual a 0.001 y este es menor al 0.05 se rechaza la hipotesis nula
y validamos el modelo de regresión lineal
Correlaciones
VISCOSID
AD CARIES
Correlación de VISCOSIDA 1,000 ,488
Pearson D
CARIES ,488 1,000
Sig. (unilateral) VISCOSIDA . ,001
D
CARIES ,001 .
N VISCOSIDA 41 41
D
CARIES 41 41
Con los datos de correlaciones apreciamos que si hay correlación entre dichas variables
Diagnósticos de colinealidada
Proporciones de
Autovalo Índice de varianza
Modelo Dimensión r condición (Constante) CARIES
1 1 1,903 1,000 ,05 ,05
2 ,097 4,424 ,95 ,95
a. Variable dependiente: VISCOSIDAD
Y para corroborar analizamos los Residuos
La media de los errores sea cero y se distribuyan de manera normal
Estadísticas de residuosa
Desv.
Mínimo Máximo Media Desviación N
Valor pronosticado 1,0669 1,5486 1,2378 ,10353 41
Residuo -,32965 ,75792 ,00000 ,18515 41
4
Desv. Valor -1,651 3,002 ,000 1,000 41
pronosticado
Desv. Residuo -1,758 4,042 ,000 ,987 41
a. Variable dependiente: VISCOSIDAD
Apreciamos el supuesto de alejamiento de normalidad que se compara con la curva
normal con la distribución empírica del histograma
5
Con la gráfica evaluamos la distancia de los puntos representados con respecto a la
diagonal y observamos que la tendencia va según la diagonal, y no hay valores
dispersados
Con este diagrama de dispersión evaluamos la homocesasticidad o igualdad de varianzas,
el cual presenta en patrón aparentemente descendente
CONCLUCIONES
Con todos los datos recabados podemos concluir que debido a que el Sig. Es igual a 0.001
y este es menor al 0.05 se rechaza la hipotesis nula y validamos el modelo de regresión
lineal; lo cual nos quiere decir que ha mayor numero de caries dental hay un aumento en
la viscosidad salival
6
CAPITULO 2: MODELO DE REGRESIÓN MÚLTIPLE
Los siguientes datos muestran las medidas de hemoglobina (gramos por 100 ml) en la
sangre de 40 ejemplares de una especie de truchas marrones. Las truchas se habían
dividido al azar en cuatro grupos de 10 y cada grupo se había asignado, también al azar,
a una de cuatro diferentes dependencias de una piscifactoría. En cada criadero se añadía
a la dieta de los peces una cantidad distinta de sulfamerazina por cada cien libras de
comida. En concreto: 0, 5, 10 y 15 gramos (codificados del 1 al 4). Las mediciones de
hemoglobina se tomaron dependencia después de 35 días.
INTERPRETACIÒN
Cada factor tratamiento (y análogamente cada factor de bloqueo) tendrá su propia
columna en la que se registrarán sus niveles o tratamientos, preferiblemente codificados.
De este modo cada fila de la hoja de datos representará los valores para una unidad
experimental: en una columna figurará la respuesta y en cada una de las otras los niveles
de los factores en los que se obtuvo esa respuesta
El cociente F ha resultado en este ejemplo 5,696 que, en una F con 3 y 36 grados de
libertad, deja a su derecha una cola de probabilidad 0,003 (nivel crítico o p-valor del
contraste ANOVA). Resulta por tanto un contraste significativo a niveles de significación
habituales (0,01, 0,05 o 0,10) y se rechaza la hipótesis de igualdad en los niveles medios
de hemoglobina en sangre con las cuatro cantidades de sulfamerazina estudiadas.
7
ANOVA
A continuación, se describen brevemente los diferentes campos del su cuadro: •
Descriptivos. Proporciona estadísticos descriptivos básicos e intervalos de confianza para
las medias de las respuestas obtenidas con cada nivel del factor tratamiento y en global.
ESTADÍSTICOS DESCRIPTIVOS
INTERPRETACIÓN
Resulta por tanto un contraste significativo a niveles de significación habituales (0,01,
0,05 o 0,10) y se rechaza la hipótesis de igualdad en los niveles medios de hemoglobina
en sangre con las cuatro cantidades de sulfamerazina estudiadas, por lo tanto el intervalo
de confianza que se utilizó el 95% del nivel de confianza.
8
CONCLUSIÓN
Según los estadísticos descriptivos en este caso, la varianza del modelo es la suma de dos
componentes: la varianza residual y la varianza de la población estadística formada por
los niveles del factor. El SPSS proporciona, igual que para efectos fijos, el error estándar
de la respuesta y un intervalo de confianza para la media del modelo construido con este
error estándar y, además, una estimación de la varianza de la población de niveles del
factor tratamiento. La Tabla 1.2 muestra la salida del SPSS cuando se han marcado estos
dos campos.
CORRELACIONES PARCIAL Y SEMIPARCIAL
En el colegio “Los Genios” tenemos una muestra de 20 sujetos y deseamos estudiar el
efecto que tiene sobre la Calificación de una determinada asignatura (𝑌) las siguientes
variables: Inteligencia (𝑋1) Horas de estudio (𝑋2), Clase social (𝑋3) y Sexo (𝑋4):
Si deseamos conocer la correlación parcial de la inteligencia con las calificaciones
eliminando el efecto del nivel social:
9
Mediante es uso del SPSS obtendremos
Correlaciones
Calificació
Variables de control Inteligencia n
Nivel Inteligencia Correlación 1,000 ,623
Social Significación . ,004
(bilateral)
gl 0 17
Calificació Correlación ,623 1,000
n Significación ,004 .
(bilateral)
gl 17 0
Y la correlación parcial de la Inteligencia con la Calificación eliminando el efecto del
Nivel social: 𝑟𝑦 1.3 = 0.623.
Si lo hiciéramos a mano, necesitaríamos las siguientes correlaciones de primer orden:
10
Ahora buscaremos algo parecido estudiar el efecto que tiene sobre la Calificación de una
determinada asignatura (Y) las siguientes variables: Inteligencia (𝑋1) Horas de estudio
(𝑋2) y Nivel social (X3) con la base de datos usada en el problema anterior.
En este caso calcularemos mediante las puntuaciones residuales, la correlación de
Inteligencia y Calificación, eliminando toda influencia del Nivel social.
Así que lo primero que se hace es calcular la ecuación de regresión que liga la variable
X1 (Inteligencia) con X3 (Nivel social). Resulta ser:
11
Coeficientes
Coeficientes
Coeficientes no estandarizado
estandarizados s
Modelo B Desv. Error Beta t Sig.
1 (Constante) 87,840 6,121 14,351 ,000
Nivel Social 7,872 1,876 ,703 4,197 ,001
a. Variable dependiente: Inteligencia
A continuación, restemos a la Inteligencia los valores de esta variable explicados por
Nivel social
En términos de SPSS simplemente son los residuales de esta ecuación (lo que queda de
la inteligencia que no logra explicar el nivel social. Marcamos “Guardar” en el anterior
modelo de regresión.
Y a continuación clic en “Residuos no estandarizados”:
12
Y haciendo lo propio con la variable Y (Calificación). Calculamos la ecuación de
regresión que liga Calificación con Nivel Social. Tenemos:
En términos de SPSS:
Coeficientes
13
Coeficientes
Coeficientes no estandarizado
estandarizados s
Modelo B Desv. Error Beta t Sig.
1 (Constante) 3,355 ,926 3,624 ,002
Nivel Social ,808 ,284 ,557 2,848 ,011
a. Variable dependiente: Calificación
Ahora procederos igual que anteriormente y restaremos de las Calificaciones, aquello
valores ligados con el Nivel social (Y −Y ‘). Haciendo operaciones y efectuando las
siguientes denominac
14
Marcamos “Guardar” en el anterior modelo de regresión y luego residuos no
estandarizados. Así con ello obtuvimos los siguientes datos transformados en los que se
observa los datos residuales 1 y 2.
Calculando la correlación entre ambas variables:
Mediante SPSS
Correlaciones
Unstandardiz Unstandardiz
ed Residual ed Residual
Unstandardized Correlación de 1 ,623**
Residual Pearson
15
Sig. (bilateral) ,003
N 20 20
Unstandardized Correlación de ,623** 1
Residual Pearson
Sig. (bilateral) ,003
N 20 20
**. La correlación es significativa en el nivel 0,01 (bilateral).
CONCLUSIÓN:
Para entender la correlaciòn parcial se debe calcular sus coeficientes ya que ellos
describen la relación existente entre la variables mientras se controlan los efectos de una
o mas variables en este caso vimos la relacion que tienen ciertas variables controlando
mediante la la variable de nivel social para ello nos ayudamos del programa SPSS que
no ayuda de forma practica para evitar hacer calculos engorrosos y entender como se
relacionan mediante Pearson y residuos estandarizados.
Base de datos:
https://docs.google.com/spreadsheets/d/1_2cGPw1C5xij8Wl7MeU3zjUyW8GALY0D/
edit#gid=220154961
VALIDEZ DEL MODELO: DETECCIÓN DE MULTICOLINEALIDAD.
Con la información de la Tabla de datos de la empresa S.J analice el problema de
multicolinealidad
en un modelo en el que la variable Y viene explicada por las variables X 2 y X3 y una
constante.
INTERPRETACIÓN
Con estos datos el primer cálculo mediante un programa de tratamiento estadístico
consistiría en obtener la matriz de correlación lineal entre las tres variables (la endógena
y las dos exógenas). Dicha matriz se muestra en el siguiente cuadro
Matriz Correlaciones
Y X1 X2
Y 1 0.99223021 0.99223239
X1 0.99223021 1 0.99999997
X2 0.99223239 0.99999997 1
16
Como se puede observar ambas variables explicativas están muy correlacionadas con la
endógena, pero también lo están entre ellas, con una correlación que es casi igual a 1.
Aparte de la correlación, podemos calcular el factor de inflación de la varianza. Para ello
realizamos una regresión de la variable X 2 en función de X3. Los resultados de la
estimación realizada se muestran en el siguiente cuadro
Dependent Variable: X2
Method: Least Squares
Sample: 1 35
lncluded observations: 35
Variable Coefficient Std. Error t-Statistic Prob.
C - 9.01E-05 0.000250 -0.360171 0.7210
X3 0.249998 1.1 3E- 05 222085.49 0.0000
R-squared 1.000000 Mean dependent var 5.515941
Adjusted R- 1.000000 S.D. dependent var 0.280455
squared
S.E. of 7.40E- 05 Akaike info criterion - 16.128350
regression
Sum squared 1.81E- 07 Schwarz criterion - 16.039480
resid
Log likelihood 284.246200 F-statistic 4.88E+08
Durbin-Watson 1.711263 Prob (F -statistic) 0.000000
stat
CONCLUSIÓN
A partir de estos resultados podemos ver que la correlación entre ambas variables es igual
a 1. Por lo tanto, y dado que el factor de inflación de la varianza se calcula como y dicho
valor tiende al infinito
1
𝐹𝐼𝑉(𝑋𝑗) =
1 − 𝑅2
De esta forma hemos comprobado por dos métodos diferentes que la estimación del
modelo propuesto está sujeta a la presencia de multicolinealidad aproximada muy alta,
casi exacta.
Base de datos:
https://docs.google.com/spreadsheets/d/1p86G5bPh0G9M7Lnf5Vv2ho9Qdtove_sR/edit
#gid=2052537254
17
CAPITULO 3: PRUEBAS NO PARAMETRICAS
PRUEBA DE INDEPENDENCIA (chi cuadrado).
Con la finalidad de innovar el producto que ofrecen a sus clientes, el jefe de marketing
de una importante compañía probó un nuevo empaque de presentación para evaluar si el
cliente asocia la calidad del producto con el nuevo empaque. Para lo cual se tomó una
muestra de 150 consumidores obteniéndose el número de productos que adquirieron:
CALIDAD
Nuevo empaque Bueno Regular Malo Total
Moderno 20 7 3 30
Fácil de abrir 13 51 16 80
Resistente 7 12 21 40
Total 40 70 40 150
A un nivel de significancia de 3% y con la información recopilada en la tabla ¿el jefe de
marketing podría afirmar que existe una asociación entre la calidad del producto y el
nuevo empaque?
SOLUCIÓN
PASO 1 : HIPÓTESIS
Ho: No existe asociación entre la calidad del producto y el nuevo empaque.
H1: Existe asociación entre la calidad del producto y el nuevo empaque.
PASO 2 : NIVEL DE SIGNIFICANCIA
α = 0.03
PASO 3 : ESTADÍSTICA DE PRUEBA
Para hallar la frecuencia esperada en cada recuadro aplicaremos el numero total de la fila
multiplicado por el numero total de la columna, todo dividido entre la suma total que en
este caso seria 150.
A continuación obtenemos las frecuencias esperadas para cada valor observado.
18
Ahora necesitamos hallar las contribuciones par poder determinar el estadístico, con la
formula valor observado menos el valor esperado , toto elevado al cuadrado y dividido
entre el valor esperado.
Aplicamos la sumatoria de los resultados obtenidos
19
PASO 4 : REGLA DE DECISIÓN
La zona de rechazo representa un 3% y la zona de no rechazo el complemento un 97%.
El grado d libertad se determina por fila menos uno por columna menos uno, con 4 grados
de libertad. En base a eso hallamos el valor critico usando el comando
=inv.chicuad.cd(probabilidad ; grados de libertad) en Excel , obteniendo 10.7119.
El estadístico es 47.86 se encuentra en la zona de rechazo en la zona roja.
PASO 5 : DESICIÓN
Se rechaza la hipótesis nula.
PASO 6 : CONCLUSIÓN
Con un nivel de significancia del 3%, se afirma que existe asociación entre la calidad del
producto y el nuevo empaque.
DISTRIBUCIÓN BINOMIAL Y POISSON
Backus reporta que actualmente el Perú es el país con mayor demanda de cerveza en la
región y va en tendencia creciente. Por tal motivo están considerando realizar una feria
de cerveza llamada October Fest, donde los asistentes disfrutarán de una variedad de
cervezas y platos típicos de la gastronomía peruana.
a) La probabilidad de que más de 7 clientes de cierto supermercado consume cerveza, de
una muestra de 20 clientes, sea superior al 70%. Teniendo en cuenta que la probabilidad
de que un cliente consuma cerveza es del 40%.
Distribución Binomial
1. Se define la variable X
X: número de clientes que consumen cerveza
2. Parámetros
n = 20 (muestra de clientes)
p = 0.40 (porcentaje de consumo de cerveza)
20
3. Probabilidad
En este paso usaremos el comando en Excel:
=DISTR.BINOM.N(núm_éxito;ensayos;prob_éxito;acumulado)
=DISTR.BINOM.N(7;20;0.4;VERDADERO)=0.4159= 41.59%
La probabilidad de que mas de 7 clientes consuman cerveza en un supermercado es de
58.41%.
No cumple la primera condición ya que la P(X>7)=58.41% es menor al 70%.
b) La probabilidad de que se vendan más de 8 cajas de cerveza en un día en cierto
supermercado es del 60%. Si se ha observado que las cajas de cerveza que se venden en
cierto supermercado es de 70 cajas por semana.
POISSON
1. Se define la variable X
X: Número de cajas de cerveza compradas por hora en un supermercado.
2.Parámetro
λ = 10 ( Número de cajas por día)
3. Probabilidad
En este paso usaremos el comando en Excel :
=POISSON.DIST(X;media;acumulado)
= POISSON.DIST(8;10;VERDADERO)= 0.3328=33.28%
Si cumple con la condición que la probabilidad de que se vendan mas de 8 cajas en un
supermercado superando el 60% de la condición.
c) Backus ¿qué decisión tomará respecto a la realización del festival de la cerveza October
Fest?
Backus NO realizará el festival de la cerveza October Fest porque no se cumplió con la
primera condición que indicaba que la probabilidad de que más de 7 clientes de cierto
21
supermercado consuman cerveza, de una muestra de 20 clientes, sea mayor al 70%, ya
que se obtuvo 58.41 %.
Solo se cumplió la segunda condición de que la probabilidad de que en un día se vendan
más de 8 cajas de cervezas en cierto supermercado sea más del 60%, (66.72%).
DISTRIBUCIÓN NORMAL
Cada año Chevrolet contrata cerca de 400 empleados nuevos para sus cuatro fábricas en
EEUU. El director de personal se pregunta si la población de las puntuaciones en los
exámenes de los solicitantes tendrá una distribución normal.
Se muestra la puntuación obtenida por los integrantes de una muestra aleatoria de 50
solicitantes de empleo en la prueba de aptitudes de Chevrolet.
71 66 61 65 54 93 60 86 70 70
73 73 55 63 56 62 76 54 82 79
64 61 61 56 80 85 58 53 68 76
65 62 90 69 76 79 77 54 64 74
65 65 61 56 63 80 56 71 79 84
Promedio= 68.42 , n=50
Desviación = 10.41406
1. HIPÓTESIS
Ho: Las puntuaciones de los exámenes de los empleados de Chevrolet siguen una
distribución normal con media 68.42 y desviación estándar de 10.41406
H1: La población no tiene una distribución normal.
2.TOMAR MUESTRA ALEATORIA
Definir intervalos de valores de manera que la frecuencia esperada en cada intervalo sea
por lo menos cinco. Usar intervalos de igual probabilidad es un buen enfoque.
Para hallar Z usaremos el comando en Excel:
=distr.norm.estand.inv(probabilidad)
La puntuación de examen lo hallamos con =(z*desviación)+ la media ; donde:
Desviación = 10.41406
media= 68.42
22
Calcular el número esperado de ocurrencias en cada uno de los intervalos de valores
definidos. Multiplicar el tamaño de la muestra por la probabilidad de que una variable
aleatoria normal pertenezca al intervalo.
La frecuencia observada lo contamos de acuerdo a los intervalos de notas en la tabla
principal, y la frecuencia esperada es en cada caso el 10% * 50 que es el numero de la
muestra.
Todos estos datos nos ayudaran a hallar el chi cuadrado.
23
Probabilidad
La regla del rechazo nos indica si esto es menor a 0.05 o el valor especificado se rechaza
la hipotesis nula
CONCLUSIÓN
No es posible rechazar la hipótesis de que las puntuaciones obtenidas por los empleados
siguen una distribución normal con media de 68.42 y desviación estándar de 10.41.
24
CAPITULO 4: PRUEBA DE RANGOS CON SIGNO DE WILCOXON
Se tienen 153 sillas que se compraron hace 1 año atrás a un proveedor nuevo, las cuales
se midieron sus alturas cuando estaban nuevas, ahora se decidio volverlas a medir para
saber si en 1año de uso debido al uso han disminuido su altura o siguen de la misma
altura, esto con el fin de volver comprarle sillas al mismo proveedor o comprarle a otro.
Hipótesis:
H0: No hay diferencias entre las medidas de las alturas sillas compradas hace 1 año
atrás antes y las tomadas ahora.
H1: Hay diferencias entre las medidas de las alturas sillas compradas hace 1 año
atrás antes y las tomadas ahora.
Estadísticos descriptivos
Percentiles
Desv. Mínim Máxim 50
N Media Desviación o o 25 (Mediana) 75
SILLAS 1 año 153 44,202 17,35366 14,00 89,00 39,500 46,0000 51,000
atras 6 0 0
SILLAS 153 52,630 5,60919 35,00 66,00 48,500 53,0000 56,500
ahora 7 0 0
Prueba de rangos con signo de Wilcoxon
Rangos
Rango Suma de
N promedio rangos
SILLAS ahora – Rangos negativos 38a 65,16 2476,00
SILLAS 1 año atrás Rangos positivos 110b 77,73 8550,00
Empates 5c
Total 153
a. SILLAS ahora < SILLAS 1 año atrás
b. SILLAS ahora > SILLAS 1 año atrás
c. SILLAS ahora = SILLAS 1 año atrás
25
Estadísticos de pruebaa
SILLAS
ahora –
SILLAS 1año
atrás
Z -5,815b
Sig. ,000
asintótica(bilateral)
a. Prueba de rangos con signo de
Wilcoxon
b. Se basa en rangos negativos.
Prueba de los signos
Frecuencias
N
SILLAS ahora – Diferencias 38
SILLAS 1 año atrás negativasa
Diferencias positivasb 110
Empatesc 5
Total 153
a. SILLAS ahora < SILLAS 1 año atrás
b. SILLAS ahora > SILLAS 1 año atrás
c. SILLAS ahora = SILLAS 1 año atrás
Estadísticos de pruebaa
SILLAS ahora-
SILLAS 1 año
atrás
Z -5,836
Sig. asintótica(bilateral) ,000
a. Prueba de los signos
INTERPRETACIÓN:
En la tabla titulada “Rangos” vemos que se analizaron 153 pares (las 153 sillas que se
estudiaron). Hubo 38 rangos negativos, 110 positivos y 5 empates.
26
En la tabla titulada “Estadísticos de contrastes” se observa la fila Sig. asintót.
(biateral) y su valor de 0,000.
Podemos decir que, como el valor de p (Sig. asintót. (biateral)) es menor que 0,05,
entonces se rechaza la hipótesis nula y se concluye que hay evidencias suficientes
para plantear que las alturas de la silla han variado en 1 año con un nivel de
significación del 5%.
PRUEBA DE U DE MANN-WHITNEY
Se desea conocer si el tamaño de la atura de las sillas varían en relación al tipo de silla,
para lo cual seleccionaron dos muestras aleatorias, una constituida por 153 sillas de
madera y la otra por153 sillas de plástico. Pruebe la hipótesis de que las sillas de madera
y de plástico difieren en ambos grupos. Use α = 0.05.
Hipótesis:
H0: Med sillas = Medsillasplastico
H1: Medsillas ≠ Medsillasplastico
donde:
Medsillas: mediana de sillas
Medsillasplastico: mediana de sillas de plastico
Rangos
Rango Suma de
GRUPO N promedio rangos
SILLAS 1,00 75 77,79 5834,50
2,00 78 76,24 5946,50
Total 153
Estadísticos de pruebaa
SILLAS
U de Mann-Whitney 2865,500
W de Wilcoxon 5946,500
Z -,218
Sig. ,828
asintótica(bilateral)
a. Variable de agrupación: GRUPO
INTERPRETACIÓN:
Como puede apreciarse el estadígrafo de U de Mann-Whitney fue de 2865,500 y el valor
de p (Sig. asintót. (bilateral)) es ,828 por lo que se acepta la hipótesis nula y se concluye
que la altura de las sillas de madera y las de plastico no difieren, con un nivel de
significación del 5%.
27
PRUEBA DE H DE KRUSKAL-WALLIS
Se desea determinar si las medidas de las alturas de las sillas de 3 tipos de sillas de
madera difieren entre sí, para lo cual se hicieron las determinaciones que se
expresan a continuación:
Hipótesis:
H0: Med1= Med2=Med3
H1: Medi ≠ Medj al menos para un par (i,j)
Hipótesis:
H0: Las muestras provienen de poblaciones idénticas
H1: Las muestras provienen de poblaciones diferentes
Rangos
Rango
GRUPOS N promedio
SILLA 1,00 51 98,33
S 2,00 51 71,85
3,00 51 60,81
Total 153
Estadísticos de pruebaa,b
SILLAS
H de Kruskal- 19,347
Wallis
gl 2
Sig. asintótica ,000
a. Prueba de Kruskal Wallis
b. Variable de agrupación:
GRUPOS
INTERPRETACIÓN:
En la tabla titulada “Rangos” vemos que se analizaron 153 alturas de sillas , 51en cada
grupo. El rango promedio mayor fue para el Grupo 1, en tanto el menor fue para el Grupo
3.
28
En la tabla titulada “Estadístico de contraste” se observa el valor del estadístico H, que
para 2 grados de libertad fue de 19,347. Se observa en la fila Sig. asintót. y su valor de
0,000.
Podemos decir que, como el valor de p (Sig. asintót.) es menor que 0,05, entonces se
rechaza la hipótesis nula y se concluye que con un nivel de significación del 5%, la altura
de las sillas difiere entre los 3 cuatro tipos de sillas
.
Ahora deberá realizarse la prueba Kruskal-Wallis a posteriori para ver dónde están las
verdaderas diferencias
PRUEBAS NO PARAMÉTRICAS PRUEBA DE KRUSKAL-WALLIS A POST
HOC
Resumen de contrastes de hipótesis
Hipótesis nula Prueba Sig. Decisión
1 La distribución de Prueba de Kruskal- ,000 Rechace la hipótesis
SILLAS es la misma Wallis para muestras nula.
entre categorías de independientes
GRUPOS.
Se muestran significaciones asintóticas. El nivel de significación es de ,050.
Prueba de Kruskal-Wallis para muestras independientes
Sillas entre grupos
Resumen de prueba Kruskal-Wallis de
muestras independientes
N total 153
Estadístico de prueba 19,347a
Grado de libertad 2
Sig. asintótica (prueba ,000
bilateral)
a. Las estadísticas de prueba se ajustan para
empates.
29
Comparaciones por parejas de GRUPOS
Desv.
Estadístico de Desv. Estadístico de
Sample 1-Sample 2 prueba Error prueba Sig. Sig. ajustadaa
3,00-2,00 11,039 8,767 1,259 ,208 ,624
3,00-1,00 37,520 8,767 4,279 ,000 ,000
2,00-1,00 26,480 8,767 3,020 ,003 ,008
Cada fila prueba la hipótesis nula que las distribuciones de la Muestra 1 y la Muestra 2 son
iguales.
Se visualizan las significaciones asintóticas (pruebas bilaterales). El nivel de significación
es de ,05.
a. Los valores de significación se han ajustado mediante la corrección Bonferroni para
varias pruebas.
30
31
INTERPRETACION
En la Prueba Post Hoc de Bonferroni de Kruskal-Wallis,se aprecian diferencias
estadísticamente significativas al 5% de nivel de significación entre los tratamientos 3
-1 y 2-1 (p-valor<0,05 ).
32