Está en la página 1de 32

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

FACULTAD DE INGENIERÍA INDUSTRIAL Y SISTEMAS

ESCUELA PROFESIONAL DE INGENIERÍA INDUSTRIAL

TEMA

“EXAMEN FINAL DE ESTADÍSTICA INDUSTRIAL”

AUTOR:

Acero Claros, Valery Alexandra 73002934

Castro Mariano, Diana Carolina 72643591

Romero puertas, Sergio Alejandro 70005920

Villa Lazaro, Gonzalo Pablo 76518534

Chupillon Carbajal Jaime 75947099

Lima, 2021

PERÚ

1
CAPITULO 1: REGRESIÓN LINEAL

Caso:

En la escuela de odontología de la UNMSM, un tesista desea demostrar que cuando un


individuo presenta mayor número de caries dental, este influye para que su saliva aumente
su viscosidad, por ello es que realiza una estimación de su muestra en relación con la
población a estudiar y concluye que evaluara a 41 alumnos de pregrado de su facultad ,
la población universal es de 305 alumnos en el año 2016.

Hipótesis Nula: El número de piezas la cariadas no influye en el aumento de la viscosidad


salival en el individuo
Hipótesis alterna: El número de piezas la cariadas si influye en el aumento de la
viscosidad salival en el individuo

Primero evaluamos los estadísticos descriptivos

Estadísticos descriptivos
Desv.
Media Desviación N
VISCOSIDA 1,2378 ,21213 41
D
CARIES 4,9024 2,36437 41
Y observamos que la media de la viscosidad es de 1,2378 y de la caries es de 4,9024.
MODELO DE REGRESIÓN

Coeficientesa
Coeficient
es Estadísticas
Coeficientes no estandariz de
estandarizados ados Correlaciones colinealidad
Orde
Desv. n Parci Part Tolera
Modelo B Error Beta t Sig. cero al e ncia VIF
1 (Constant 1,023 ,068 15,026 ,000
e)
CARIES ,044 ,013 ,488 3,492 ,001 ,488 ,488 ,488 1,000 1,000
a. Variable dependiente: VISCOSIDAD
b.

Pendiente= 0,044 Constante = 1,023

2
FÓRMULA
Y=1,023+,044X

Debido a que el Sig. Es igual a 0.001 y este es menor al 0.05 se rechaza la hipotesis nula

CUADRO RESUMEN DEL MODELO

Resumen del modelob


Durbin-
R Error Estadísticos de cambio Watson
cuadra estándar Cambio
R do de la en R Sig.
Mode cuadra ajustad estimaci cuadrad Cambi Cambio
lo R do o ón o o en F gl1 gl2 en F
a
1 ,488 ,238 ,219 ,18751 ,238 12,194 1 39 ,001 2,276
a. Predictores: (Constante), CARIES
b. Variable dependiente: VISCOSIDAD

Tenemos un valor de R de 0,488

La bondad de ajuste nos los brinda los siguientes datos


Un valor de R2 que es el coeficiente de determinación, nos presenta con una calidad de
modelo de 0.238 para predecir los resultados y la proporción de varianza que nos sugiere
el modelo; lo que significa que el 23,8% se puede explicar mediante la variable x

Un valor R2 ajustado el cual corrige el valor sobreestimado del valor poblacional de R2

Un valor de error estándar de estimación la cual es la raíz cuadrada de la varianza residual,


cuyo valor es 0,18751, es decir que este valor es la varianza no explicada por el modelo

Con el ANOVA veo la validez del modelo de regresión lineal


ANOVAa
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión ,429 1 ,429 12,194 ,001b
Residuo 1,371 39 ,035
Total 1,800 40
a. Variable dependiente: VISCOSIDAD
b. Predictores: (Constante), CARIES

3
Debido a que el Sig. Es igual a 0.001 y este es menor al 0.05 se rechaza la hipotesis nula
y validamos el modelo de regresión lineal

Correlaciones
VISCOSID
AD CARIES
Correlación de VISCOSIDA 1,000 ,488
Pearson D
CARIES ,488 1,000
Sig. (unilateral) VISCOSIDA . ,001
D
CARIES ,001 .
N VISCOSIDA 41 41
D
CARIES 41 41

Con los datos de correlaciones apreciamos que si hay correlación entre dichas variables

Diagnósticos de colinealidada
Proporciones de
Autovalo Índice de varianza
Modelo Dimensión r condición (Constante) CARIES
1 1 1,903 1,000 ,05 ,05
2 ,097 4,424 ,95 ,95
a. Variable dependiente: VISCOSIDAD

Y para corroborar analizamos los Residuos


La media de los errores sea cero y se distribuyan de manera normal

Estadísticas de residuosa
Desv.
Mínimo Máximo Media Desviación N
Valor pronosticado 1,0669 1,5486 1,2378 ,10353 41
Residuo -,32965 ,75792 ,00000 ,18515 41

4
Desv. Valor -1,651 3,002 ,000 1,000 41
pronosticado
Desv. Residuo -1,758 4,042 ,000 ,987 41
a. Variable dependiente: VISCOSIDAD

Apreciamos el supuesto de alejamiento de normalidad que se compara con la curva


normal con la distribución empírica del histograma

5
Con la gráfica evaluamos la distancia de los puntos representados con respecto a la
diagonal y observamos que la tendencia va según la diagonal, y no hay valores
dispersados

Con este diagrama de dispersión evaluamos la homocesasticidad o igualdad de varianzas,


el cual presenta en patrón aparentemente descendente

CONCLUCIONES
Con todos los datos recabados podemos concluir que debido a que el Sig. Es igual a 0.001
y este es menor al 0.05 se rechaza la hipotesis nula y validamos el modelo de regresión
lineal; lo cual nos quiere decir que ha mayor numero de caries dental hay un aumento en
la viscosidad salival

6
CAPITULO 2: MODELO DE REGRESIÓN MÚLTIPLE

Los siguientes datos muestran las medidas de hemoglobina (gramos por 100 ml) en la
sangre de 40 ejemplares de una especie de truchas marrones. Las truchas se habían
dividido al azar en cuatro grupos de 10 y cada grupo se había asignado, también al azar,
a una de cuatro diferentes dependencias de una piscifactoría. En cada criadero se añadía
a la dieta de los peces una cantidad distinta de sulfamerazina por cada cien libras de
comida. En concreto: 0, 5, 10 y 15 gramos (codificados del 1 al 4). Las mediciones de
hemoglobina se tomaron dependencia después de 35 días.

INTERPRETACIÒN
Cada factor tratamiento (y análogamente cada factor de bloqueo) tendrá su propia
columna en la que se registrarán sus niveles o tratamientos, preferiblemente codificados.
De este modo cada fila de la hoja de datos representará los valores para una unidad
experimental: en una columna figurará la respuesta y en cada una de las otras los niveles
de los factores en los que se obtuvo esa respuesta

El cociente F ha resultado en este ejemplo 5,696 que, en una F con 3 y 36 grados de


libertad, deja a su derecha una cola de probabilidad 0,003 (nivel crítico o p-valor del
contraste ANOVA). Resulta por tanto un contraste significativo a niveles de significación
habituales (0,01, 0,05 o 0,10) y se rechaza la hipótesis de igualdad en los niveles medios
de hemoglobina en sangre con las cuatro cantidades de sulfamerazina estudiadas.

7
ANOVA

A continuación, se describen brevemente los diferentes campos del su cuadro: •


Descriptivos. Proporciona estadísticos descriptivos básicos e intervalos de confianza para
las medias de las respuestas obtenidas con cada nivel del factor tratamiento y en global.

ESTADÍSTICOS DESCRIPTIVOS

INTERPRETACIÓN
Resulta por tanto un contraste significativo a niveles de significación habituales (0,01,
0,05 o 0,10) y se rechaza la hipótesis de igualdad en los niveles medios de hemoglobina
en sangre con las cuatro cantidades de sulfamerazina estudiadas, por lo tanto el intervalo
de confianza que se utilizó el 95% del nivel de confianza.

8
CONCLUSIÓN

Según los estadísticos descriptivos en este caso, la varianza del modelo es la suma de dos
componentes: la varianza residual y la varianza de la población estadística formada por
los niveles del factor. El SPSS proporciona, igual que para efectos fijos, el error estándar
de la respuesta y un intervalo de confianza para la media del modelo construido con este
error estándar y, además, una estimación de la varianza de la población de niveles del
factor tratamiento. La Tabla 1.2 muestra la salida del SPSS cuando se han marcado estos
dos campos.

CORRELACIONES PARCIAL Y SEMIPARCIAL


En el colegio “Los Genios” tenemos una muestra de 20 sujetos y deseamos estudiar el
efecto que tiene sobre la Calificación de una determinada asignatura (𝑌) las siguientes
variables: Inteligencia (𝑋1) Horas de estudio (𝑋2), Clase social (𝑋3) y Sexo (𝑋4):
Si deseamos conocer la correlación parcial de la inteligencia con las calificaciones
eliminando el efecto del nivel social:

9
Mediante es uso del SPSS obtendremos
Correlaciones
Calificació
Variables de control Inteligencia n
Nivel Inteligencia Correlación 1,000 ,623
Social Significación . ,004
(bilateral)
gl 0 17
Calificació Correlación ,623 1,000
n Significación ,004 .
(bilateral)
gl 17 0

Y la correlación parcial de la Inteligencia con la Calificación eliminando el efecto del

Nivel social: 𝑟𝑦 1.3 = 0.623.


Si lo hiciéramos a mano, necesitaríamos las siguientes correlaciones de primer orden:

10
Ahora buscaremos algo parecido estudiar el efecto que tiene sobre la Calificación de una

determinada asignatura (Y) las siguientes variables: Inteligencia (𝑋1) Horas de estudio
(𝑋2) y Nivel social (X3) con la base de datos usada en el problema anterior.
En este caso calcularemos mediante las puntuaciones residuales, la correlación de
Inteligencia y Calificación, eliminando toda influencia del Nivel social.
Así que lo primero que se hace es calcular la ecuación de regresión que liga la variable
X1 (Inteligencia) con X3 (Nivel social). Resulta ser:

11
Coeficientes
Coeficientes
Coeficientes no estandarizado
estandarizados s
Modelo B Desv. Error Beta t Sig.
1 (Constante) 87,840 6,121 14,351 ,000
Nivel Social 7,872 1,876 ,703 4,197 ,001
a. Variable dependiente: Inteligencia

A continuación, restemos a la Inteligencia los valores de esta variable explicados por


Nivel social

En términos de SPSS simplemente son los residuales de esta ecuación (lo que queda de
la inteligencia que no logra explicar el nivel social. Marcamos “Guardar” en el anterior
modelo de regresión.

Y a continuación clic en “Residuos no estandarizados”:

12
Y haciendo lo propio con la variable Y (Calificación). Calculamos la ecuación de
regresión que liga Calificación con Nivel Social. Tenemos:
En términos de SPSS:

Coeficientes

13
Coeficientes
Coeficientes no estandarizado
estandarizados s
Modelo B Desv. Error Beta t Sig.
1 (Constante) 3,355 ,926 3,624 ,002
Nivel Social ,808 ,284 ,557 2,848 ,011
a. Variable dependiente: Calificación

Ahora procederos igual que anteriormente y restaremos de las Calificaciones, aquello


valores ligados con el Nivel social (Y −Y ‘). Haciendo operaciones y efectuando las
siguientes denominac

14
Marcamos “Guardar” en el anterior modelo de regresión y luego residuos no

estandarizados. Así con ello obtuvimos los siguientes datos transformados en los que se
observa los datos residuales 1 y 2.
Calculando la correlación entre ambas variables:
Mediante SPSS

Correlaciones
Unstandardiz Unstandardiz
ed Residual ed Residual
Unstandardized Correlación de 1 ,623**
Residual Pearson

15
Sig. (bilateral) ,003
N 20 20
Unstandardized Correlación de ,623** 1
Residual Pearson
Sig. (bilateral) ,003
N 20 20
**. La correlación es significativa en el nivel 0,01 (bilateral).

CONCLUSIÓN:
Para entender la correlaciòn parcial se debe calcular sus coeficientes ya que ellos
describen la relación existente entre la variables mientras se controlan los efectos de una
o mas variables en este caso vimos la relacion que tienen ciertas variables controlando
mediante la la variable de nivel social para ello nos ayudamos del programa SPSS que
no ayuda de forma practica para evitar hacer calculos engorrosos y entender como se
relacionan mediante Pearson y residuos estandarizados.

Base de datos:
https://docs.google.com/spreadsheets/d/1_2cGPw1C5xij8Wl7MeU3zjUyW8GALY0D/
edit#gid=220154961

VALIDEZ DEL MODELO: DETECCIÓN DE MULTICOLINEALIDAD.


Con la información de la Tabla de datos de la empresa S.J analice el problema de
multicolinealidad
en un modelo en el que la variable Y viene explicada por las variables X 2 y X3 y una
constante.

INTERPRETACIÓN
Con estos datos el primer cálculo mediante un programa de tratamiento estadístico
consistiría en obtener la matriz de correlación lineal entre las tres variables (la endógena
y las dos exógenas). Dicha matriz se muestra en el siguiente cuadro
Matriz Correlaciones
Y X1 X2
Y 1 0.99223021 0.99223239
X1 0.99223021 1 0.99999997
X2 0.99223239 0.99999997 1

16
Como se puede observar ambas variables explicativas están muy correlacionadas con la
endógena, pero también lo están entre ellas, con una correlación que es casi igual a 1.
Aparte de la correlación, podemos calcular el factor de inflación de la varianza. Para ello
realizamos una regresión de la variable X 2 en función de X3. Los resultados de la
estimación realizada se muestran en el siguiente cuadro
Dependent Variable: X2
Method: Least Squares
Sample: 1 35
lncluded observations: 35
Variable Coefficient Std. Error t-Statistic Prob.
C - 9.01E-05 0.000250 -0.360171 0.7210
X3 0.249998 1.1 3E- 05 222085.49 0.0000
R-squared 1.000000 Mean dependent var 5.515941
Adjusted R- 1.000000 S.D. dependent var 0.280455
squared
S.E. of 7.40E- 05 Akaike info criterion - 16.128350
regression
Sum squared 1.81E- 07 Schwarz criterion - 16.039480
resid
Log likelihood 284.246200 F-statistic 4.88E+08
Durbin-Watson 1.711263 Prob (F -statistic) 0.000000
stat

CONCLUSIÓN
A partir de estos resultados podemos ver que la correlación entre ambas variables es igual
a 1. Por lo tanto, y dado que el factor de inflación de la varianza se calcula como y dicho
valor tiende al infinito
1
𝐹𝐼𝑉(𝑋𝑗) =
1 − 𝑅2
De esta forma hemos comprobado por dos métodos diferentes que la estimación del
modelo propuesto está sujeta a la presencia de multicolinealidad aproximada muy alta,
casi exacta.

Base de datos:
https://docs.google.com/spreadsheets/d/1p86G5bPh0G9M7Lnf5Vv2ho9Qdtove_sR/edit
#gid=2052537254

17
CAPITULO 3: PRUEBAS NO PARAMETRICAS

PRUEBA DE INDEPENDENCIA (chi cuadrado).


Con la finalidad de innovar el producto que ofrecen a sus clientes, el jefe de marketing
de una importante compañía probó un nuevo empaque de presentación para evaluar si el
cliente asocia la calidad del producto con el nuevo empaque. Para lo cual se tomó una
muestra de 150 consumidores obteniéndose el número de productos que adquirieron:
CALIDAD
Nuevo empaque Bueno Regular Malo Total
Moderno 20 7 3 30
Fácil de abrir 13 51 16 80
Resistente 7 12 21 40
Total 40 70 40 150

A un nivel de significancia de 3% y con la información recopilada en la tabla ¿el jefe de


marketing podría afirmar que existe una asociación entre la calidad del producto y el
nuevo empaque?
SOLUCIÓN
PASO 1 : HIPÓTESIS
Ho: No existe asociación entre la calidad del producto y el nuevo empaque.
H1: Existe asociación entre la calidad del producto y el nuevo empaque.
PASO 2 : NIVEL DE SIGNIFICANCIA
α = 0.03
PASO 3 : ESTADÍSTICA DE PRUEBA

Para hallar la frecuencia esperada en cada recuadro aplicaremos el numero total de la fila
multiplicado por el numero total de la columna, todo dividido entre la suma total que en
este caso seria 150.

A continuación obtenemos las frecuencias esperadas para cada valor observado.

18
Ahora necesitamos hallar las contribuciones par poder determinar el estadístico, con la
formula valor observado menos el valor esperado , toto elevado al cuadrado y dividido
entre el valor esperado.

Aplicamos la sumatoria de los resultados obtenidos

19
PASO 4 : REGLA DE DECISIÓN
La zona de rechazo representa un 3% y la zona de no rechazo el complemento un 97%.
El grado d libertad se determina por fila menos uno por columna menos uno, con 4 grados
de libertad. En base a eso hallamos el valor critico usando el comando
=inv.chicuad.cd(probabilidad ; grados de libertad) en Excel , obteniendo 10.7119.
El estadístico es 47.86 se encuentra en la zona de rechazo en la zona roja.

PASO 5 : DESICIÓN
Se rechaza la hipótesis nula.

PASO 6 : CONCLUSIÓN
Con un nivel de significancia del 3%, se afirma que existe asociación entre la calidad del
producto y el nuevo empaque.

DISTRIBUCIÓN BINOMIAL Y POISSON

Backus reporta que actualmente el Perú es el país con mayor demanda de cerveza en la
región y va en tendencia creciente. Por tal motivo están considerando realizar una feria
de cerveza llamada October Fest, donde los asistentes disfrutarán de una variedad de
cervezas y platos típicos de la gastronomía peruana.
a) La probabilidad de que más de 7 clientes de cierto supermercado consume cerveza, de
una muestra de 20 clientes, sea superior al 70%. Teniendo en cuenta que la probabilidad
de que un cliente consuma cerveza es del 40%.
Distribución Binomial
1. Se define la variable X
X: número de clientes que consumen cerveza
2. Parámetros
n = 20 (muestra de clientes)
p = 0.40 (porcentaje de consumo de cerveza)

20
3. Probabilidad
En este paso usaremos el comando en Excel:
=DISTR.BINOM.N(núm_éxito;ensayos;prob_éxito;acumulado)
=DISTR.BINOM.N(7;20;0.4;VERDADERO)=0.4159= 41.59%

La probabilidad de que mas de 7 clientes consuman cerveza en un supermercado es de


58.41%.
No cumple la primera condición ya que la P(X>7)=58.41% es menor al 70%.

b) La probabilidad de que se vendan más de 8 cajas de cerveza en un día en cierto


supermercado es del 60%. Si se ha observado que las cajas de cerveza que se venden en
cierto supermercado es de 70 cajas por semana.
POISSON
1. Se define la variable X
X: Número de cajas de cerveza compradas por hora en un supermercado.
2.Parámetro
λ = 10 ( Número de cajas por día)
3. Probabilidad
En este paso usaremos el comando en Excel :
=POISSON.DIST(X;media;acumulado)
= POISSON.DIST(8;10;VERDADERO)= 0.3328=33.28%

Si cumple con la condición que la probabilidad de que se vendan mas de 8 cajas en un


supermercado superando el 60% de la condición.
c) Backus ¿qué decisión tomará respecto a la realización del festival de la cerveza October
Fest?
Backus NO realizará el festival de la cerveza October Fest porque no se cumplió con la
primera condición que indicaba que la probabilidad de que más de 7 clientes de cierto

21
supermercado consuman cerveza, de una muestra de 20 clientes, sea mayor al 70%, ya
que se obtuvo 58.41 %.
Solo se cumplió la segunda condición de que la probabilidad de que en un día se vendan
más de 8 cajas de cervezas en cierto supermercado sea más del 60%, (66.72%).

DISTRIBUCIÓN NORMAL

Cada año Chevrolet contrata cerca de 400 empleados nuevos para sus cuatro fábricas en
EEUU. El director de personal se pregunta si la población de las puntuaciones en los
exámenes de los solicitantes tendrá una distribución normal.
Se muestra la puntuación obtenida por los integrantes de una muestra aleatoria de 50
solicitantes de empleo en la prueba de aptitudes de Chevrolet.
71 66 61 65 54 93 60 86 70 70
73 73 55 63 56 62 76 54 82 79
64 61 61 56 80 85 58 53 68 76
65 62 90 69 76 79 77 54 64 74
65 65 61 56 63 80 56 71 79 84

Promedio= 68.42 , n=50


Desviación = 10.41406
1. HIPÓTESIS
Ho: Las puntuaciones de los exámenes de los empleados de Chevrolet siguen una
distribución normal con media 68.42 y desviación estándar de 10.41406
H1: La población no tiene una distribución normal.
2.TOMAR MUESTRA ALEATORIA
Definir intervalos de valores de manera que la frecuencia esperada en cada intervalo sea
por lo menos cinco. Usar intervalos de igual probabilidad es un buen enfoque.
Para hallar Z usaremos el comando en Excel:
=distr.norm.estand.inv(probabilidad)
La puntuación de examen lo hallamos con =(z*desviación)+ la media ; donde:

Desviación = 10.41406
media= 68.42

22
Calcular el número esperado de ocurrencias en cada uno de los intervalos de valores
definidos. Multiplicar el tamaño de la muestra por la probabilidad de que una variable
aleatoria normal pertenezca al intervalo.
La frecuencia observada lo contamos de acuerdo a los intervalos de notas en la tabla
principal, y la frecuencia esperada es en cada caso el 10% * 50 que es el numero de la
muestra.
Todos estos datos nos ayudaran a hallar el chi cuadrado.

23
Probabilidad

La regla del rechazo nos indica si esto es menor a 0.05 o el valor especificado se rechaza
la hipotesis nula

CONCLUSIÓN

No es posible rechazar la hipótesis de que las puntuaciones obtenidas por los empleados
siguen una distribución normal con media de 68.42 y desviación estándar de 10.41.

24
CAPITULO 4: PRUEBA DE RANGOS CON SIGNO DE WILCOXON

Se tienen 153 sillas que se compraron hace 1 año atrás a un proveedor nuevo, las cuales
se midieron sus alturas cuando estaban nuevas, ahora se decidio volverlas a medir para
saber si en 1año de uso debido al uso han disminuido su altura o siguen de la misma
altura, esto con el fin de volver comprarle sillas al mismo proveedor o comprarle a otro.
Hipótesis:
H0: No hay diferencias entre las medidas de las alturas sillas compradas hace 1 año
atrás antes y las tomadas ahora.

H1: Hay diferencias entre las medidas de las alturas sillas compradas hace 1 año
atrás antes y las tomadas ahora.

Estadísticos descriptivos
Percentiles
Desv. Mínim Máxim 50
N Media Desviación o o 25 (Mediana) 75
SILLAS 1 año 153 44,202 17,35366 14,00 89,00 39,500 46,0000 51,000
atras 6 0 0
SILLAS 153 52,630 5,60919 35,00 66,00 48,500 53,0000 56,500
ahora 7 0 0

Prueba de rangos con signo de Wilcoxon

Rangos
Rango Suma de
N promedio rangos
SILLAS ahora – Rangos negativos 38a 65,16 2476,00
SILLAS 1 año atrás Rangos positivos 110b 77,73 8550,00
Empates 5c
Total 153
a. SILLAS ahora < SILLAS 1 año atrás
b. SILLAS ahora > SILLAS 1 año atrás
c. SILLAS ahora = SILLAS 1 año atrás

25
Estadísticos de pruebaa
SILLAS
ahora –
SILLAS 1año
atrás
Z -5,815b
Sig. ,000
asintótica(bilateral)
a. Prueba de rangos con signo de
Wilcoxon
b. Se basa en rangos negativos.

Prueba de los signos

Frecuencias
N
SILLAS ahora – Diferencias 38
SILLAS 1 año atrás negativasa
Diferencias positivasb 110
Empatesc 5
Total 153
a. SILLAS ahora < SILLAS 1 año atrás
b. SILLAS ahora > SILLAS 1 año atrás
c. SILLAS ahora = SILLAS 1 año atrás

Estadísticos de pruebaa
SILLAS ahora-
SILLAS 1 año
atrás
Z -5,836
Sig. asintótica(bilateral) ,000
a. Prueba de los signos

INTERPRETACIÓN:
En la tabla titulada “Rangos” vemos que se analizaron 153 pares (las 153 sillas que se
estudiaron). Hubo 38 rangos negativos, 110 positivos y 5 empates.

26
En la tabla titulada “Estadísticos de contrastes” se observa la fila Sig. asintót.
(biateral) y su valor de 0,000.
Podemos decir que, como el valor de p (Sig. asintót. (biateral)) es menor que 0,05,
entonces se rechaza la hipótesis nula y se concluye que hay evidencias suficientes
para plantear que las alturas de la silla han variado en 1 año con un nivel de
significación del 5%.
PRUEBA DE U DE MANN-WHITNEY
Se desea conocer si el tamaño de la atura de las sillas varían en relación al tipo de silla,
para lo cual seleccionaron dos muestras aleatorias, una constituida por 153 sillas de
madera y la otra por153 sillas de plástico. Pruebe la hipótesis de que las sillas de madera
y de plástico difieren en ambos grupos. Use α = 0.05.
Hipótesis:
H0: Med sillas = Medsillasplastico
H1: Medsillas ≠ Medsillasplastico
donde:
Medsillas: mediana de sillas
Medsillasplastico: mediana de sillas de plastico

Rangos
Rango Suma de
GRUPO N promedio rangos
SILLAS 1,00 75 77,79 5834,50
2,00 78 76,24 5946,50
Total 153

Estadísticos de pruebaa
SILLAS
U de Mann-Whitney 2865,500
W de Wilcoxon 5946,500
Z -,218
Sig. ,828
asintótica(bilateral)
a. Variable de agrupación: GRUPO

INTERPRETACIÓN:
Como puede apreciarse el estadígrafo de U de Mann-Whitney fue de 2865,500 y el valor
de p (Sig. asintót. (bilateral)) es ,828 por lo que se acepta la hipótesis nula y se concluye
que la altura de las sillas de madera y las de plastico no difieren, con un nivel de
significación del 5%.

27
PRUEBA DE H DE KRUSKAL-WALLIS

Se desea determinar si las medidas de las alturas de las sillas de 3 tipos de sillas de
madera difieren entre sí, para lo cual se hicieron las determinaciones que se
expresan a continuación:

Hipótesis:
H0: Med1= Med2=Med3
H1: Medi ≠ Medj al menos para un par (i,j)
Hipótesis:
H0: Las muestras provienen de poblaciones idénticas
H1: Las muestras provienen de poblaciones diferentes

Rangos
Rango
GRUPOS N promedio
SILLA 1,00 51 98,33
S 2,00 51 71,85
3,00 51 60,81
Total 153

Estadísticos de pruebaa,b
SILLAS
H de Kruskal- 19,347
Wallis
gl 2
Sig. asintótica ,000
a. Prueba de Kruskal Wallis
b. Variable de agrupación:
GRUPOS

INTERPRETACIÓN:

En la tabla titulada “Rangos” vemos que se analizaron 153 alturas de sillas , 51en cada
grupo. El rango promedio mayor fue para el Grupo 1, en tanto el menor fue para el Grupo
3.

28
En la tabla titulada “Estadístico de contraste” se observa el valor del estadístico H, que
para 2 grados de libertad fue de 19,347. Se observa en la fila Sig. asintót. y su valor de
0,000.
Podemos decir que, como el valor de p (Sig. asintót.) es menor que 0,05, entonces se
rechaza la hipótesis nula y se concluye que con un nivel de significación del 5%, la altura
de las sillas difiere entre los 3 cuatro tipos de sillas
.
Ahora deberá realizarse la prueba Kruskal-Wallis a posteriori para ver dónde están las
verdaderas diferencias
PRUEBAS NO PARAMÉTRICAS PRUEBA DE KRUSKAL-WALLIS A POST
HOC

Resumen de contrastes de hipótesis


Hipótesis nula Prueba Sig. Decisión
1 La distribución de Prueba de Kruskal- ,000 Rechace la hipótesis
SILLAS es la misma Wallis para muestras nula.
entre categorías de independientes
GRUPOS.
Se muestran significaciones asintóticas. El nivel de significación es de ,050.

Prueba de Kruskal-Wallis para muestras independientes

Sillas entre grupos

Resumen de prueba Kruskal-Wallis de


muestras independientes
N total 153
Estadístico de prueba 19,347a
Grado de libertad 2
Sig. asintótica (prueba ,000
bilateral)
a. Las estadísticas de prueba se ajustan para
empates.

29
Comparaciones por parejas de GRUPOS
Desv.
Estadístico de Desv. Estadístico de
Sample 1-Sample 2 prueba Error prueba Sig. Sig. ajustadaa
3,00-2,00 11,039 8,767 1,259 ,208 ,624
3,00-1,00 37,520 8,767 4,279 ,000 ,000
2,00-1,00 26,480 8,767 3,020 ,003 ,008
Cada fila prueba la hipótesis nula que las distribuciones de la Muestra 1 y la Muestra 2 son
iguales.
Se visualizan las significaciones asintóticas (pruebas bilaterales). El nivel de significación
es de ,05.
a. Los valores de significación se han ajustado mediante la corrección Bonferroni para
varias pruebas.

30
31
INTERPRETACION
En la Prueba Post Hoc de Bonferroni de Kruskal-Wallis,se aprecian diferencias
estadísticamente significativas al 5% de nivel de significación entre los tratamientos 3
-1 y 2-1 (p-valor<0,05 ).

32

También podría gustarte