EI1 - 3I1 - T4Portafolio Estadística Inferencial

DEPARTAMENTO DE INGENIERÍA INDUSTRIAL.
ESTADÍSTICA INFERENCIAL I
UNIDAD 4: PRUEBAS DE BONDAD DE AJUSTE Y NO PARAMETRICAS.
INTEGRANTES DEL EQUIPO:
ABRAHAM DE JESUS DZIB PACHECO
CARLOS MARIO CAUICH PEREZ
ANDREA CONCEPCION GUZMAN MANUEL
ANGEL DAVID SALAS ROMERO
PORTAFOLIO DE EVIDENCIAS
GRUPO: 3I1.
PROFESOR: ING. LUIS EDUARDO BASTO AGUILAR
CURSO EN LINEA, SEMESTRE FEBRERO – JUNIO 2021.
FECHA DE ENTREGA: 14 de Mayo de 2021
ISO 9001:2015 8.1, 8.2.2, 8.5.1, 7.1.5, 9.1.1, 8.6 R E V 06 ITMER-AC-PO-003-01

Contenido
INTRODUCCION. ................................................................................................... 3
4. Pruebas de bondad de ajuste y pruebas no paramétricas. ................................. 4
4.1. Bondad de ajuste. ............................................................................................ 5
4.1.1. Análisis de la Ji-Cuadrada. ........................................................................ 6
4.1.2. Pruebas de bondad de ajuste. ................................................................... 9
4.1.3. Tablas de contingencia. ........................................................................... 11
4.2. Pruebas no paramétricas. .............................................................................. 17
4.2.1. Prueba de Kolmogorov-Smirnov. ............................................................. 21
4.2.2. Prueba de Anderson-Darling. .................................................................. 23
CONCLUSION. ..................................................................................................... 27
REFERENCIAS. .................................................................................................... 29
INTRODUCCION.
En este portafolio, haremos la recopilación de los temas ya asignados en la
planeación del curso, enfocándonos en la unidad 4, pruebas de bondad de ajuste y
pruebas no paramétricas, las cuales son de gran importancia para el uso de
hipótesis y en diferentes casos de la vida cotidiana e industrial en el que la
estadística se convertirá en una herramienta de alto impacto, ayudándonos a
resolver diferentes tipos de problemas de cualquier ámbito en el cual se nos de una
serie de datos estándar o datos base, y consecuente a eso realizar las operaciones
correspondientes para llegar al resultado.
Como se comentaba, estaremos tocando temas como, las pruebas de bondad de

ajuste, siendo estas el análisis de la Ji-cuadrada, indagando en conceptos, formulas
y demás definiciones matemáticas que nos darán la base fundamental para resolver
los problemas, así también veremos las pruebas de bondad de ajuste, y de la misma
forma copilaremos sus fórmulas, definiciones, etc. Otro tema adentrado en este tipo
de pruebas, serán las tablas de contingencia, siendo estas otras herramientas de
gran importancia al momento de hacer este tipo de problemas.
Por último, también como se comentaba anteriormente, estudiaremos las pruebas

no paramétricas y al igual que las pruebas de bondad de ajuste, ramificaremos y
daremos a conocer las que se consideran las pruebas mas usadas en el ámbito,
siendo estas la prueba de Kolmogorov-Smirnov, detallando su formula y el
procedimiento en el cual podemos aplicar este tipo de prueba, no obstante,
presentaremos la prueba de Anderson-Darling, dando los mismos datos que los
temas anteriores.
Cabe recalcar que, de todos los temas antes mencionados, haremos un ejemplo de
cada uno, teniendo así una investigación más completa y así poder facilitarnos el
estudio al momento de presentar las evaluaciones.
4. Pruebas de bondad de ajuste y pruebas no paramétricas.
Las pruebas de bondad de ajuste tratan de verificar si el conjunto de datos se
puede ajustar o afirmar que proviene de una determinada distribución.
Miden, como el nombre lo indica, el grado de ajuste que existe entre la distribución
obtenida a partir de la muestra y la distribución teórica que se supone debe seguir
esa muestra.
Estas pruebas están basadas en la hipótesis nula de que no hay diferencias

significativas entre la distribución muestral y la teórica, H0 es la distribución que se
supone sigue la muestra aleatoria. La hipótesis alternativa siempre se enuncia como
que los datos no siguen la distribución supuesta.
Por otra parte, las pruebas no paramétricas, en su mayor parte de los

procedimientos de prueba de hipótesis que se presentan en las unidades anteriores
se basan en la suposición de que las muestras aleatorias se seleccionan de
poblaciones normales. Afortunadamente, la mayor parte de estas pruebas aún son
confiables cuando experimentamos ligeras desviaciones de la normalidad, en
particular cuando el tamaño de la muestra es grande.
En esta sección se consideran varios procedimientos de prueba alternativos,

llamados no paramétricos, que a menudo no suponen conocimiento de ninguna
clase acerca de las distribuciones de las poblaciones fundamentales.
Los procedimientos no paramétricos o de distribución libre se usan con mayor

frecuencia por los analistas de datos. Existen muchas aplicaciones en la ciencia y
la ingeniería donde los datos se reportan no como valores de un continuo sino más
bien en una escala ordinal tal que es bastante natural asignar rangos a los datos.
Se debe señalar que hay desventajas asociadas con las pruebas no paramétricas.
En primer lugar, no utilizan la información que proporciona la muestra, y por ello una
prueba no paramétrica será menos eficiente que el procedimiento paramétrico
correspondiente, cuando se pueden aplicar ambos métodos. En consecuencia, para
lograr la misma eficiencia, una prueba no paramétrica requerirá la correspondiente
prueba paramétrica.
4.1. Bondad de ajuste.
Hablamos de bondad de ajuste cuando tratamos de comparar una distribución de
frecuencia observada con los valores correspondientes de una distribución
esperada o teórica. Algunos estudios producen resultados sobre los que no
podemos afirmar que se contribuyen normalmente, es decir con forma acampanada
concentradas sobre la media.
Su fórmula es:
𝑘
2
[𝑓𝑜𝑖 − 𝑓𝑒𝑖 ]2
𝑋 =∑
𝑓𝑒𝑖
𝑖=1
𝑓𝑜𝑖 = 𝑉𝑎𝑙𝑜𝑟 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜 𝑒𝑛 𝑙𝑎 𝑖 − 𝑒𝑠𝑖𝑚𝑜 𝑑𝑎𝑡𝑜.
𝑓𝑒𝑖 = 𝑉𝑎𝑙𝑜𝑟 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 𝑒𝑛 𝑙𝑎 𝑖 − 𝑒𝑠𝑖𝑚𝑜 𝑑𝑎𝑡𝑜.
𝑘 = 𝐶𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑎𝑠 𝑜 𝑐𝑒𝑙𝑑𝑎𝑠.
𝑚 = 𝑃𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑜𝑠 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑠 𝑠𝑜𝑏𝑟𝑒 𝑙𝑎 𝑏𝑎𝑠𝑒 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎.
Los grados de libertad vienen dados por: gl= K-m-1
Criterio de decisión es el siguiente:
2
Se rechaza H0 cuando 𝑋 2 ≥ 𝑋𝑡; 𝐾−𝑚−1 . En caso contrario, se acepta. Donde t
representa el valor proporcionado por las tablas, según el nivel de significancia
elegido.
Cuanto más se aproxima a cero el valor

de Ji-cuadrada, más ajustadas están
ambas distribuciones.
4.1.1. Análisis de la Ji-Cuadrada.
El estadístico ji-cuadrado (o chi cuadrado), que tiene distribución de probabilidad
del mismo nombre, sirve para someter a prueba hipótesis referidas a distribuciones
de frecuencias. En términos generales, esta prueba contrasta frecuencias
observadas con las frecuencias esperadas de acuerdo con la hipótesis nula. En este
artículo se describe el uso del estadístico ji-cuadrado para probar la asociación entre
dos variables utilizando una situación hipotética y datos simulados. Luego se
describe su uso para evaluar cuán buena puede resultar una distribución teórica,
cuando pretende representar la distribución real de los datos de una muestra
determinada. A esto se le llama evaluar la bondad de un ajuste. Probar la bondad
de un ajuste es ver en qué medida se ajustan los datos observados a una
distribución teórica o esperada. Para esto, se utiliza una segunda situación
hipotética y datos simulados.
Ji- cuadrado como prueba de asociación
Supongamos que un investigador está interesado en evaluar la asociación entre uso

de cinturón de seguridad en vehículos particulares y el nivel socioeconómico del
conductor del vehículo. Con este objeto se toma una muestra de conductores a
quienes se clasifica en una tabla de asociación, encontrando los siguientes
resultados:
Tabla I. Tabla de asociación, valores observados.
¿Permiten estos datos afirmar que el uso del cinturón de seguridad depende del
nivel socioeconómico? Usaremos un nivel de significación alfa=0,05.
Los pasos del análisis estadístico en este caso son los siguientes:
1. En primer lugar se debe plantear las hipótesis que someteremos a prueba
H0: “El uso de cinturón de seguridad es independiente del nivel socioeconómico”.

H1: “El uso de cinturón de seguridad depende del nivel socioeconómico”.
En esta prueba estadística siempre la hipótesis nula plantea que las variables
analizadas son independientes.
2. En segundo lugar, obtener (calcular) las frecuencias esperadas
Estas son las frecuencias que debieran darse si las variables fueran independientes,
es decir, si fuera cierta la hipótesis nula.
Las frecuencias esperadas se obtendrán de la distribución de frecuencias del total

de los casos, 51 personas de un total de 94 usan el cinturón y 43 de 94 no lo usan.
Esa misma proporción se debería dar al interior de los tres grupos de nivel
socioeconómico, de manera que el cálculo responde al siguiente razonamiento: si
de 94 personas 51 usan cinturón; de 21 personas, ¿cuántas debieran usarlo?
La respuesta a esta pregunta se obtiene aplicando la “regla de tres” y es 11,4. Este

procedimiento debe repetirse con todas las frecuencias del interior de la tabla.
El detalle de los cálculos es el siguiente:
Nivel bajo:(21x51/94) =11,4 - (21x43/94) =9,6
Nivel medio: (31x51/94) =16,8 - (31x43/94) =14,2
Nivel alto: (42x51/94) =22,8 - (42x43/94) =19,2
Estas son las frecuencias que debieran presentarse si la hipótesis nula fuera
verdadera y, por consiguiente, las variables fueran independientes.
Estos valores los anotamos en una tabla con las mismas celdas que la anterior; así
tendremos una tabla con los valores observados y una tabla con los valores
esperados, que anotaremos en cursiva, para identificarlos bien.
Tabla II. Tabla de asociación, valores esperados.
3. En tercer lugar se debe calcular el estadístico de prueba
En este caso, el estadístico de prueba es Ji-cuadrado que, como dijimos al

comienzo, compara las frecuencias que entregan los datos de la muestra
(frecuencias observadas) con las frecuencias esperadas, y tiene la siguiente fórmula
cálculo:
Donde oi representa a cada frecuencia observada y ei representa a cada frecuencia

esperada.
De este modo el valor del estadístico de prueba para este problema será:
Entonces Este es el valor de nuestro estadístico de prueba que ahora,

siguiendo el procedimiento de problemas anteriores (paso 4), debemos comparar
con un valor de la tabla de probabilidades para ji-cuadrado (x2). Esta tabla es muy
parecida a la tabla t de student, pero tiene sólo valores positivos porque ji-cuadrado
sólo da resultados positivos. Véase gráfico 1, que muestra la forma de la curva, con
valores desde 0 hasta infinito.
4.1.2. Pruebas de bondad de ajuste.
Las pruebas de bondad de ajuste son pruebas de hipótesis para verificar si los datos
observados en una muestra aleatoria se ajustan con algún nivel de significancia a
determinada distribución de probabilidad (uniforme, exponencial, normal, poisson,
u otra cualquiera). n La hipótesis nula Ho indica la distribución propuesta, mientras
que la hipótesis alternativa H1 , nos indica que la variable en estudio tiene una
distribución que no se ajusta a la distribución propuesta.
 Ho : f(x)=fo (x)
 H1 : f(x)¹fo (x)
Para realizar la prueba, se clasifican los datos observados en k clases o categorías,

y se contabiliza el número de observaciones en cada clase, para posteriormente
comparar la frecuencia observada en cada clase con la frecuencia que se esperaría
obtener en esa clase si la hipótesis nula es correcta.
 k = No. de clases, k>2

 oi = Frecuencia observada en la clase i
 ei = Frecuencia esperada en la clase i, si Ho es correcta.

Las pruebas de bondad de ajuste comparan la frecuencia observada con la
frecuencia esperada en cada clase.
 ei = n*pi , donde:
 n=tamaño de la muestra,
 pi=área bajo la curva f o (x) en el intervalo limsup-liminf de la clase i
 Si f o (x) es continua, entonces: = ò i i lím pi lím f o x dx
PRUEBAS DE BONDAD DE AJUSTE - LA PRUEBA JI-CUADRADA –
Existen varios procedimientos para probar la bondad de ajuste de una distribución

a los datos observados en una muestra, uno de ellos es la prueba Ji-cuadrada, que
se basa en el estadístico de prueba:
El cual tiene distribución Ji-cuadrada con k-r-1 grados de libertad. Si las diferencias
oi -ei son pequeñas, el valor del estadístico es pequeño, por el contrario, si esas
diferencias son grandes (lo observado no se ajusta a lo propuesto), el valor del
estadístico es grande, por lo tanto, la región de rechazo de la hipótesis nula se ubica
en la cola superior de la distribución Ji-cuadrada al nivel de significancia a.
Esta foto de Autor desconocido está bajo licencia CC BY-NC-ND

4.1.3. Tablas de contingencia.
Las tablas de contingencia se utilizan para examinar la relación entre dos variables
categóricas, o bien explorar la distribución que posee una variable categórica entre
diferentes muestras. En general, el interés se centra en estudiar si existe alguna
asociación entre una variable denominada fila y otra variable denominada columna
y se calcula la intensidad de dicha asociación. De manera formal, se consideran X
e Y dos variables categóricas con I y J categorías respectivamente. Una
observación puede venir clasificada en una de las posibles I × J categorías que
existen. Cuando las casillas de la tabla contienen las frecuencias observadas, la
tabla se denomina tabla de contingencia, término que fue introducido por Pearson
en 1904. Una tabla de contingencia (o tabla de clasificación cruzada), con I filas y J
columnas se denomina una tabla I × J.
Prueba de independencia de Pearson
Disponemos de una muestra en la que a cada individuo se le observan dos

características categóricas XX e YY, la primera puede tomar II valores diferentes y
la segunda JJ valores. Hecho el recuento, llamaremos nijnij al número de individuos
que presentan la ii-ésima característica de XX y la jj-ésima característica de YY.
Resulta así una tabla de la siguiente forma:
El objetivo es decidir si las variables son independientes, lo cual ocurrirá cuando la

esperanza del número de individuos con las características xi y yj, μij, sea igual al
producto del número esperado de individuos con la característica xixi, μi⋅μi⋅, por la
esperanza del número de individuos con la característica yj, μ⋅j. Así, la hipótesis
nula a contrastar es H0: μij = μi⋅μ⋅j, frente a la alternativa H1: μij ≠ μi⋅μ⋅j.
El procedimiento numérico por seguir consiste en calcular el estadístico de Pearson
Siendo n=∑i, nij la suma total de individuos observados. El estadístico X2X2 tiene
distribución asintótica χ2 de (I−1) (J−1) grados de libertad, por lo que es
aconsejable comprobar que todas las casillas tienen un número mayor o igual a
cinco. Como siempre, cuanto menor sea la probabilidad crítica pc, más evidencia
habrá para rechazar la hipótesis nula.
En el programa que sigue, las tablas admitidas son para las dimensiones 2×32×3,
aunque también sirve para las de 3×23×2, ya que la transposición de la matriz lleva
a los mismos resultados.
Veamos un ejemplo. Una fábrica de dispositivos mecánicos tiene dos líneas de

producción. Se han registrado los fallos encontrados en los dispositivos producidos
por cada una de las dos líneas. Los fallos se han clasificado en tres tipos, A, B y C.
Los datos de que se dispone son:
Se quiere saber si los tipos de fallo dependen de la línea de producción en la que

se han fabricado los dispositivos.
tab = matrix(c(27,25,38,35,30,31),
nr=2, byrow=TRUE,
dimnames = list(Linea = c("L1","L2"),
Fallos = c("A", "B","C")))
chisq.test(tab)
Fallos
Linea A B C
L1 27 25 38
L2 35 30 31
chisq.test(tab)
Pearson's Chi-squared test
data: tab
X-squared = 2.0055, df = 2, p-value = 0.3669
La probabilidad crítica vale pc=0.37, demasido grande para rechazar la hipótesis

nula. Así, damos por válido el criterio de que los fallos observados son
independientes de las líneas de producción.
Independencia condicionada en tablas 2×2×K.
En una tabla 2×2×K, en la que las dos primeras entradas corresponden a dos
variables binarias X e Y y la tercera entrada a una variable
explicativa Z de K categorías, interesa contrastar si X e Y son independientes para
cualquier valor de Z.
Para cada categoría k∈{1,…,K}k∈{1,…,K} de Z existe una tabla parcial X,Y de

dimensiones 2×2, como por ejemplo,
Para ella se define el odds ratio
n11k
θXY(k) = n12k
n21k/n22k
La prueba de Cochran-Mantel-Haenszel (CMH) permite contrastar la independencia

de X e Y, dada Z, lo que equivale a la hipótesis nula
ΘXY (1)=…=θXY (K)=1.
El estadístico de contraste es
∑𝑘(𝑛11𝑘 − 𝐸[𝑁11𝑘])2
𝐶𝑀𝐻 = ∼ 𝑎𝜒2(1),
∑𝑘𝑉[𝑁11𝑘]
Siendo
𝑛1 ⋅ 𝑘𝑛 ⋅ 1𝑘 𝑛1 ⋅ 𝑘𝑛2 ⋅ 𝑘𝑛 ⋅ 1𝑘𝑛 ⋅ 2𝑘𝑛

𝐸𝐸[𝑁11𝑘] = 𝑦 𝑉[𝑁11𝑘] =
𝑛 ⋅⋅ 𝑘 𝑛2 𝑘(𝑛 ⋅⋅ 𝑘 − 1).
Al ser la distribución del estadístico asintótica, no es aplicable el contraste a

muestras pequeñas. Valores pequeños de la probabilidad crítica, pc, dan evidencia
de la falta de independencia para al menos una de las categorías de Z.
Una empresa en expansión ha acometido un amplio proceso de contratación de

trabajadores. Una vez hecha la selección de personal, quiere saber si hubo algún
tipo de discriminación debido al sexo de los candidatos. Para ello ha recopilado
datos de los tres departamentos involucrados (A, B y C) en los que se recogen el
número de candidatos admitidos y rechazados (A y R) según su sexo (H y M). La
hipótesis nula por contrastar es si los odds ratios son iguales a la unidad en los tres
departamentos.
Departamento A:
Departamento B:
Departamento C:
x = c(219,399, 473,412, 17,8, 353,207, 202,391, 120,205)
# formación de array tridimensional

tab = array(x, dim=c(2,2,3))
tab
,,1
[,1] [,2]
[1,] 219 473
[2,] 399 412
,,2
[,1] [,2]
[1,] 17 353
[2,] 8 207
,,3
[,1] [,2]
[1,] 202 120
[2,] 391 205
# contraste
mantelhaen.test(tab, correct=F)
Mantel-Haenszel chi-squared test without continuity correction
data: tab
Mantel-Haenszel X-squared = 34.3927, df = 1, p-value = 4.504e-09
alternative hypothesis: true common odds ratio is not equal to 1
95 percent confidence interval:
0.5198121 0.7215105
sample estimates:
common odds ratio
0.6124132
La probabilidad crítica de la prueba es extremadamente baja, por lo que hay razones

más que suficientes para rechazar la hipótesis nula y decantarse por la alternativa.
Se concluye que sí ha habido discriminación en la contratación por motivos de sexo
en alguno de los departamentos.
4.2. Pruebas no paramétricas.
Las pruebas no paramétricas, también conocidas como pruebas de distribución
libre, son las que se basan en determinadas hipótesis, pero lo datos observados no
tienen una organización normal. Generalmente, las pruebas no paramétricas
contienen resultados estadísticos que provienen de su ordenación, lo que las vuelve
más fáciles de comprender.
Las pruebas no paramétricas tienen algunas limitaciones, entre ellas se encuentra

que no son lo suficientemente fuertes cuando se cumple una hipótesis normal. Esto
puede provocar que no sea rechazada, aunque sea falsa. Otra de sus limitaciones
es que necesitan que la hipótesis se cambie cuando la prueba no corresponde a la
pregunta del procedimiento si la muestra no es proporcional.
Las pruebas o técnicas no paramétricas engloban una serie de pruebas estadísticas

que tienen en común la ausencia de asunciones acerca de la ley de probabilidad
que sigue la población de la que ha sido extraída la muestra. Así, estas técnicas se
aplican cuando no sabemos si la población de la cual se extrae la muestra es normal
o aproximadamente normal.
Estas técnicas no paramétricas se utilizan con frecuencia, puesto que existen

muchas variables que no siguen las condiciones de parametricidad. Estas son: el
uso de variables cuantitativas continuas, distribución normal de las muestras,
varianzas similares y muestras balanceadas.
Cuando estos requisitos previos no se cumplen o hay serias dudas de que se

cumplan, se usan las pruebas no paramétricas o de distribución libre. Así, las
pruebas no paramétricas reúnen las siguientes características:
 Se utilizan mucho menos de lo que sería recomendable (son menos

conocidas por los investigadores).
 Son aplicables a los datos jerarquizados.
 Se pueden usar cuando dos series de observaciones provienen de distintas
poblaciones (poblaciones en las que no se distribuye igual la variable).
 Son la única alternativa realista cuando el tamaño de muestra es pequeño.
Pruebas no paramétricas de una muestra
Prueba de Chi-cuadrado de Pearson: Es una prueba muy utilizada cuando el

investigador quiere analizar la relación entre dos variables que son cuantitativas.
También es muy utilizada para evaluar en qué medida los datos recogidos en una
variable categórica (distribución empírica) se ajustano no (se parece o no) a una
determinada distribución teórica (uniforma, binomial, multinomial, etcétera).
Prueba Binomial: Esta prueba permite averiguar si una variable dicotómica sigue o
no un determinado modelo de probabilidad. Permite contrastar la hipótesis de que
la proporción observada de aciertos se ajusta a la proporción teórica de una
distribución binomial.
Prueba de Rachas: Es una prueba que permite determinar si el número de rachas

(R) observado en una muestra de tamaño n es lo suficientemente grande o lo
suficientemente pequeño para poder rechazar la hipótesis de independencia (o
aleatoriedad) entre las observaciones. Una racha es una secuencia de
observaciones de un mismo atributo o cualidad. Que haya más o menos rachas que
las esperables por azar en una serie de datos puede ser un indicador de que hay
una variable importante que está condicionando los resultados y que no estamos
teniendo en cuenta...
Prueba de Kolmogorov-Smirnov (K-S): Esta prueba sirve para contrastar la

hipótesis nula de que la distribución de una variable se ajusta a una determinada
distribución teórica de probabilidad (normal, exponencial o la de Poisson). El hecho
de que la distribución de los datos se ajuste o no a una determinada distribución va
a sugerirnos unas técnicas de análisis de datos frente a otras.
Pruebas no paramétricas para dos muestras relacionadas
Prueba de McNemar: La prueba de McNemar se utiliza para contrastar hipótesis

sobre igualdad de proporciones. Se usa cuando hay una situación en la que las
medidas de cada sujeto se repiten. Así, la respuesta de cada uno de ellos se obtiene
dos veces: una vez antes y otra después de un evento específico.
Prueba de los Signos: Permite contrastar la hipótesis de igualdad entre dos

medianas poblacionales. Se puede utilizar para saber si una variable tiende a ser
mayor que otra. También para probar la tendencia que siguen una serie de variables
positivas.
Prueba de Wilcoxon: Permite contrastar la hipótesis de igualdad entre dos medianas

poblacionales.
Pruebas no paramétricas para K-muestras relacionadas
Prueba de Friedman: Se trata de una extensión de la prueba de Wilcoxon. Así, se

usa para incluir datos registrados en más de dos periodos de tiempo o grupos de
tres o más sujetos, con un sujeto de cada grupo que ha sido asignado
aleatoriamente a una de las tres o más condiciones.
Prueba de Cochran: Es idéntica a la anterior, pero se aplica cuando todas las

respuestas son binarias. La Q de Cochran aprueba la hipótesis de que varias
variables dicotómicas que están relacionadas entre sí tienen el mismo promedio.
Coeficiente de concordancia de W de Kendall: Tiene las mismas indicaciones que

la prueba de Friedman. Sin embargo, su uso en investigación ha sido principalmente
para conocer la concordancia entre rangos.
Pruebas no paramétricas para dos muestras independientes
Prueba U de Mann-Whitney: Es equivalente a la prueba de suma de rangos de

Wilcoxon y también a la prueba de dos grupos Kruskal-Wallis.
Prueba de Kolmogorov-Smirnov: Esta prueba se usa para contrastar la hipótesis de

que dos muestras proceden de la misma población.
Prueba de Rachas de Wald-Wolfowitz: Contrasta si dos muestras con datos
independientes proceden de poblaciones con la misma distribución.
Prueba de reacciones extremas de Moses: Sirve para estudiar si hay diferencia en

el grado de dispersión o variabilidad de dos distribuciones. Se centra en la
distribución del grupo de control y es una medida para saber cuántos valores
extremos del grupo experimental influyen en la distribución al combinarse con el
grupo de control.
Pruebas no paramétricas para K-muestras independientes
Prueba de la Mediana: Contrasta diferencias entre dos o más grupos en relación

con su mediana. No se utilizan medias, bien porque no cumplen las condiciones de
normalidad o porque la variable es cuantitativa discreta. Es similar a la prueba Chi-
cuadrado.
Prueba de Jonckheere-Terpstra: Se trata de la más potente a la hora de analizar

una ordenación ascendente o descendente de las K poblaciones de las que se
extraen las muestras.
Prueba H de Kruskal-Wallis: Por último, la prueba H de Kruskal-Wallis es una

extensión de la U de Mann-Whitney y representa una excelente alternativa al
ANOVA de un factor.
Así, estas pruebas se utilizan cuando la distribución de los datos no es normal.

Podemos acudir a ellas cuando tengamos datos que no estén en una escala de
razón o bien cuando, estándolo, tengamos dudas de si la distribución de alguna de
las variables se ajusta a la curva normal. Por otro lado, es cierto que muchas
pruebas paramétricas son relativamente robustas frente a la violación de
supuestos; sin embargo, si hay pruebas mejores, ¿por qué no emplearlas?
4.2.1. Prueba de Kolmogorov-Smirnov.
La prueba de Kolmogórov-Smirnov es una propia perteneciente a la estadística,

concretamente a la estadística inferencial. La estadística inferencial pretende
extraer información sobre las poblaciones.
Se trata de una prueba de bondad de ajuste, es decir, sirve para verificar si las
puntuaciones que hemos obtenido de la muestra siguen o no una distribución
normal. Es decir, permite medir el grado de concordancia existente entre la
distribución de un conjunto de datos y una distribución teórica específica. Su objetivo
es señalar si los datos provienen de una población que tiene la distribución teórica
especificada, es decir, lo que hace es contrastar si las observaciones podrían
razonablemente proceder de la distribución especificada.
El resultado de la prueba de Kolmogórov-Smirnov se representa mediante la letra

Z. La Z se calcula a partir de la diferencia mayor (en valor absoluto) entre las
funciones de distribución acumuladas teórica y observada (empírica).
Para poder aplicar la prueba de Kolmogórov-Smirnov correctamente, se deben

asumir una serie de supuestos. Primeramente, la prueba asume que los parámetros
de la distribución de prueba se han especificado previamente. Este procedimiento
estima los parámetros a partir de la muestra.
Por otro lado, la media y la desviación estándar de la muestra son los parámetros
de una distribución normal, los valores mínimo y máximo de la muestra definen el
rango de la distribución uniforme, la media muestral es el parámetro de la
distribución de Poisson y la media muestral es el parámetro de la distribución
exponencial.
La capacidad de la prueba de Kolmogórov-Smirnov para detectar desviaciones a

partir de la distribución hipotetizada puede disminuir gravemente. Para contrastarla
con una distribución normal con parámetros estimados, se debe considerar la
posibilidad de utilizar la prueba de K-S Lillliefors.
Aplicación
La prueba de Kolmogorov-Smirnov se puede aplicar sobre una muestra para

comprobar si una variable (por ejemplo, las notas académicas o los ingresos €) se
distribuyen normalmente. Esto a veces es necesario saberlo, ya que muchas
pruebas paramétricas requieren que las variables que emplean sigan una
distribución normal.
 F(X) es la función de distribución que hipotetizamos.
 Es(X) es la probabilidad o proporción teórica de valores que deben ser

iguales o menores que x suponiendo cierta la hipótesis planteada
 S(X) es la función de distribución obtenida en la muestra.
En resumen, tendremos:
Hipótesis:
H0: F (X) = Fs (X)
H1: F (X) ≠ Fs (X)
Muestra: n observaciones independientes.
Estadístico de contraste: │Dn│ = máxima │Fs (X) – S (X)│
Ejemplo:
Las puntuaciones obtenidas por una muestra de sujetos en una prueba de habilidad
han sido las siguientes: 48,1; 47,8; 45.1; 46,3; 45,4; 47,2; 46,6; y 46.
Sabiendo que la media en dicha prueba es 40 y su desviación típica es 3, ¿podemos

afirmar que la distribución de las puntuaciones sigue una normal, con un α = 0,01?
Solución: 1. Hipótesis:
H0: F (X) = Fs (X) de una N(µ, σ)
H1: F (X) ≠ Fs (X) de una N(µ, σ)

2. Muestra: 8 observaciones indep.
3. Tipificamos las puntuaciones para poder trabajar con una N (0,1).
4. Ordenamos las puntuaciones, obtenemos Fs (X) y S (X) y calculamos la diferencia

entre ambas para cada valor de X.
Para α = 0,01 y n = 8 en la tala encontramos un valor de 0,543, por tanto, se rechaza

H0
4.2.2. Prueba de Anderson-Darling.

El estadístico Anderson-Darling mide qué tan bien siguen los datos una distribución
específica. Para un conjunto de datos y distribución en particular, mientras mejor se
ajuste la distribución a los datos, menor será este estadístico. Por ejemplo, usted
puede utilizar el estadístico de Anderson-Darling para determinar si los datos
cumplen el supuesto de normalidad para una prueba t.
Las hipótesis para la prueba de Anderson-Darling son:
 H0: Los datos siguen una distribución especificada

 H1: Los datos no siguen una distribución especificada
Utilice el valor p correspondiente (si está disponible) para probar si los datos
provienen de la distribución elegida. Si el valor p es menor que un nivel de
significancia elegido (por lo general 0.05 o 0.10), entonces rechace la hipótesis nula
de que los datos provienen de esa distribución. Minitab no siempre muestra un
valor p para la prueba de Anderson-Darling, porque este no existe
matemáticamente para ciertos casos.
También puede utilizar el estadístico de Anderson-Darling para comparar el ajuste

de varias distribuciones con el fin de determinar cuál es la mejor. Sin embargo, para
concluir que una distribución es la mejor, el estadístico de Anderson-Darling debe
ser sustancialmente menor que los demás. Cuando los estadísticos están cercanos
entre sí, se deben usar criterios adicionales, como las gráficas de probabilidad, para
elegir entre ellos.
La prueba de Anderson-Darling es usada para probar si una muestra viene de una

distribución especifica. Esta prueba es una modificación de la prueba de
Kolmogorov- Smirnov donde se les da más peso a las colas de la distribución que
la prueba de Kolmogorov-Smirnov.
En estadística, la prueba de Anderson-Darling es una prueba no paramétrica sobre

si los datos de una muestra provienen de una distribución específica. La fórmula
para el estadístico determina si los datos (observar que los datos se deben ordenar)
vienen de una distribución con función acumulativa F.
Donde:
n es el número de datos
f(x): es la función de distribución de probabilidad teórica
FS(X): es la función de distribución empírica.
Para definir la regla de rechazo para esta prueba es necesario, también, obtener el
estadístico ajustado para luego compararlo con los valores críticos de la tabla de
Anderson- Darling
Una vez obtenido el estadístico ajustado, la regla de rechazo se realiza
análogamente a la utilizada en la prueba de K-S.
El estadístico de la prueba se puede entonces comparar contra las

distribuciones del estadístico de prueba (dependiendo que F se utiliza) para
determinar el P- valor.
CONCLUSION.
Como conclusión de la Unidad 3” Programación entera podemos decir La
programación entera es el método empleado para resolver problemas que tienen
variables de decisión enteras. Estos modelos se han considerado submodelos de la
programación lineal con la característica de enteridad es decir tiene como objetivo
La programación lineal es el campo de la programación matemática dedicado a
maximizar o minimizar una función lineal, denominada función objetivo, de tal forma
que las variables de dicha función estén sujetas a una serie de restricciones
expresadas mediante un sistema de ecuaciones o inecuaciones también lineales. ,
todo esto lo vimos a durante esta unidad, conforme el maestro nos iba explicando y
con sus ejemplos no quedo muy claro, para poder hacer el ejercicio, es por ello que
en nuestra conclusión podemos decir que estamos satisfechos con lo aprendido en
esta unidad, pues pensamos que nos servirá de mucho en nuestra vida laboral para
solucionar problemas en una empresa.
Las técnicas fonéticas permiten reducir el número de casos de nombres

coincidentes para un volumen de datos muy grande en un tiempo relativamente
corto, del orden de unos cuantos segundos. Además, funcionan eficientemente
como métodos de indexación para búsquedas de nombres similares. Sin embargo,
carecen de precisión en la valoración de la similitud entre nombres y solamente
detectan semejanzas de escritura debido a una pronunciación equivocada utilizando
a reglas conocidas del lenguaje.
La prueba de Anderson-Darling es utilizada para probar siun conjunto de datos

muéstrales provienen de unapoblación con una distribución de probabilidad
continuaespecífica (por lo general la distribución normal). La pruebade Anderson-
Darling se basa en la comparación de ladistribución de probabilidades acumulada
empírica(resultado de los datos) con la distribución deprobabilidades acumulada
teórica (definida en H0).
Este tema fue de vital para refozar nuestro conocimiento en cuanto a las pruebas
de bondad de ajuste como trabajar con la ji cuadrada para Inferir si la población
muestreada, cuyos datos se clasifican en una escala nominal o son agrupados en
intervalos, sigue una cierta distribución teórica. De igual manera se vio el método
de Fisher El estadístico G sigue la misma distribución que  2 c No es tan sensible
como la prueba de Chi las frecuencias esperadas bajas y otros métodos que nos
servirán para realizar los cálculos necesarios al momento de aplicarlo a problemas
de la vida real.
REFERENCIAS.
 Dantes, G. (s. f.). PRUEBAS DE BONDAD DE AJUSTE - Bing. Pruebas de Bondad.
Recuperado 8 de mayo de 2021, de
https://www.bing.com/search?q=PRUEBAS+DE+BONDAD+DE+AJUSTE&qs=n
&form=QBRE&msbsrank=5_5__0&sp=-
1&ghc=1&pq=pruebas+de+bondad+de+ajuste&sc=5-
27&sk=&cvid=0E997FDBF8AD4F51956ADE15095F4D53
 Quevedo, F. (2011, 1 diciembre). La prueba de ji-cuadrado - Medwave. Prueba de
la Ji-Cuadrada. https://www.medwave.cl/link.cgi/Medwave/Series/MBE04/5266
 http://riotorto.users.sourceforge.net/R/noparam_tabl/index.html
 Villasante, P. (2019, 28 enero). Pruebas no paramétricas: definición y tipos.
Recuperado abril de 2021, de https://lamenteesmaravillosa.com/pruebas-no-
parametricas-definicion-y-tipos/
 http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Categor/Tema2Cate.pdf
 Marqués dos Santos, María José; Estadística Básica: un enfoque no parametrico,
Universidad Nacional Autonoma de México, Facultad de Estudios Superiores
Zaragoza.

EI1 - 3I1 - T4Portafolio Estadística Inferencial

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

EI1 - 3I1 - T4Portafolio Estadística Inferencial

Cargado por

Copyright:

Formatos disponibles

DEPARTAMENTO DE INGENIERÍA INDUSTRIAL.

UNIDAD 4: PRUEBAS DE BONDAD DE AJUSTE Y NO PARAMETRICAS.

INTEGRANTES DEL EQUIPO:

ABRAHAM DE JESUS DZIB PACHECO

CARLOS MARIO CAUICH PEREZ

ANDREA CONCEPCION GUZMAN MANUEL

ANGEL DAVID SALAS ROMERO

PROFESOR: ING. LUIS EDUARDO BASTO AGUILAR

CURSO EN LINEA, SEMESTRE FEBRERO – JUNIO 2021.

FECHA DE ENTREGA: 14 de Mayo de 2021

ISO 9001:2015 8.1, 8.2.2, 8.5.1, 7.1.5, 9.1.1, 8.6 R E V 06 ITMER-AC-PO-003-01

4. Pruebas de bondad de ajuste y pruebas no paramétricas. ................................. 4

4.1. Bondad de ajuste. ............................................................................................ 5

4.1.1. Análisis de la Ji-Cuadrada. ........................................................................ 6

4.1.2. Pruebas de bondad de ajuste. ................................................................... 9

4.1.3. Tablas de contingencia. ........................................................................... 11

4.2. Pruebas no paramétricas. .............................................................................. 17

4.2.1. Prueba de Kolmogorov-Smirnov. ............................................................. 21

4.2.2. Prueba de Anderson-Darling. .................................................................. 23

Como se comentaba, estaremos tocando temas como, las pruebas de bondad de

Por último, también como se comentaba anteriormente, estudiaremos las pruebas

Estas pruebas están basadas en la hipótesis nula de que no hay diferencias

Por otra parte, las pruebas no paramétricas, en su mayor parte de los

En esta sección se consideran varios procedimientos de prueba alternativos,

Los procedimientos no paramétricos o de distribución libre se usan con mayor

𝑓𝑜𝑖 = 𝑉𝑎𝑙𝑜𝑟 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜 𝑒𝑛 𝑙𝑎 𝑖 − 𝑒𝑠𝑖𝑚𝑜 𝑑𝑎𝑡𝑜.

𝑓𝑒𝑖 = 𝑉𝑎𝑙𝑜𝑟 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 𝑒𝑛 𝑙𝑎 𝑖 − 𝑒𝑠𝑖𝑚𝑜 𝑑𝑎𝑡𝑜.

𝑚 = 𝑃𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑜𝑠 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑠 𝑠𝑜𝑏𝑟𝑒 𝑙𝑎 𝑏𝑎𝑠𝑒 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎.

Los grados de libertad vienen dados por: gl= K-m-1

Criterio de decisión es el siguiente:

Cuanto más se aproxima a cero el valor

Ji- cuadrado como prueba de asociación

Supongamos que un investigador está interesado en evaluar la asociación entre uso

Tabla I. Tabla de asociación, valores observados.

1. En primer lugar se debe plantear las hipótesis que someteremos a prueba

H0: “El uso de cinturón de seguridad es independiente del nivel socioeconómico”.

2. En segundo lugar, obtener (calcular) las frecuencias esperadas

Las frecuencias esperadas se obtendrán de la distribución de frecuencias del total

La respuesta a esta pregunta se obtiene aplicando la “regla de tres” y es 11,4. Este

El detalle de los cálculos es el siguiente:

Nivel bajo:(21x51/94) =11,4 - (21x43/94) =9,6

Nivel medio: (31x51/94) =16,8 - (31x43/94) =14,2

Nivel alto: (42x51/94) =22,8 - (42x43/94) =19,2

Tabla II. Tabla de asociación, valores esperados.

3. En tercer lugar se debe calcular el estadístico de prueba

En este caso, el estadístico de prueba es Ji-cuadrado que, como dijimos al

Donde oi representa a cada frecuencia observada y ei representa a cada frecuencia

Entonces Este es el valor de nuestro estadístico de prueba que ahora,

Para realizar la prueba, se clasifican los datos observados en k clases o categorías,

 k = No. de clases, k>2

 ei = Frecuencia esperada en la clase i, si Ho es correcta.

 pi=área bajo la curva f o (x) en el intervalo limsup-liminf de la clase i

 Si f o (x) es continua, entonces: = ò i i lím pi lím f o x dx

PRUEBAS DE BONDAD DE AJUSTE - LA PRUEBA JI-CUADRADA –

Existen varios procedimientos para probar la bondad de ajuste de una distribución

Esta foto de Autor desconocido está bajo licencia CC BY-NC-ND

Prueba de independencia de Pearson

Disponemos de una muestra en la que a cada individuo se le observan dos

El objetivo es decidir si las variables son independientes, lo cual ocurrirá cuando la

Veamos un ejemplo. Una fábrica de dispositivos mecánicos tiene dos líneas de

Se quiere saber si los tipos de fallo dependen de la línea de producción en la que

Pearson's Chi-squared test

La probabilidad crítica vale pc=0.37, demasido grande para rechazar la hipótesis