Está en la página 1de 15

INSTITUTO TECNOLÓGICO DE CAMPECHE

INGENIERÍA INDUSTRIAL

INVESTIGACIÓN CONCEPTUAL

UNIDAD IV: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMÉTRICAS

JENNIFER LISETTE ZUBIETA PÉREZ

ESTADÍSTICA INFERENCIAL I

MI-3

SAN FRANCISCO DE CAMPECHE, CAMPECHE 06 DE NOVIEMBRE DEL 2019


ÍNDICE

INTRODUCCIÓN................................................................................................................................... 3
-JUSTIFICACIÓN DEL USO DE LAS PRUEBAS NO PARAMÉTRICAS........................................................ 4
-BONDAD DE AJUSTE........................................................................................................................... 5
-ANÁLISIS JI-CUADRADA.................................................................................................................. 5
-P. D/LA BONDAD DE AJUSTE .......................................................................................................... 5
-TABLAS DE CONTINGENCIA............................................................................................................ 6
-PRUEBA DE INDEPENDENCIA ......................................................................................................... 7
-MÉTODOS PARAMÉTRICOS CONTRA NO PARAMÉTRICOS ................................................................ 8
-PRUEBAS NO PARAMÉTRICAS ............................................................................................................ 9
-PRUEBA DE RANGOS CON SIGNO DE WILCOXON PARA LA MEDIANA .......................................... 9
-PRUEBA DE RANGOS CON SIGNO DE WILCOXON PARA LA DIFERENCIA DE 2 MEDIANAS (2 POBLACIONES
DEPENDIENTES, DATOS PAREADOS) ............................................................................................. 10
-PRUEBA DE LAS CORRIDAS .......................................................................................................... 11
-PRUEBAS PARA VERIFICAR LA NORMALIDAD EN UN GRUPO DE DATOS ........................................ 11
-PRUEBA DE KOLMOGOROV – SMIRNOV...................................................................................... 11
-PRUEBA DE ANDERSON – DARLING ............................................................................................. 12
-PRUEBA DE RYAN – JOINER ......................................................................................................... 12
-PRUEBA DE SHAPPIRO – WILK ..................................................................................................... 13
MAPA CONCEPTUAL.......................................................................................................................... 14
BIBLIOGRAFÍA .................................................................................................................................... 15
VIDEOS .............................................................................................................................................. 15

2
INTRODUCCIÓ
El término estadística no paramétrica se refiere a un conjunto de método, inferenciales válidos
para formas muy diversas de distribución de la población La aplicación de estos métodos no
requiere modelo de población, en el sentido de un parámetro específico relacionado con la forma
de la curva que representa a la población en estudio, como sí es necesario, por ejemplo, en el
caso de la distribución normal. En el contraste de hipótesis, las pruebas estadísticas no
paramétricas usualmente emplean algunos datos más simples de la muestra, como los signos de las
mediciones, las relaciones de orden o las categorías de las frecuencias. Estos rasgos generales no
requieren escalas de medición numéricas significativas. Por otra parte, aún más importante es que a
estos métodos no los afecta el alargamiento o estrechamiento de la escala.
En este documento se busca mediante definiciones de conceptos el entendimiento de estos temas que son
tan importantes en la estadística inferencial y que nos serán ultiles a la hora de aplicarlas en el campo laboral.

3
-JUSTIFICACIÓN DEL USO DE LAS PRUEBAS NO PARAMÉTRICAS
Las pruebas estadísticas paramétricas y no paramétricas se diferencian por el tipo de datos que se usan para
analizar. Las pruebas paramétricas hacen muchas suposiciones, la más significativa de las cuales es que los
datos se distribuyen normalmente. Las pruebas no paramétricas hacen menos suposiciones y hacen frente a
los datos que no se distribuyen normalmente. Las pruebas paramétricas generalmente tienen una mayor
potencia estadística.
Las pruebas paramétricas simplemente son procedimientos estadísticos que poseen ciertas propiedades bajo
supuestos valores generales y sin importar la población de la cual los datos han sido obtenidos. Estos son
aplicables cuando la teoría de normalidad no puede ser utilizada, por ejemplo cuando no se trabaja con
magnitudes de observaciones sino con sus rangos.
Las pruebas no paramétricas pueden utilizarse como abreviaciones para pruebas más complicadas. Son
especialmente valiosas para datos no numéricos, como cuando los consumidores ordenan cereales u otros
productores de acuerdo con su preferencia.
Las pruebas no paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos, son
las que, a pesar de basarse en determinadas suposiciones, no parten de la base de que los datos analizados
adoptan una distribución normal. Las pruebas no paramétricas no requieren asumir normalidad de la población
y en su mayoría se basan en el ordenamiento de los datos, la población tiene que ser continua. Son técnicas
estadísticas que no presuponen ningún modelo probabilístico teórico. Son menos potentes que las técnicas
paramétricas, aunque tienen la ventaja que se pueden aplicar más fácilmente.
Las pruebas no paramétricas son, sin duda, las técnicas estadísticas más frecuentemente utilizadas por
analistas e investigadores en todo tipo áreas científicas, pero su utilidad se ve reducida, fundamentalmente, por
dos razones: por un lado, exigen el cumplimiento de algunos supuestos que en ocasiones pueden resultar
demasiado exigentes; por otro, obligan a trabajar con unos niveles de medida que, especialmente en las ciencias
sociales y de la salud, no siempre resulta fácil alcanzar.
Los métodos no paramétricos se aplican a una gran variedad de situaciones, ya que no se requiere que cumplan
ciertas condiciones como lo es el de la distribución normal de los datos como es el caso de los métodos
paramétricos. Se aplican principalmente cuando empleamos datos nominales, como es el caso en muchas de
las respuestas que se emplean en las encuestas y en muchas pruebas de psicología y pedagogía. Sus cálculos
son más sencillos y nos permiten una interpretación más fácil de entender y aplicar, aunque la potencia de las
pruebas es menor a las pruebas paramétricas.
Existen numerosos métodos de pruebas no paramétricas para escoger y seleccionar la que mejor nos convenga
dependiendo de la situación que deseemos plantear, todas ellas con una característica en común, arrojan
resultados que nos permite tomar las decisiones.

 Prueba de Chicuadrado de Pearson


 Rachas de pruebas
 Prueba de los Signos
 Prueba de Wilcoxon
 Prueba U de Mann- Whitney
 Prueba de Rachas de Wald- Wolfowitz, entre otras donde solo estaremos desarrollando y analizando las
más fundamentales.

Ventajas de las pruebas no paramétricas.

 Por lo general, son fáciles de usar y entender.


 Se pueden usar con muestras pequeñas.
 Se pueden usar con datos cualitativos.
 Son convenientes cuando no se conoce la distribución de la población.

Desventajas de las pruebas no paramétricas.


4
 A veces, ignoran, desperdician o pierden información.
 No son tan eficientes como las pruebas paramétricas.
 Llevan a una mayor probabilidad de no rechazar una hipótesis nula falsa (incurriendo en un error de tipo
II).
 Utilizan menor información de la variable

-BONDAD DE AJUSTE
La bondad de ajuste de un modelo estadístico describe lo bien que se ajusta un conjunto de observaciones. Las
medidas de bondad en general resumen la discrepancia entre los valores observados y los valores esperados
en el modelo de estudio. Tales medidas se pueden emplear en el contraste de hipótesis, e.g. el test de
normalidad de los residuos, comprobar si dos muestras se obtienen a partir de dos distribuciones idénticas (ver
test de Kolmogorov-Smirnov), o si las frecuencias siguen una distribución específica (ver ji cuadrada).

-ANÁLISIS JI-CUADRADA
Esta prueba es aplicable para variables aleatorias discretas o continuas. Sea una muestra aleatoria de tamaño
n tomada de una población con una distribución especificada f0(x) que es de interés verificar. Suponer que las
observaciones de la muestra están agrupadas en k clases, siendo oi la cantidad de observaciones en cada
clase i = 1, 2, ..., k. Con el modelo especificado f0(x) se puede calcular la probabilidad pi que un dato cualquiera
Pertenezca a una clase i. Con este valor de probabilidad se puede encontrar la frecuencia esperada ei para la
clase i, es decir, la cantidad de datos que según el modelo especificado deberían estar incluidos en la clase i:
ei = pi n, i = 1, 2, ..., k Tenemos entonces dos valores de frecuencia para cada clase i oi: frecuencia observada
(corresponde a los datos de la muestra) ei: frecuencia esperada (corresponde al modelo propuesto) La teoría
estadística demuestra que la siguiente variable es apropiada para
realizar una prueba de bondad de ajuste: Dado un nivel de significancia α se
define un valor crítico 2
χα para el rechazo de la hipótesis propuesta Ho: f(x) = f0(x). Si las frecuencias observadas no difieren
significativamente de las frecuencias esperadas calculadas con el modelo propuesto, entonces el valor de
estadístico de prueba χ2 será cercano a cero, pero si estas diferencias son significativas, entonces el valor del
estadístico χ2 estará en la región de rechazo de Ho.

-P. D/LA BONDAD DE AJUSTE


Una extensión de la prueba sobre la proporción binomial ocurre cuando una realización puede clasificarse en k
posibles categorías en vez de dos (éxito y fracaso). Esto puede ocurrir en la elección de un individuo de un
partido político (tricolor, amarillo, azul, otro), en el tipo de delito por el cual un individuo es recluido (un delito de
violencia, un delito de cuello blanco, otro), por mencionar algunos ejemplos.
Supóngase que en una muestra en particular se observa que ocurre un conjunto de eventos posibles E1, E2, E3,
…, Ek (véase la tabla), con frecuencias o1, o2, o3, …, ok, denominadas frecuencias observadas, y que de acuerdo
con las reglas de probabilidad, se espera que ocurran con frecuencias e1, e2, e3, …, ek, llamdas frecuencias
esperadas. En un escenario como el descrito arriba se desea saber si las frecuencias observadas difieren
significativamente de las frecuencias esperadas.

Evento E1 E2 E3 … Ek
Frecuencia observada o1 o2 o3 … ok
Frecuencias esperadas e1 e2 e3 … ek

5
El estadístico  proporciona una medida de la discrepancia existente entre la frecuencia observada y la
2

frecuencia esperada, que está dada por

k (o  e )
(o  e ) 2 (o  e ) 2 (o  e ) 2
2

  1 1  2 2  ...  k k   j j
2
(1)
e1 e2 ek j 1 ej

Donde, se la frecuencia total es n,

 o e
j j  n. (2)

La hipótesis nula que se desea probar es


H0: p1=p10,…pk = pk0
Contra
Ha: al menos una pj ≠ pj0 para j=1,…,k,
Donde pj0 es la proporción correspondiente a la j-ésima categoría.
Nótese que bajo H0 ej = n pj0.

Bajo la hipótesis nula, el estadístico  (ji-cuadrado) se distribuye aproximadamente  (k-1) y entonces se


2 2

rechaza H0 al nivel de significancia α si  excede el valor critico   1


2 2

-TABLAS DE CONTINGENCIA
Es un medio particular de representar simultáneamente dos carácteres observados en una misma población, si

son discretos o continuos reagrupados en clases. Los dos carácteres son e , el tamaño de la muestra

es . Las modalidades o clases de se escribirán , las de , . Se denota

el efectivo conjunto de y : es el número de individuos para los cuales toma el valor e el

valor ,

el efectivo marginal de : es el número de individuos para los cuales toma el valor ,

6
el efectivo marginal de : es el número de individuos

para los cuales toma el valor .


Se representan estos valores en una tabla de doble entrada, llamada tabla de contingencia:

Cada fila y cada columna corresponden a una submuestra particular. La fila de índice es la distribución

en , de los individuos para los cuales el carácter toma el valor . La columna de índice es

la distribución sobre , de los individuos para los cuales el carácter toma el valor . Dividiendo
las filas y las columnas por sus sumas, obtenemos en cada una, distribuciones empíricas formadas

por frecuencias condicionales. Para y , las denotaremos:

-PRUEBA DE INDEPENDENCIA
El objetivo es verificar si existe una dependencia entre las variables cualitativas que definen filas y columnas,
es decir, si para todo i = 1, ...,k y j = 1, ..,m se verifica que la probabilidad del resultado correspondiente a la
combinación Ai ∩ Bj es el producto de las probabilidades marginales correspondientes. P (Ai ) es la probabilidad
del resultado i para la variable fila y
P (Bj ) la del resultado j para la variable columna.
P (Ai ∩ Bj ) = P (Ai ) ·P (Bj )
Utilizaremos generalmente la notación más simplificada:
P (Ai ∩ Bj ) = pij
P (Ai ) = pi·
P (Bj ) = p·j

Los valores de pi · y p·j se estimarán, a partir de los valores observados en la tabla de contingencia, por ni·/N
y n·j /N respectivamente.
Hipótesis nula de independencia: para toda combinación de resultados de las variables fila y columna (i, j ).
H0: pij = pi · p · j para todo i = 1, ...,k j = 1, ..,m
La hipótesis alternativa, que implica dependencia, se puede formular diciendo que alguna de las igualdades de
la hipótesis nula es falsa. Los valores observados son nij.

7
Los valores esperados bajo la hipótesis nula de independencia se calculan de la manera siguiente: eij = N ·pij
= N ·pi ·p·j = N · (ni ·/N ) · (n·j /N ) = (ni · n· j )/N

El estadístico de contraste se calcula de la manera habitual:

La distribución asintótica bajo la hipótesis nula es una χ2 con (k − 1) · (m − 1) grados de libertad. Los grados de
libertad pueden entenderse, de manera intuitiva, entendiendo que el número de parámetros que se estiman son
(k − 1) y (m − 1), ya que queda fijada la probabilidad de la última clase de cada característica una vez estimadas
las restantes. Por tanto, aplicando la fórmula para los grados de libertad se obtiene:
grados de libertad = número de clases − número de parámetros estimados − 1
grados de libertad = k · m − (k − 1) − (m − 1) − 1 = (k − 1) · (m − 1)
El criterio de decisión es el mismo que en el caso general:
Rechazamos la hipótesis nula si

donde el último término es el valor crítico asociado con una distribución χ2, con (k − 1) · (m − 1) grados de
libertad, tal que deja a su derecha una probabilidad igual a α.
La condición de validez es que las frecuencias esperadas eij sean mayores que 5.

-MÉTODOS PARAMÉTRICOS CONTRA NO PARAMÉTRICOS

EL CASO DE DOS MUESTRAS: Las pruebas estadísticas de dos muestras se usan cuando el investigador
desea establecer la diferencia entre dos tratamientos o si un tratamiento es mejor que otro. Por ejemplo
adiestramiento, uso de psicofármaco, en cada caso el grupo que ha sufrido el tratamiento es comparado con el
que no lo ha experimentado o que ha sufrido un tratamiento diferente.

En la comparación de estos grupos, a veces se observan diferencias significativas que no son el resultado del
tratamiento, por ejemplo, en el estudio de los trabajadores que se someten a un entrenamiento diferente para
determinar cuál es el mejor para elevar su calificación, puede ser que la diferencia no se deba, realmente, a uno u
otro tratamiento, sino que uno de los grupos estaba más motivado por elevar rápidamente su calificación y, de esta
forma, no se refleja verdaderamente la efectividad del procedimiento de enseñanza.

Una forma de eliminar esta dificultad, es usar MUESTRAS RELACIONADAS estas se pueden lograr: Cuando el
propio sujeto es su propio control. Con parejas de sujetos en las que se asignan los miembros de cada pareja, a
las dos condiciones. La técnica paramétrica usual para analizar datos provenientes de dos muestras relacionadas
es aplicar la prueba t a los puntajes, estos se pueden obtener de los dos puntajes de cada pareja igualada o de
los puntajes de cada sujeto bajo las dos condiciones. Éstas pruebas determinan la medida en dije las diferencias
de las muestras indican, de forma convincente, una diferencia en el proceso aplicado en ellos.

En el caso de dos MUESTRAS INDEPENDIENTES, ellas pueden obtenerse: Tomando al azar sujetos de dos
poblaciones. Asignando al azar ambos tratamientos a miembros de algunas muestras de orígenes arbitrarios. No
es necesario que la muestra sea del mismo tamaño.

En este caso, la prueba t es la técnica paramétrica indicada para analizar los datos de las dos muestras
independientes.

8
-PRUEBAS NO PARAMÉTRICAS

La mayor parte de los procedimientos de prueba de hipótesis que se presentan en las unidades anteriores se
basan en la suposición de que las muestras aleatorias se seleccionan de poblaciones normales.
Afortunadamente, la mayor parte de estas pruebas aún son confiables cuando experimentamos ligeras
desviaciones de la normalidad, en particular cuando el tamaño de la muestra es grande. Tradicionalmente, estos
procedimientos de prueba se denominan métodos paramétricos. En esta sección se consideran varios
procedimientos de prueba alternativos, llamados no paramétricos ó métodos de distribución libre, que a menudo
no suponen conocimiento de ninguna clase acerca de las distribuciones de las poblaciones fundamentales,
excepto que éstas son continuas.

Los procedimientos no paramétricos o de distribución libre se usan con mayor frecuencia por los analistas de
datos. Existen muchas aplicaciones en la ciencia y la ingeniería donde los datos se reportan no como valores
de un continuo sino mas bien en una escala ordinal tal que es bastante natural asignar rangos a los datos.

Un ejemplo donde se aplica una prueba no paramétrica es el siguiente, dos jueces deben clasificar cinco marcas
de cerveza de mucha demanda mediante la asignación de un grado de 1 a la marca que se considera que tiene
la mejor calidad global, un grado 2 a la segunda mejor, etcétera. Se puede utilizar entonces una prueba no
paramétrica para determinar donde existe algún acuerdo entre los dos jueces.

Se debe señalar que hay varias desventajas asociadas con las pruebas no paramétricas. En primer lugar, no
utilizan la información que proporciona la muestra, y por ello una prueba no paramétrica será menos eficiente
que el procedimiento paramétrico correspondiente, cuando se pueden aplicar ambos métodos. En
consecuencia, para lograr la misma potencia, una prueba no paramétrica requerirá la correspondiente prueba
no paramétrica.

Como se indicó antes, ligeras divergencias de la normalidad tienen como resultado desviaciones menores del
ideal para las pruebas paramétricas estándar. Esto es cierto en particular para la prueba t y la prueba F. En el
caso de la prueba t y la prueba F, el valor P citado puede ser ligeramente erróneo si existe una violación
moderada de la suposición de normalidad.

En resumen, si se puede aplicar una prueba paramétrica y una no paramétrica al mismo conjunto de datos,
debemos aplicar la técnica paramétrica más eficiente. Sin embargo, se debe reconocer que las suposiciones
de normalidad a menudo no se pueden justificar, y que no siempre se tienen mediciones cuantitativas.

-PRUEBA DE RANGOS CON SIGNO DE WILCOXON PARA LA MEDIANA


Debido que se supone que la distribución subyacente es simétrica  =  así que se expresa la hipótesis de
interés en términos de  en vez de *.
Suposición: X1, X2,… Xn es una muestra aleatoria de una distribución de probabilidad continua y simétrica con
media y mediana ()
Cuando el valor supuesto de  es 0 las diferencias absolutas X1=0 …Xn=n se deben clasificar de menor
a mayor

Hipótesis nula: H0: µ=µ0


Valor del estadístico de prueba
S+= las sumaS de los rangos relacionados con (xi - µ0) positivas.
Hipótesis alternativa Región de rechazo para la prueba de nivel 
9
Ha:  > 0 S+ ≥ C1
Ha:  > 0 S+  C2 [donde C2 = n(n + 1)/2 - C1]
Ha:   0 Ya sea S+ ≥ C o S+  n(n + 1)/2 - C1
Donde los valores críticos C1. Cuando los valores críticos satisfacen P(S+ ≥ C1) ≈  y p(S+ ≥ C) ≈ /2 cuando
H0 es verdadera.
-PRUEBAS DE SUMAS DE RANGOS CON SIGNO DE WILCOXON PARA LA DIFERENCIA ENTRE
2 MEDIANAS (2 POBRACIONES INDEPENDIENTES)

La prueba de los rangos con signo de Wilcoxon es una prueba no paramétrica para comparar la mediana de
dos muestras relacionadas y determinar si existen diferencias entre ellas. Se utiliza como alternativa a laprueba
t de Student cuando no se puede suponer la normalidad de dichas muestras. Debe su nombre a Frank Wilcoxon,
que la publicó en 1945.1 Es una prueba no paramétrica de comparación de dos muestras relacionadas, debe
cumplir las siguientes características:

• Es libre de curva, no necesita una distribución específica • Nivel ordinal de la variable dependiente
• Se utiliza para comparar dos mediciones de rangos (medianas) y determinar que la diferencia no se deba
al azar (que la diferencia sea estadísticamente significativa).
Se utiliza cuando la variable subyacente es continua pero no se presupone ningún tipo de distribución particular.

Suponga que se dispone de n pares de observaciones, denominadas . El objetivo del test es comprobar
si puede dictaminarse que los valores e son o no iguales.
La hipótesis nula es : . Retrotrayendo dicha hipótesis a los valores originales, ésta vendría a
decir que son en cierto sentido del mismo tamaño.

Para verificar la hipótesis, en primer lugar, se ordenan los valores absolutos y se les asigna
su rango . Entonces, el estadístico de la prueba de los signos de Wilcoxon, , es

es decir, la suma de los rangos correspondientes a los valores positivos de .


La distribución del estadístico puede consultarse en tablas para determinar si se acepta o no la hipótesis
nula.
En ocasiones, esta prueba se usa para comparar las diferencias entre dos muestras de datos tomados antes y
después del tratamiento, cuyo valor central se espera que sea cero. Las diferencias iguales a cero son
eliminadas y el valor absoluto de las desviaciones con respecto al valor central son ordenadas de menor a
mayor. A los datos idénticos se les asigna el lugar medio en la serie. La suma de los rangos se hace por
separado para los signos positivos y los negativos. S representa la menor de esas dos sumas.
Comparamos S con el valor proporcionado por las tablas estadísticas al efecto para determinar si rechazamos
o no la hipótesis nula, según el nivel de significación elegido.
-PRUEBA DE RANGOS CON SIGNO DE WILCOXON PARA LA DIFERENCIA DE 2 MEDIANAS (2
POBLACIONES DEPENDIENTES, DATOS PAREADOS)
Es útil para probar la aseveración de que una muestra proviene de una población con una mediana específica.
Se emplea para grupos correlacionados (datos apareados) y cuyos datos no siguen una distribución normal
Esta prueba toma en cuenta la magnitud como la dirección de los puntajes de diferencia
Puede emplearse en lugar de la prueba t para grupos dependientes cuando no se tiene certeza de la distribución
de la muestra y no se tiene datos sobre la población
Es una prueba no pará métrica que utiliza rangos ordenados de datos muéstrales consistentes en datos
apareados. Se usa para probar las diferencias en las distribuciones poblacionales y se basa en los siguientes
supuestos:
Los datos consisten en datos apareados que se seleccionan aleatoriamente.
La podemos emplear para evaluar si dos grupos dependientes tienen distribuciones similares.
10
La distribución de las diferencias tiene una distribución que es aproximadamente simétrica.
Los datos dentro de cada pareja deben ser por lo menos de mediciones ordinales.
Para calcular Tobt hay que ordenar por rangos de puntaje de diferencia.
Suposiciones y pasos a considerar:
1. Los datos se ordenan de acuerdo a un criterio, por ejemplo del más pequeño al más grande, o del mayor
a menor, etc.
2. El rango es el número que se asigna a un elemento muestral individual de acuerdo con su orden en la
lista ordenada
3. Se descartan todas las diferencias iguales a cero y se ordenan y etiquetan las diferencias absolutas
restantes, desde la mínima hasta la máxima.
4. Cuando las diferencias son iguales se les asigna la clasificación media a sus posiciones ordenadas en
el conjunto combinado de datos
5. La idea básica que está detrás de la prueba del signo es el análisis de las frecuencias de los signos
positivos y negativos para determinar si son significativamente diferentes
6. Emplearemos el estadístico de prueba con base en el número de veces que ocurre el signo menos
frecuente.

-PRUEBA DE LAS CORRIDAS


Las pruebas de las corridas, que se basan en el orden en el que se obtienen las observaciones muestrales, es
una técnica útil para probar la hipótesis nula H0 de que las observaciones en realidad se extraen al azar.
Para ilustrar las pruebas de corridas. Supongamos que se encuestan 12 personas para saber si utilizan cierto
producto. Se cuestionara seriamente la supuesta aleatoriabilidad de la muestra si las 12 personas fueran del
mismo sexo. Designaremos un hombre y una mujer con los símbolos M y F, respectivamente, y registraremos
los resultados de acuerdo con su sexo en el orden en que ocurren. Subsecuencia típica para el experimento
podría ser
MM FFF M FF MMMM
Donde agrupamos las subsecuencias de símbolos similares. Tales agrupamientos se llaman corridas.
Definición: una corrida es una subsecuencia de uno o más símbolos idénticos que representan una propiedad
común de los datos.

-PRUEBAS PARA VERIFICAR LA NORMALIDAD EN UN GRUPO DE DATOS

Un caso específico de ajuste a una distribución teórica es la correspondiente a la distribución normal. Este
contraste se realiza para comprobar si se verifica la hipótesis de normalidad necesaria para que el resultado de
algunos análisis sea fiable, como por ejemplo para el ANOVA.

Para comprobar la hipótesis nula de que la muestra ha sido extraída de una población con distribución de
probabilidad normal se puede realizar un estudio gráfico y/o analítico.

-PRUEBA DE KOLMOGOROV – SMIRNOV


La prueba de bondad de ajuste de Kolmogorov-Smirnov es una alternativa para probar que una muestra
“proviene” de una distribución continua (normal). Esta prueba se basa en la comparación entre la función
distribución acumulada de una distribución teórica con la función distribución acumulada de la muestra.

Si las funciones de distribución acumulada teórica y muestral no son significativamente diferentes, entonces
decimos que la muestra proviene de la distribución cuya función distribución acumulada es Ft(x). Sin embargo,
si las diferencias entre las funciones distribución acumuladas son muy grandes como para que no sean debidas
solamente al azar, rechazamos Ho

Los pasos a seguir en la prueba de bondad de ajuste de Kolmogorov-Smirnov son los siguientes:
 Plantear la hipótesis: Ho: Fm(X)=Ft(X) para todo X E R; Ha: Fm(X)=Ft(X), por lo menos para un X.
11
 Calcular todos los valores Fm(X) de la muestra X1,X2,….,Xn.
 Determinar la desviación máxima, que está dada por el supremo de los valores absolutos de las
diferencias entre los valores de la función acumulada teórica y de la muestra.
 Escoger un nivel de significación
 De acuerdo al resultado se toma la decisión
Las suposiciones en la prueba de bondad de ajuste de Kolmogorov-Smirnov son:
1. Muestras Aleatorias
2. La población deber ser continua en la variable observada
3. La prueba no es validad si se tiene que estimar uno o más parámetros usando los datos de la
muestra.
-PRUEBA DE ANDERSON – DARLING
La prueba de Anderson-Darling es usada para probar si una muestra viene de una distribución especifica. Esta
prueba es una modificación de la prueba de Kolmogorov- Smirnov donde se le da más peso a las colas de la
distribución que la prueba de Kolmogorov-Smirnov.

En estadística, la prueba de Anderson-Darling es una prueba no paramétrica sobre si los datos de una muestra
provienen de una distribución específica. La fórmula para el estadístico determina si los datos (observar que los
datos se deben ordenar) vienen de una distribución con función acumulativa F.

Donde:
n es el número de datos
f(x): es la función de distribución de probabilidad teórica
FS(X): es la función de distribución empírica.
Para definir la regla de rechazo para esta prueba es
necesario, también, obtener el estadístico ajustado para
luego compararlo con los valores críticos de la tabla de
Anderson- Darling

Una vez obtenido el estadístico ajustado, la regla de rechazo


se realiza análogamente a la utilizada en la prueba de K-S.

El estadístico de la prueba se puede entonces comparar


contra las distribuciones del estadístico de prueba
(dependiendo que F se utiliza) para determinar el P- valor.

-PRUEBA DE RYAN – JOINER


La prueba de ryan – joiner es usada para probar si una muestra viene de muestra especifica. Esta prueba es
una modificación de la prueba de Kolmogorck – Smirnov donde se da más paso a las colas de la distribución
que la prueba de Kolmogorck – Smirnov.
Es una prueba no paramétrica donde sobre si los datos de una muestra proviene de una distribución especifica
la fórmula para el estadístico determina si los datos (observar que los datos se deben ordenar) vienen de una
distribución con acumulativa F.
Formulas:
𝐴2 = −𝑁 − 𝑆

12
Donde el estadístico de prueba para la prueba de Anderson – Darling:

-PRUEBA DE SHAPPIRO – WILK

Mide el ajuste de la muestra a una recta, al dibujarla en papel probabilístico normal. Este tipo de representación
también lo proporcionan algunos programas de estadística, de tal manera que nos permite además apreciar el
ajuste o desajuste de forma visual:

En escala probabilística normal se representa en el eje


horizontal, para cada valor observado en nuestros datos, la
función de distribución o probabilidad acumulada observada, y
en el eje vertical la prevista por el modelo de distribución normal.
Si el ajuste es bueno, los puntos se deben distribuir
aproximadamente según una recta a 45º. En la imagen vemos
que en este ejemplo existe cierta discrepancia.

En cualquier caso siempre es adecuado efectuar una


representación gráfica de tipo histograma de los datos, y
comparar el valor de la media y la mediana, así como evaluar el
coeficiente de asimetría y apuntamiento, además de llevar a cabo
una representación en escala probabilística de la distribución de
probabilidad esperada versus observada, como la de la figura.

Cuando la muestra es como máximo de tamaño 50 se puede


contrastar la normalidad con la prueba de shapiro Shapiro-Wilk. Para efectuarla se calcula la media y la varianza
muestral, S2, y se ordenan las observaciones de menor a mayor. A continuación se calculan las diferencias
entre: el primero y el último; el segundo y el penúltimo; el tercero y el antepenúltimo, etc. y se corrigen con unos
coeficientes tabulados por Shapiro y Wilk. El estadístico de prueba es:

donde D es la suma de las diferencias corregidas.

Se rechazará la hipótesis nula de normalidad si el estadístico W es menor que el valor crítico


proporcionado por la tabla elaborada por los autores para el tamaño muestral y el nivel de
significación dado.

13
MAPA CONCEPTUAL

sirve para someter a prueba hipotesis


Análisis Ji- Cuadrada
referidas a dist. de muestra

Resumen la discrepancia entre los


P. d/la bondad de ajuste valores observados y los valores
esperados en el modelo de estudio

Bondad de ajuste

Se emplean para registrar y analizar la


Tablas de contingencia
asociacion entre dos o mas variables

Su objetivo es verificar si existe una


dependencia entre las variables
Una prueba de independencia
cualitativas que definen filas y
columnas

Kilmogorov-
Smirnov

Pruebas para
verificar la
Shappiro- Anderson-
normalidad
Wilk de un grupo Darling
de datos

Ryan-Joiner

14
BIBLIOGRAFÍA
 Marqués dos Santos, María José; Estadística Básica: un enfoque no paramétrico, Universidad
Nacional Autónoma de México, Facultad de Estudios Superiores Zaragoza
 Llinás Solano, Humberto; Estadística inferencial, Ediciones Uninorte, 2006
 Est. Básica p Admón. - Berenson, Levine
 Probabilidad y Estadística Aplicadas a la Ingeniería (Montgomery - Runger) - 2º Edición [Cap 1
- 8]

VIDEOS
 ¿Qué es una prueba de bondad de ajuste?
https://www.youtube.com/watch?v=U8ZpUT1c8A4
 Unidad 8 Pruebas no paramétricas
https://www.youtube.com/watch?v=P9Si2FD_mJA

15

También podría gustarte