Está en la página 1de 17

1

Contenido
4.1 BONDAD DE AJUSTE.....................................................................................................................2
4.1.1 ANÁLISIS Ji-CUADRADA.........................................................................................................2
4.1.2 PRUEBA DE INDEPENDENCIA.....................................................................................................3
4.2.1 ESCALA DE MEDICIÓN...............................................................................................................9
4.2 MÉTODOS ESTADÍSTICOS CONTRA NO PARAMÉTRICOS............................................................10
4.2.3 PRUEBA DE KOLMOGOROV-SMIRNOV....................................................................................13
4.2.4 PRUEBA DE ANDERSON-DARLING...........................................................................................14
4.2.5 PRUEBA DE RYAN-JOINER........................................................................................................15
4.2.6 PRUEBA DE SHAPPIRO-WILK....................................................................................................16
4.1 BONDAD DE AJUSTE 2
La bondad de ajuste de un modelo estadístico describe lo bien que se ajusta un
conjunto de observaciones. Las medidas de bondad en general resumen la
discrepancia entre los valores observados y los k valores esperados en el modelo
de estudio. Tales medidas se pueden emplear en el contraste de hipótesis, e.g.
el test de normalidad de los residuos, comprobar si dos muestras se obtienen a
partir de dos distribuciones idénticas o si las frecuencias siguen una distribución
específica.

4.1.1 ANÁLISIS Ji-CUADRADA


La prueba Ji cuadrada hace uso de la distribución del mismo nombre para probar
la bondad del ajuste al comparar el estadístico de prueba Xo2 con el valor en
tablas de la mencionada distribución Ji cuadrada con v grados de libertad y un
nivel de significancia alfa. En la siguiente sección aplicaremos esta prueba para
probar la hipótesis nula de que los números aleatorios (provenientes de un
generador) se ajustan a la distribución teórica uniforme continuo.

Sea X una variable aleatoria discreta con valores x1, x2, ......., xn Se propone la
hipótesis nula H0, de que la distribución de donde proviene la muestra se
comporta según un modelo teórico específico tal como la uniforme, la exponencial,
la normal, etc. Entonces FOi, representa el número de veces que ocurre el valor xi
mientras que FEi, es la frecuencia esperada proporcionada por el modelo teórico
propuesto. A menudo ocurre que muchas de las frecuencias FEi, (y también
las FOi) son muy pequeñas, entonces, como regla práctica adoptamos el criterio
de agrupar los valores consecutivos de estas frecuencias esperadas hasta que su
suma sea de al menos cinco. La medida estadística de prueba para la hipótesis
nula es:

Para n grande este estadístico de prueba tiene una distribución X2 aproximada


con V grados de libertad dados por
V = (k –1) – (número de parámetros estimados) 3

Así, si se estiman dos parámetros como la media y la varianza, la medida


estadística tendrá (k – 3) grados de libertad.

Se puede aplicar esta prueba a variables continúas agrupando adecuadamente los


valores en un número adecuado de subintervalos o clases k. Una regla empírica
para seleccionar el número de clases es:

4.1.2 PRUEBA DE INDEPENDENCIA

El objetivo es verificar si existe una dependencia entre las variables cualitativas


que definen filas y columnas, es decir, si para todo i = 1, ..., k y j = 1, .., m se
verifica que la probabilidad del resultado correspondiente a la
combinación Ai ∩ Bj  es el producto de las probabilidades marginales
correspondientes. P(Ai) es la probabilidad del resultado i para la variable fila
y P(Bj) la del resultado j para la variable columna.

P (Ai ∩ Bj) = P(Ai) · P(Bj)

Utilizaremos generalmente la notación más simplificada:

P(Ai ∩ Bj) = pij

P(Ai) = pi·

P(Bj) = p·j

Los valores de pi· y p·j se estimarán, a partir de los valores observados en la tabla


de contingencia, por ni·/N  y n·j/N respectivamente.

Hipótesis nula de independencia: para toda combinación de resultados de las


variables fila y columna (i, j).
H0: pij = pi· p·j                  para todo      i = 1, ..., k    j = 1, .., m 4

La hipótesis alternativa, que implica dependencia, se puede formular diciendo que


alguna de las igualdades de la hipótesis nula es falsa.

Los valores observados son nij. Los valores esperados bajo la hipótesis nula de
independencia se calculan de la manera siguiente:

eij = N · pij = N · pi· · p·j = N · (ni·/N ) · (n·j/N ) = (ni· · n·j )/N

El estadístico de contraste se calcula de la manera habitual:

La distribución asintótica bajo la hipótesis nula es una χ 2 con (k − 1) · (m − 1)


grados de libertad. Los grados de libertad pueden entenderse, de manera intuitiva,
entendiendo que el número de parámetros que se estiman son (k − 1) y (m − 1),
ya que queda fijada la probabilidad de la última clase de cada característica una
vez estimadas las restantes. Por tanto, aplicando la fórmula para los grados de
libertad se obtiene:

Grados de libertad = número de clases − número de parámetros estimados − 1

Grados de libertad = k · m − (k − 1) − (m − 1) − 1 = (k − 1) · (m − 1)

El criterio de decisión es el mismo que en el caso general:

Rechazamos la hipótesis nula si


Donde el último término es el valor crítico asociado con una distribución χ2, 5
con (k − 1) · (m − 1) grados de libertad, tal que deja a su derecha una probabilidad
igual a α.

La condición de validez es que las frecuencias esperadas eij sean mayores que 5.

4.1.3 PRUEBA DE LA BONDAD DE AJUSTE


Una extensión de la prueba sobre la proporción binomial ocurre cuando una
realización puede clasificarse en k posibles categorías en vez de dos (éxito y
fracaso). Esto puede ocurrir en la elección de un individuo de un partido político
(tricolor, amarillo, azul, otro), en el tipo de delito por el cual un individuo es recluido
(un delito de violencia, un delito de cuello blanco, otro), por mencionar algunos
ejemplos.

Supóngase que en una muestra en particular se observa que ocurre un conjunto


de eventos posibles E1, E2, E3, …, Ek (véase la tabla), con frecuencias o 1, o2, o3, …,
ok, denominadas frecuencias observadas, y que de acuerdo con las reglas de
probabilidad, se espera que ocurran con frecuencias e 1, e2, e3, …, ek, llamdas
frecuencias esperadas. En un escenario como el descrito arriba se desea saber si
las frecuencias observadas difieren significativamente de las frecuencias
esperadas.

Evento E1 E2 E3 … Ek

Frecuencia observada o1 o2 o3 … ok

Frecuencias e1 e2 e3 … ek
esperadas

El estadístico  proporciona una medida de la discrepancia existente entre la


2

frecuencia observada y la frecuencia esperada, que está dada por

k (o  e ) 2
(o1  e1 ) 2 (o2  e2 ) 2 (o  e ) 2
2    ...  k k   j j

e1 e2 ek j 1 ej
1.
Donde, se la frecuencia total es n, 6

2.  o  e
j j n
.

La hipótesis nula que se desea probar es

H0: p1=p10,…pk = pk0

Contra

Ha: al menos una pj ≠ pj0 para j=1,…,k,

Donde pj0 es la proporción correspondiente a la j-ésima categoría.

Nótese que bajo H0 ej = n pj0.

Bajo la hipótesis nula, el estadístico 2 (ji-cuadrado) se distribuye

aproximadamente  (k-1) y entonces se rechaza H0 al nivel de significancia α si


2

 2 excede el valor critico 2 1 .

4.1.4 TABLAS DE CONTINGENCIA


Es un medio particular de representar simultáneamente dos caracteres
observados en una misma población, si son discretos o continuos reagrupados en

clases. Los dos caracteres son   e  , el tamaño de la muestra es  . Las

modalidades o clases de   se escribirán , las de  ,  . Se


denota

 el efectivo conjunto de   y   : es el número de individuos para los

cuales   toma el valor   e   el valor  ,


7

el efectivo marginal de   : es el número de individuos para los cuales   toma el

valor  ,

 el efectivo marginal de   : es el número de individuos para los cuales   toma el

valor  .

Se representan estos valores en una tabla de doble entrada, llamada  tabla de


contingencia:

Cada fila y cada columna corresponden a una submuestra particular. La fila de

índice   es la distribución en  , de los individuos para los cuales el

carácter   toma el valor  . La columna de índice   es la distribución

sobre  , de los individuos para los cuales el carácter   toma el valor 


. Dividiendo las filas y las columnas por sus sumas, obtenemos en cada
una, distribuciones empíricas formadas por frecuencias condicionales. Para

 y  , las denotaremos:


8
   y

4.2 PRUEBAS NO PARAMÉTRICAS

La mayor parte de los procedimientos de prueba de hipótesis que se presentan en


las unidades anteriores se basan en la suposición de que las muestras aleatorias
se seleccionan de poblaciones normales. Afortunadamente, la mayor parte de
estas pruebas aún son confiables cuando experimentamos ligeras desviaciones de
la normalidad, en particular cuando el tamaño de la muestra es grande.
Tradicionalmente, estos procedimientos de prueba se denominan métodos
paramétricos. En esta sección se consideran varios procedimientos de prueba
alternativos, llamados no paramétricos ó métodos de distribución libre, que a
menudo no suponen conocimiento de ninguna clase acerca de las distribuciones
de las poblaciones fundamentales, excepto que éstas son continuas.

Los procedimientos no paramétricos o de distribución libre se usan con mayor


frecuencia por los analistas de datos. Existen muchas aplicaciones en la ciencia y
la ingeniería donde los datos se reportan no como valores de un continuo sino
más bien en una escala ordinal tal que es bastante natural asignar rangos a los
datos.

Un ejemplo donde se aplica una prueba no paramétrica es el siguiente, dos jueces


deben clasificar cinco marcas de cerveza de mucha demanda mediante la
asignación de un grado de 1 a la marca que se considera que tiene la mejor
calidad global, un grado 2 a la segunda mejor, etcétera. Se puede utilizar entonces
una prueba no paramétrica para determinar donde existe algún acuerdo entre los 9
dos jueces.

Se debe señalar que hay varias desventajas asociadas con las pruebas no
paramétricas. En primer lugar, no utilizan la información que proporciona la
muestra, y por ello una prueba no paramétrica será menos eficiente que el
procedimiento paramétrico correspondiente, cuando se pueden aplicar ambos
métodos. En consecuencia, para lograr la misma potencia, una prueba no
paramétrica requerirá la correspondiente prueba no paramétrica.

Como se indicó antes, ligeras divergencias de la normalidad tienen como resultado


desviaciones menores del ideal para las pruebas paramétricas estándar. Esto es
cierto en particular para la prueba t y la prueba F. En el caso de la prueba t y la
prueba F, el valor P citado puede ser ligeramente erróneo si existe una violación
moderada de la suposición de normalidad.
En resumen, si se puede aplicar una prueba paramétrica y una no paramétrica al
mismo conjunto de datos, debemos aplicar la técnica paramétrica más eficiente.
Sin embargo, se debe reconocer que las suposiciones de normalidad a menudo no
se pueden justificar, y que no siempre se tienen mediciones cuantitativas.

4.2.1 ESCALA DE MEDICIÓN

Las variables de las escalas nominal y ordinal se denominan también categóricas,


por otra parte las variables de escala de intervalo o de razón se denominan
variables numéricas. Con los valores de las variables categóricas no tiene sentido
o no se puede efectuar operaciones aritméticas. Con las variables numéricas sí.

La escala nominal sólo permite asignar un nombre al elemento medido. Esto la


convierte en la menos informativa de las escalas de medición.
10

La escala ordinal, además de las propiedades de la escala nominal, permite


establecer un orden entre los elementos medidos. 

La escala de intervalo, además de todas las propiedades de la escala ordinal,


hace que tenga sentido calcular diferencias entre las mediciones.

Finalmente, la escala de razón permite, además de lo de las otras escalas,


comparar mediciones mediante un cociente.

4.2 MÉTODOS ESTADÍSTICOS CONTRA NO PARAMÉTRICOS


Las técnicas estadísticas de estimación de parámetros, intervalos de confianza y
prueba de hipótesis son, en conjunto, denominadas estadística paramétrica y son
aplicadas básicamente a variables continuas. Estas técnicas se basan en
especificar una forma de distribución de la variable aleatoria y de los estadísticos
derivados de los datos. En estadística paramétrica se asume que la población de
la cual la muestra es extraída es normal o aproximadamente normal. Esta
propiedad es necesaria para que la prueba de hipótesis sea válida. Sin embargo,
en un gran número de casos no se puede determinar la distribución original ni la 11
distribución de los estadísticos por lo que en realidad no tenemos parámetros a
estimar. Tenemos solo distribuciones que comparar. Esto se llama estadística no-
paramétrica. Las hipótesis de una prueba no paramétrica se refieren a algo distinto
del valor de un parámetro de la población.

Las principales pruebas no paramétricas son las siguientes:

• Prueba χ² de Pearson
• Prueba binomial
• Prueba de Anderson-Darling
• Prueba de Cochran
• Prueba de Cohen kappa
• Prueba de Fisher Estadística Administrativa II 35
• Prueba de Friedman
• Prueba de Kendall
• Prueba de Kolmogórov-Smirnov
• Prueba de Kruskal-Wallis
• Prueba de Kuiper
• Prueba de Mann-Whitney o prueba de Wilcoxon
• Prueba de McNemar
• Prueba de la mediana
• Prueba de Siegel-Tukey
• Coeficiente de correlación de Spearman
• Tablas de contingencia
• Prueba de Wald-Wolfowitz
• Prueba de los signos de Wilcoxon

Características de algunas pruebas no paramétricas.


1. Prueba de signo para datos pares: los signos positivo o negativo sustituyen 12
a valores cuantitativos.
2. Prueba de suma de rangos: también llamada prueba U de MannWhitney,
que puede usarse para determinar si dos muestras independientes de
sacaron de la misma población.
3. Prueba de suma de rangos Kruskal – Wallis: generaliza el análisis de
varianza para poder prescindir de la suposición de que las poblaciones
tienen distribución normal.
4. Prueba de corridas de una sola muestra: es un método para determinar la
aleatoriedad con la que se han seleccionado los elementos muestreados.
5. Correlación de rango: método para hacer el análisis de correlación cuando
no se dispone de los datos para usar la forma numérica, pero cuando la
información es suficiente para clasificar los datos como primero, segundo,
tercero, etc.
6. Prueba de Kolmogorov: método para determinar la bondad de ajuste entre
una muestra observada y una distribución de probabilidad teórica.

Las pruebas no paramétricas, no requieren asumir normalidad de la población


y la mayoría se basan en el ordenamiento de los datos. El parámetro que se
usa para hacer las pruebas estadísticas es la Mediana y Media.
13

4.2.3 PRUEBA DE KOLMOGOROV-SMIRNOV


La prueba de Kolmogorov-Smirnov para una muestra se considera un
procedimiento de "bondad de ajuste", es decir, permite medir el grado de
concordancia existente entre la distribución de un conjunto de datos y una
distribución teórica específica. Su objetivo es señalar si los datos provienen de una
población que tiene la distribución teórica especificada.
Mediante la prueba se compara la distribución acumulada de las frecuencias
teóricas (ft) con la distribución acumulada de las frecuencias observadas (f obs),
se encuentra el punto de divergencia máxima y se determina qué probabilidad
existe de que una diferencia de esa magnitud se deba al azar.
En las tareas de investigación se pudo obtener un conjunto de observaciones, en
las cuales se supone que tienen una distribución normal, binomial, de Poisson,
etc. Para el caso, las frecuencias de las distribuciones teóricas deben contrastar
con las frecuencias observadas, a fin de conocer cuál distribución se adecua mejor
al modelo.

Pasos:
1. Calcular las frecuencias esperadas de la distribución teórica específica por
considerar para determinado número de clases, en un arreglo de rangos de
menor a mayor.
2. Arreglar estos valores teóricos en frecuencias acumuladas.
3. Arreglar acumulativamente las frecuencias observadas.
4. Aplicar la ecuación D = ft - f obs, donde D es la máxima discrepancia de 14
ambas.
5. Comparar el valor estadístico D de Kolmogorov-Smirnov en la tabla de
valores críticos de D.
6. Decidir si se acepta o rechaza la hipótesis.

Ecuación:
D = ft - fobs

En esta ecuación se aprecia que el procedimiento es muy simple y quizá lo que


parezca más complicado corresponde al cálculo de la frecuencia esperada de
cada tipo de distribución teórica. Por lo tanto, en la marcha de los ejercicios se
presentará cada uno de ellos y la manera de aplicar la prueba estadística.

4.2.4 PRUEBA DE ANDERSON-DARLING


La prueba de Anderson-Darling es una prueba no paramétrica sobre si los datos
de una muestra provienen de una distribución específica. La fórmula para el

estadístico A determina si los datos   (observar que los datos se


deben ordenar) vienen de una distribución con función acumulativa 

Donde

El estadístico de la prueba se puede entonces comparar contra las distribuciones


del estadístico de prueba (dependiendo que   se utiliza) para determinar el P-
valor.

La prueba de Anderson-Darling es una prueba estadística que permite determinar


si una muestra de datos se extrae de una distribución de probabilidad. En su forma
básica, la prueba asume que no existen parámetros a estimar en la distribución 15
que se está probando, en cuyo caso la prueba y su conjunto de valores críticos
siguen una distribución libre. Sin embargo, la prueba se utiliza con mayor
frecuencia en contextos en los que se está probando una familia de distribuciones,
en cuyo caso deben ser estimados los parámetros de esa familia y debe tenerse
estos en cuenta a la hora de ajustar la prueba estadística y sus valores críticos.
Cuando se aplica para probar si una distribución normal describe adecuadamente
un conjunto de datos, es una de las herramientas estadísticas más potentes para
la detección de la mayoría de las desviaciones de la normalidad.

4.2.5 PRUEBA DE RYAN-JOINER


Esta prueba es una modificación de la prueba de Kolmogorov-Smirnov donde se le
da más peso a las colas de la distribución que la prueba de Kolmogorov-Smirnov.

En estadística, la prueba de Ryan -Joiner es una prueba no paramétrica sobre si,


los datos de una muestra provienen de una distribución específica. La fórmula
para el estadístico determina si los datos (observar que los datos se deben
ordenar) vienen de una distribución con función acumulativa F.

Esta prueba evalúa la normalidad calculando la correlación entre sus datos y las
puntuaciones normales de sus datos. Si el coeficiente de correlación se encuentra
cerca de 1, es probable que la población sea normal. La estadística de Ryan-
Joiner evalúa la solidez de esta correlación; si se encuentra por debajo del valor
crítico apropiado, usted rechazará la hipótesis nula de normalidad en la población.

Ecuación:

Usos: La prueba de Ryan - Joiner es usada para probar si una muestra viene de
una distribución específica.
Ejemplo: En la práctica, se tienen valores reales de promedio diferentes de cero y 16
con desviación estándar diferente de uno, para determinar la probabilidad o área
bajo la curva, se determina el número de desviaciones estándar

Z  σ  entre algún valor X y la media de la población  O de la muestra X

Como sigue:

4.2.6 PRUEBA DE SHAPPIRO-WILK


Cuando la muestra es como máximo de tamaño 50 se puede contrastar la
normalidad con la prueba de shapiro Shapiro-Wilk. Para efectuarla se calcula la
media y la varianza muestral, S2, y se ordenan las observaciones de menor a
mayor. A continuación se calculan las diferencias entre: el primero y el último; el
segundo y el penúltimo; el tercero y el antepenúltimo, etc. y se corrigen con unos
coeficientes tabulados por Shapiro y Wilk. El estadístico de prueba es:

Donde D es la suma de las diferencias corregidas.


Se rechazará la hipótesis nula de normalidad si el estadístico W es menor que el
valor crítico proporcionado por la tabla elaborada por los autores para el tamaño
muestral y el nivel de significación dado.
La secuencia para realizar los contrastes de normalidad es:

Analiza
Estadísticos Descriptivos
Explorar

En el cuadro de diálogo que aparece al activar el botón Gráficos se activa la


opción Gráficos con pruebas de normalidad.
17

También podría gustarte