Está en la página 1de 9

Universidad Panamericana

Estadística I
Prof. Andrés Sandoval H

Estadística no paramétrica

1. INTRODUCCIÓN

Las técnicas no paramétricas se utilizan ampliamente en las aplicaciones de las ciencias


sociales, para las suposiciones que requieren los problemas de índole paramétrica, no
son sencillas de verificar, como el supuesto de normalidad. Por ejemplo, cuando se desea
probar si varias muestras independientes proceden de la misma población, la prueba
indicada es el análisis de varianza de una vía, la prueba F.

El cálculo de estas pruebas, es sencillo, desde el punto de vista manual y


matemático, sin embargo, si se utiliza una computadora, ya cargados los archivos de toda
una encuesta, se puede solicitar que el paquete, que puede ser, el Statgraphics, el SPSS,
el BMDP o el SAS, entre otros, que obtenga rutinas y elabore los cálculos. Con estas
pruebas, no sólo manejan variables cuantitativas, sino también cualitativas.

1.1 Prueba de homogeneidad

Esta técnica, pertenece a la clasificación de la prueba de bondad de ajuste, con ella se


puede probar si hay una diferencia significativa entre los datos esperados o teóricos y los
datos observados. Los datos esperados o teóricos deben ir en igual proporción para cada
categoría, de esta situación es que toma el nombre de prueba de homogeneidad.

Procedimiento general para la prueba de homogeneidad

1. Definir claramente los datos observados, colocados en categorías. Cada


observación debe pertenecer a una y solamente a una categoría.
2. Definir los supuestos, en ellos se definen los requisitos del objetivo y el tipo de
prueba que se va a realizar.
3. Hipótesis: Se plantean un solo tipo de hipótesis.
a. Ho: todas las categorías tienen iguales frecuencias
b. H1: no todas las categorías tienen iguales frecuencias

4. Valor crítico: Se considera únicamente el área de cola derecha de la distribución X


2
. En las tablas del apéndice R, se consultan los valores de (gl = n – 1) y el nivel
por el que se desea.

Para llevar una prueba de homogeneidad se procede de la manera siguiente:

1. Escogemos una muestra de las poblaciones de interés.


2. Cada muestra la clasificamos de acuerdo con los criterios que hayamos escogido
para el estudio.
3. Realizamos una prueba ji- cuadrada similar al caso de independencia con
g.l = (r –1) (c - 1).
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H

La hipótesis nula se planteara de la siguiente manera. ¿ las muestras extraídas son de


poblaciones homogéneas respecto de algún criterio de clasificación.

Suponga que 200 maestros, 300 ingenieros y 400 médicos, participan en un estudio para
calcular la magnitud del
Consumo Maestros Ingenieros Médicos Total consumo de alcohol en
las tres Ocasional 100 50 100 250 profesiones. Los conteos
de Moderado 50 150 200 400 frecuencia se anotan en
una Alto 50 100 100 250 tabla de contingencia
similar Total 200 300 400 900 a la siguiente:

Suponga que al estudiar a 200 maestros, 300 ingenieros y 400 médicos, los resultados
obtenidos son los siguientes:

Se calcula las frecuencias esperadas en la tabla de contingencia suponiendo


homogeneidad

(Total del renglón i ) (total de la columna j )


eij 
tamaño de la muestra

El procedimiento de prueba para comparar frecuencias observadas con las frecuencias


k f  f ei  2


oi
 
2

i 1 f ei
esperadas, se parece a los cálculos de la prueba de independencia. Específicamente, el
valor de  basados en las frecuencias observadas y esperadas se calcula como sigue:
2

Consumo Maestros Ingenieros Médicos Total


Ocasional Oi = Valor observado en la
Moderado i-ésimo celda.
Alto Ei = Valor esperado en la
Total 200 300 400 900 i-ésimo celda.
K = Categorías o celdas.

Con n renglones y m columnas en la tabla de contingencia, el estadístico de prueba tiene


una distribución ji cuadrada con (n – 1) (m – 1) grados de libertad, siempre y cuando las
frecuencias esperadas sean 5 o más para todas las categorías. En consecuencia
proseguimos con el cálculo de la estadística de prueba ji cuadrada.
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H

1.2 Prueba de bondad de ajuste

Número de unidades con defecto Número de muestras


La prueba de bondad de ajuste
0 138 desea determinar qué tanto se
1 53 ajusta una distribución
2 ó más 9 observada a otra esperada o
teórica (en el caso de
homogeneidad, la distribución teórica debe tener valores iguales para todas las categorías
y en el caso de la bondad de ajuste esto no es requisito). En general se trabaja con
grados de libertad y el procedimiento de prueba es igual al de homogeneidad. La prueba
de homogeneidad es un importante subconjunto de estas pruebas.
Se dan casos especiales para el tratamiento de los grados de libertad, como es el
caso de la prueba de bondad de ajuste para distribución normal, en que los grados de
libertad son n – 3, ya que existen 3 restricciones, la primera por igualar lo esperado a lo
observado, y las otras dos para estimar μ y σ . Si estos dos valores se especifican de
antemano por ser ya conocidos, los grados de libertad serán n = 1.

PROBLEMA RESUELTO DE PRUEBA DE BONDAD DE AJUSTE

Si un ingeniero de control de calidad toma una muestra de 10 neumáticos que salen de


una línea de ensamblaje y él desea verificar sobre la base de los datos que siguen, los
números de llantas con defectos observadas en 200 días, si es cierto que el 5% de todos
los neumáticos tienen defecto; es decir, si el muestrea una población binomial con n = 10
y  = .05

1. Establecer la hipótesis

Ho: La población es binomial


Ha: La población no es binomial

2. Establecer la estadística de prueba

k f  f ei  2


oi
 
2

i 1 f ei
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H

Oi = Valor observado en la i-ésimo celda.


Ei = Valor esperado en la i-ésimo celda.
K = Categorías o celdas.
m = Parámetros

3. 3. Definir el nivel de significancia y la zona de rechazo

g,l = k- m – 1 = (3 – 0- 1) =
5.99

Nivel de significancia = 0.05


Zona de rechazo = {  /   5.99)
2 2

m = 0 porque no se necesito estimar ningún parámetro


4. Calculo de la estadística de prueba
k f  f ei  2


oi
 
2

i 1 f ei

Para poder calcular las frecuencias esperadas tenemos que calcular las
probabilidades utilizaremos la formula de la binomial
f ( x )   nx   x (1   ) n  x

donde n = 10  = 0.05

f (0)   10
0  0.05 ( 1  0.05)
0 10  0
= .599

f (1)   0.05 (1 0.05)


10
1
1 10 1
= .315

y la probabilidad de 2 ó más = 1.0 - .599 - .315 = .086

ahora ya podemos encontrar las frecuencias esperadas:


200 ( .599) = 119.8 200(.315) = 63 200 (.086) = 17.2

Al aplicar la formula se tiene:

(138  119 .8) 2 (53  63.0) 2 (9  17.2) 2


2   
119 .8 63 17.2 = 8.26
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H

5. Como 8.26 es mayor que 5.99,se rechaza la hipótesis nula con un nivel de
significancia de 0.05.

6. Conclusión
Se concluye que el porcentaje verdadero de neumáticos con defecto no es el 5%.

1.3 Prueba de independencia

Otra aplicación importante es la prueba de independencia. Cualquier variable puede


producir múltiples categorías, una clasificación se dice que es exhaustiva, cuando sus
categorías satisfacen las demandas de los elementos y no quedan algunos sin
colocación. También se dice que son mutuamente excluyentes cuando ellos están
definidos de tal manera que cada elemento de la población pertenece a una y solamente
a una de sus categorías.
Las variables podrán ser cualitativas o cuantitativas, en el caso de cuantitativas
generalmente se les baja su escala de medición a ordinal o hasta nominal.
Al tomarse una muestra, se genera la tabla de contingencia cuando sus elementos
son calcificados de acuerdo a dos o más variables de tipo cualitativo. La forma más
simple de ella es la tabla de 2 X 2, en ella se localizan dos variables que tienen cada una
solamente dos categorías.

Ilustraremos esta técnica con el estudio que realizó Cervecería Modelo, la cual fabrica y
distribuye tres tipos de cerveza: ligera, clara y oscura. En un análisis de segmentación de
mercado para las tres cervezas, el grupo de investigación encargado ha planteado la
duda de si la preferencia para las tres cervezas es diferente entre los consumidores
hombres y mujeres. Si la preferencia de las cervezas fuera independiente del género del
consumidor, se iniciaría una campaña de publicidad para todas las cervezas Modelo. Sin
embargo, si la preferencia depende del género del consumidor, se ajustarían las
promociones para tener en cuenta los distintos mercados meta.
Una prueba de independencia usa la pregunta de si la preferencia de la cerveza (ligera,
clara y oscura) es independiente del genero del consumidor (hombre, mujer). Las
hipótesis para esta prueba de independencia son:

Ho: La preferencia de la cerveza es independiente del género del consumidor


Ha: La preferencia de la cerveza no es independiente del género del consumidor

Podemos usar una tabla como la 1 para describir el caso que se estudia. Después de
identificar a la población, consumidores hombres y mujeres, se puede tomar una muestra
y preguntar a cada persona que diga su preferencia entre las cervezas modelo.
Cada persona de la muestra se clasificará en una de las seis celdas de la tabla. Por
ejemplo una persona puede ser hombre y prefiera la cerveza clara [celda (1,2)], una mujer
que prefiere la cerveza ligera [celda (2,1)], una mujer que prefiere la cerveza oscura
[celda (2,3)] y así sucesivamente. Como en la lista aparecen todas las combinaciones
posibles de predilección de cerveza y género, en otras palabras aparecen todas las
contingencias posibles, a la tabla se le llama tabla de contingencia.
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H

Cerveza preferida
Ligera Clara Oscura
Género Hombre Celda (1,1) Celda (1,2) Celda (1,3)
Supongamos que Mujer Celda (2,1) Celda (2,2) Celda (2,3) se ha
tomado una muestra
aleatoria simple de 150 bebedores de cerveza. Después de saborear cada una, se les
pide expresar su preferencia o primera alternativa. La tabulación cruzada de la siguiente
tabla 2 resume las respuestas obtenidas. Observamos que, los datos para la prueba de
independencia se agrupan en términos de cantidades o frecuencias para cada celda o
categoría. De las 150 personas de la muestra, 20 fueron hombres que prefirieron la
cerveza ligera, 40 fueron mujeres que prefirieron la cerveza clara, 20 fueron hombres que
prefirieron la cerveza oscura, y así sucesivamente.
Los datos de la tabla 2 constituyen las frecuencias observadas para las seis clases o
categorías.

Cerveza preferida
Ligera Clara Oscura Total
Género Hombre 20 40 20 80
Mujer 30 30 10 70
Total 50 70 30 150

Si podemos determinar las frecuencias esperadas bajo la hipótesis de independencia


entre la preferencia de cerveza y el género del consumidor, podemos usar la distribución ji
cuadrada para determinar si existe una diferencia significativa entre la frecuencia
observada y la esperada.
Las frecuencias esperadas en las celdas de la tabla de contingencia se basan en el
siguiente razonamiento. Primero suponemos que es verdadera la hipótesis nula, de
independencia entre la cerveza preferida y el género del consumidor. A continuación
observamos que en toda la muestra de 150 consumidores, hay 50 que prefieren la
cerveza ligera, 70 la cerveza clara y 30 la cerveza oscura. Expresada en fracción, la
conclusión es que de 50/150 = 1/3 de los consumidores de cerveza prefieren la ligera;
70/150 = 7/15 la clara y 30/150 = 1/5 la oscura. Si es válida la hipótesis de independencia,
decimos que estas fracciones se deben de aplicar por igual a los consumidores hombres y
mujeres. Así bajo la hipótesis de independencia, esperaríamos que la muestra de 80
consumidores hombres indicara que (1/3) 80 = 26.7 prefieren cerveza ligera, (7/15) 80 =
37.33 la clara y (1/5) 80 = 16 la oscura. La aplicación de las mismas fracciones a las 70
consumidoras mujeres produce las frecuencias esperadas que aparecen en la tabla.
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H

Cerveza preferida
Ligera Clara Oscura Total eij
Sea la frecuencia esperada
en la Género Hombre 26.67 37.33 16.00 categoría del renglón i y la
80
Mujer 23.33 32.67 14.00 columna j de la tabla de
70
Total 50.00 70.00 30.00 contingencia.
150 Con esta
notación reconsideremos el
cálculo de la frecuencia esperada para los hombres (renglón i = 1) que prefieren la
e
cerveza clara (columna j = 2) esto es, la frecuencia esperada 1, 2 . Apegándonos al
esquema anterior para el cálculo de las frecuencias esperadas, podemos demostrar que

e1, 2
= (7/15) 80 = 37.33
Esta ecuación se puede escribir como sigue

e1, 2
= (7/15) 80 = (70/150) 80 = 37.33
Observe que 80 es la cantidad total de hombres (total del renglón 1), 70 es la cantidad
total de individuos (hombres y mujeres) que prefieren la cerveza clara (total de la columna
2) y 150 es el tamaño de la muestra total. En consecuencia vemos

(total del renglón 1) (total de la columna 2)


e1, 2 
tamaño de la muestra

Al generalizar la ecuación vemos que la fórmula siguiente determina las frecuencias


esperadas de una tabla de contingencias para la prueba de independencia.

Frecuencias esperadas en la tabla de contingencia suponiendo independencia

(Total del renglón i ) (total de la columna j )


eij 
tamaño de la muestra

El procedimiento de prueba para comparar frecuencias observadas con las frecuencias


esperadas, se parece a los cálculos de bondad de ajuste. Específicamente, el valor de
 2 basados en las frecuencias observadas y esperadas se calcula como sigue:
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H

k f  f ei  2


oi
 
2

i 1 f ei

Oi = Valor observado en la i-ésimo celda.


Ei = Valor esperado en la i-ésimo celda.
K = Categorías o celdas.

Con n renglones y m columnas en la tabla de contingencia, el estadístico de prueba tiene


una distribución ji cuadrada con (n – 1) (m – 1) grados de libertad, siempre y cuando las
frecuencias esperadas sean 5 o más para todas las categorías. En consecuencia
proseguimos con el cálculo de la estadística de prueba ji cuadrada.

Los cálculos necesarios para determinar el estadística ji cuadrada y ver si la preferencia


de cerveza es independiente del género de quien la bebe se ven en la tabla.
La cantidad de grados de libertad para la distribución ji cuadrada adecuada se determina
multiplicando la cantidad de renglones menos 1 por la cantidad de columnas menos 1.
Como tenemos dos renglones y tres columnas, entonces (2 – 1) (3 – 1) = (1) (2) = 2
grados de libertad para la prueba de independencia entre cerveza y género del
consumidor. Con  = .05 como nivel de significancia de la prueba, buscamos en la tabla
de ji cuadrada y nos da un valor
 .205 = 5.99. Observe que estamos usando el valor de la
cola superior, porque rechazaremos la hipótesis nula sólo si las diferencias entre
frecuencias observadas y esperadas producen un valor grande de  . En el ejemplo 
2 2

=6.13 es mayor que  = 5.99. Por consiguiente, rechazaremos la hipótesis nula de


2

independencia y concluimos que la cerveza preferida no es independiente del género del


consumidor, es decir, la preferencia para las tres cervezas es diferente entre los
consumidores hombres y mujeres y por lo tanto la Cervecería Modelo deberá estratificar a
los consumidores para ajustar las promociones y la publicidad, teniendo en cuenta estas
diferencias.

Género Cerveza fo fe ( fo  fe ) ( fo  fe )2 ( f o  f e ) 2 / eij


Hombre ligera 20 26.67 -6.67 44.4889 1.66812523
Hombre clara 40 37.33 2.67 7.1289 0.19096973
Hombre Oscura 20 16 4 16 1
Mujer ligera 30 23.33 6.67 44.4889 1.90693956
Mujer clara 30 32.67 -2.67 7.1289 0.21820937
Mujer Oscura 10 14 -4 16 1.14285714
2 6.12710104
1.4 Prueba de rachas de Wald Wolfowitz

Las prueba de rachas es una prueba no paramétrica, capaz de manejar variables


cuantitativas y cualitativas de tipo dicotómico.
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H

La utilidad de esta prueba, abarca diferentes campos de la actividad humana y


puede servir desde para probar la aleatoriedad: de las encuestas aplicadas por los
entrevistadores, de las fallas de la maquinaria en la producción, de las cantidades
compradas o vendidas, de las faltas de los empleados, hasta para controlar la calidad de
la producción.
Una racha es una subsucesión de una secuencia ordenada de elementos iguales
observados.
Puede ser llevada a cabo con muestras menores de 40 elementos y sus valores de
prueba deben ser comparados con los valores de unta tabla estadística. La prueba que se
presenta es preferible ya que se trabaja con muestras de 40 o más elementos y esto hace
que las rachas se presenten con una forma de distribución acumulativa tendiente a la
normalidad.

1.5 Prueba de rachas de Wald Wolfowitz

Ésta es una prueba no paramétrica que se relacionan con parámetros relativos a la


tendencia central. Esta prueba es una buena opción para integrarse en lugar de la prueba
t, cuando no se puedan cumplir los supuestos necesarios para utilizarse, aunque debe
recordarse que esta prueba es menos potente. Los supuestos necesarios para la prueba
de rango con signo, son los siguientes:

Supuestos:

1. Extracción de los datos en forma aleatoria e independiente.


2. Variable de tipo continua
3. Escala de medición de razón o de intervalo
4. Distribución de las diferencias entre los datos observados y la mediana hipotética
tendiente a la simetría.
5. Muestra mayor de 40 elementos para una muestra. Cuando se prueban dos
muestras, éstas pueden ser menores a los 40 elementos.