Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cuando trabajamos con variables aleatorias cualitativas o categorizadas o son cuantitativas pero
no se conoce su distribución, se aplican métodos estadísticos denominados NO PARAMÉTRICOS.
Esta situación se presenta habitualmente cuando se trabaja con variables de conteo univariadas,
es decir, cuando se recuentan casos. Como por ejemplo, en las encuestas políticas, de opinión, de
marketing, de medición de audiencias (rating), trabajos de sociología, psicología, nutricionismo,
medicina, etc. Tal es el caso también de las tablas de contingencia, en las que el análisis es
bivariado, es decir que tenemos dos variables aleatorias X e Y.
Dentro de los métodos no paramétricos, se destacan los tests de hipótesis introducidos por Karl
Pearson hacia 1896, aplicando la distribución Chi-Cuadrado. Las principales versiones de este test
se utilizan para los siguientes casos no parametricos:
Bondad de Ajuste
En el primer caso se emplea un test Chi-Cuadrado para decidir cuándo un conjunto de datos de
una muestra se apega a una distribución de probabilidad dada. Se desea verificar que la variable
aleatoria X de la cual proviene una muestra aleatoria tiene una distribución teórica conocida F(X).
Las hipótesis para este test son:
vs.
̅
∑ ̅
Regla de decisión: finalmente comparamos el estadístico de contraste con el valor teórico crítico
tabular , y decidimos rechazar o no rechazar H0 de acuerdo a donde se ubique el estadístico.
p – valor: recordemos que otra opción es no definir ningún valor de α , y (en el caso de trabajar
con un software estadístico en una computadora) observar el valor del p – valor que nos entrega
el ordenador. Si este es muy pequeño, por ejemplo inferior al 1%, podemos rechazar H0. En caso
contrario decidimos no rechazarla.
Observación importante: para que el test Chi-Cuadrado no paramétrico funcione bien tenemos
que verificar que cada frecuencia o valor esperado sea por lo menos 5. Si no es así podemos
colapsar o unificar las últimas categorías, clases o conjuntos hasta que sus valores esperados
sumen 5 o más.
Solución:
vs.
Dado que el parámetro 𝜆 es desconocido, se lo debe estimar a partir de los datos de la muestra. Lo
calculamos 𝜆= 0,75
𝜆
{ }
Como la frecuencia esperada para más de 3 accidentes es menor a 5, se combinan las dos últimas
celdas, obteniendo:
(Observada -
Accidentes Frecuencia Frecuencia
Esperada)^2 /
por día esperada observada
Esperada
0 28,32 32 0,47819209
1 21,24 15 1,833220339
2 ó más 10,44 13 0,627739464
Total 60 60 2,939151893
Grados de libertad: gl = 3-1-1=1, donde r = 1 dado que la media de la muestra fue utilizada como
estimador del único parámetro de la distribución de Poisson a partir de los datos.
Regla de decisión: como el estadístico 2,94 es menor que el valor teórico tabular crítico 3,84, no
se rechaza Ho. Podemos asumir en consecuencia que la distribución de los accidentes es Poisson.
En la siguiente tabla se muestran la cantidad de clientes (xi) que llegaron en una cantidad fi de
intervalos de 1 minuto, así como el resto de los cálculos necesarios para construir el modelo de
Poisson y calcular el correspondiente estadístico Chi- Cuadrado.
Cantidad de categorías que quedaron después de agrupar las 3 últimas para que la
frecuencia esperada sea al menos 5 : n = 9 categorías
Regla de decisión :
( )
∑∑
vs
Ha : Las proporciones de insumos defectuosos dependen de los distribuidores, sus
proporciones no son homogéneas y no están igualmente repartidas
Debemos realizar un test de homogeneidad para concluir si entre los distribuidores
existen diferencias de confiabilidad referente al mismo insumo. Calculemos los valores
esperados correspondientes:
El estadístico del contraste será entonces, teniendo en cuenta que los df son (m-1).(k-1) =
(3-1).(2-1) = 2 :
∑
Este valor del estadístico de contraste Chi-Cuadrado es mayor que el valor tabular crítico
para el nivel de significación del 5%, que es
Independencia
Ahora queremos verificar si dos variables aleatorias, X e Y pertenecientes a la misma población
están relacionadas entre si, o no lo están. Planteamos entonces las hipótesis correspondientes
vs.
Se forma a partir de esos datos una TABLA DE CONTINGENCIA con las frecuencias conjuntas
observadas.
n = (filas – 1) . (columnas – 1) = (m – 1) . (k – 1)
el estadístico de contraste Chi-Cuadrado se calcula de manera análoga al caso de la bondad de
ajuste siguiendo la siguiente expresión
( )
∑ ∑ [ ]
Donde es la frecuencia esperada de la categoría AiBj
TABLA DE CONTINGENCIA
X/Y B1 B2 … Bk Total
A1 n11 n12 … n1k n1.
A2 n21 n22 … n2k n2.
… … … …
Am nm1 nm2 … nmk nm.
Total n.1 n.2 n.k n
Grado Silicosis
Tipo de Trabajo Total
I II III
Oficina 42 24 30 96
Terreno 54 78 72 204
Total 96 102 102 300
¿Es posible establecer con estos datos que el tipo de trabajo afecta el grado de silicosis de los
trabajadores?
Solución
vs.
Se calcula el estadístico de contraste luego de evaluar los valores esperados de cada categoría,
según se muestra en la siguiente tabla:
Tipo de Trabajo -
nij eij (nij - eij)2 / eij
Grado Silicosis
Oficina - I 42 30.7 4.142
Oficina - II 24 32.6 2.287
Oficina - III 30 32.6 0.214
Terreno - I 54 65.3 1.949
Terreno - II 78 69.4 1.076
Terreno - III 72 69.4 0.100
Total 150.00 161.28 8.59
Grados de libertad: (2-1) . (3-1)= 2
Regla de decisión: como el estadístico de contraste 8,59 es mayor a 5,9915 que es el valor critico
tabular teórico, se rechaza Ho. No existe independencia entre las variables, es decir que existe
alguna relación entre ellas.
∑ = 0,1078
Regla de decisión :
Homogeneidad
(Las muestras provienen de poblaciones iguales)
Del mismo modo que la Prueba de Bondad de Ajuste, en este caso debemos comparar las
frecuencias observadas en cada una de las muestras y para cada categoría con las frecuencias bajo
el supuesto de homogeneidad en las poblaciones. En este caso las frecuencias observadas
corresponde al número de individuos de la muestra i en la clase j, i.e., nij. Tenemos m muestras de
un tamaño ni cada una, es decir que ∑ , y tenemos k clases o categorías en cada una
de las muestras. El estadístico de contraste será
( )
∑∑
Donde eij es la frecuencia esperada bajo el supuesto de homogeneidad, que puede representarse
como ni . pj , es decir, el número de individuos en la muestra i por la probabilidad de que ocurra la
característica j en la población. Para el cálculo de las probabilidades de pertenecer un individuo a
cada una de las categorías podemos utilizar: . Por lo tanto : ⋅ Observar
que este valor será la suma de n.k números no negativos.
vs
Debemos realizar un test de homogeneidad para concluir si entre los distribuidores existen
diferencias de confiabilidad referente al mismo insumo. Calculemos los valores esperados
correspondientes :
El estadístico del contraste será entonces, teniendo en cuenta que los df son (m-1).(k-1) = (3-1).(2-
1) = 2 :
Este valor del estadístico de contraste Chi-Cuadrado es mayor que el valor tabular crítico para el
nivel de significación del 5%, que es
por lo tanto Rechazamos Ho y debemos concluir que no existe homogeneidad y por lo tanto que
hay diferencias significativas entre los tres distribuidores.