Está en la página 1de 44

UNIVERSIDAD MAYOR DE SAN SIMÓN

FACULTAD DE CIENCIAS Y TECNOLOGÍA

Cap. 5 Pruebas
No paramétricas
Vivian Espinoza R.
ESTADÍSTICA II
§ Las pruebas no paramétricas
tienen exigencias menos estrictas
y por lo tanto son pruebas menos
potentes que sus contrapartes
paramétricas.
§ Los resultados de una prueba
paramétrica cuyos requisitos no
han sido cumplidos, carecen de
interpretación significativa.
§ Bajo tales circunstancias, se
prefiere el uso de las pruebas no
paramétricas.

UMSS- FCYT - EST II - Vivian Espinoza R. 1


UMSS- FCYT - EST II - Vivian Espinoza R. 2
§ El estadístico ji-cuadrado (o chi cuadrado), que tiene distribución de probabilidad
del mismo nombre, sirve para someter a prueba hipótesis referidas a distribuciones
de frecuencias. En términos generales, esta prueba contrasta frecuencias
observadas con las frecuencias esperadas de acuerdo con la hipótesis nula.
§ Dentro de las pruebas no paramétricas para una muestra, se puede emplear la
prueba Chi cuadrado (bondad de ajuste con variables categóricas - binomial), la
prueba de rachas (Aleatoriedad) y la prueba de Kolmogorov-Smirnov (bondad de
ajuste con variables categóricas).
§ Las pruebas Chi-cuadrado para dos muestras más comunes se encuentran la
de Independencia y la de Homogeneidad.

UMSS- FCYT - EST II - Vivian Espinoza R. 3


Prueba Chi
cuadrado

Dos variables Una variable

Prueba de
Prueba de Prueba de
bondad de
independencia homogeneidad ajuste

UMSS- FCYT - EST II - Vivian Espinoza R. 4


§ Con datos separados en diferentes categorías, someteremos a prueba la hipótesis de
que la distribución de los datos coincide con alguna distribución aseverada (es decir,
“se ajusta” a ella).
§ La prueba de hipótesis empleará la distribución chi cuadrada con los conteos de
frecuencias observados y los conteos de frecuencias que se esperarían con la
distribución aseverada.
§ El estadístico de prueba chi cuadrada es una medida de la discrepancia entre las
frecuencias observadas y las esperadas.

UMSS- FCYT - EST II - Vivian Espinoza R. 5


§ El número de ensayos es fijo.
§ Los ensayos son independientes.
§ Todos los resultados de cada ensayo deben clasificarse exactamente en una de
varias categorías diferentes.
§ Las probabilidades para las diferentes categorías permanecen constantes en cada
ensayo.

UMSS- FCYT - EST II - Vivian Espinoza R. 6


§ Se utiliza para probar la hipótesis de que una distribución de frecuencias se ajusta a
(o coincide con) alguna distribución aseverada.

UMSS- FCYT - EST II - Vivian Espinoza R. 7


§ Si todas las frecuencias esperadas son iguales, entonces cada frecuencia
esperada es la suma de todas las frecuencias observadas dividida entre el
número de categorías, de manera que E = n/k.

§ Si las frecuencias esperadas no son todas iguales, entonces cada frecuencia


esperada se calcula multiplicando la suma de todas las frecuencias observadas
por la probabilidad para la categoría, de manera que E = np para cada categoría.

PARA DISTRIBUCIÓN UNIFORME


UMSS- FCYT - EST II - Vivian Espinoza R. 8
§ DISTRIBUCIÓN POISSON:
§ E = n*p

§ DISTRIBUCIÓN BINOMIAL:
§ E = n*p

UMSS- FCYT - EST II - Vivian Espinoza R. 9


§ 1° Se plantean las hipótesis:
𝐻! : 𝐿𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑠𝑒 𝑎𝑗𝑢𝑠𝑡𝑎𝑛 𝑎 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑎𝑠𝑒𝑣𝑒𝑟𝑎𝑑𝑎.

𝐻" : 𝐿𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑁𝑂 𝑠𝑒 𝑎𝑗𝑢𝑠𝑡𝑎𝑛 𝑎 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑎𝑠𝑒𝑣𝑒𝑟𝑎𝑑𝑎.


§ 2° Especificar α
§ 3° Calcular los grados de libertad k-1 (K= categorías) y las frecuencias esperadas.
§ 4° Región de aceptación I = 0; +𝝌2´#,%&" (cola derecha)
§ 5° Calcular con los datos de la muestra:

§ 6° Si 𝝌2 del paso 5º pertenece a I, à entonces se acepta Ho.

UMSS- FCYT - EST II - Vivian Espinoza R. 10


UMSS- FCYT - EST II - Vivian Espinoza R. 11
§ El estadístico de prueba X2 se basa en las diferencias entre valores
observados y esperados, de manera que una concordancia cercana
entre los valores observados y esperados conducirá a un valor de X2
pequeno ̃ y un valor P grande.
§ Una discrepancia grande entre los valores observados y esperados
conducirá a un valor de X2 grande y un valor P pequeño.
§ De esta forma, las pruebas de hipótesis de esta sección siempre son
de cola derecha, puesto que el valor crítico y la región crítica se
localizan en el extremo derecho de la distribución.

UMSS- FCYT - EST II - Vivian Espinoza R. 12


§ Mars Inc. asevera que sus dulces M&M clásicos se distribuyen con los siguientes
porcentajes de color: 30% marrón, 20% amarillo, 20% rojo, 10% naranjas, 10% verde
y 10% azul. Utilice los datos muestrales para probar la aseveración de que la
distribución de color es como lo afirma Mars Inc. Utilice un nivel de significancia de
0.05.

UMSS- FCYT - EST II - Vivian Espinoza R. 13


§ Las frecuencias esperadas se calculan con E = np, donde n = 100 el número de
ensayos y p = probabilidad de cada color:
§ E = n p = 100 * 0,30 = 30 (Marrón)
§ E = n p = 100 * 0,20 = 20 (Amarillo)
§ E = n p = 100 * 0,20 = 20 (Rojo)
§ E = n p = 100 * 0,10 = 10 (Naranja)
§ E = n p = 100 * 0,10 = 10 (Verde)
§ E = n p = 100 * 0,10 = 10 (Azul)

UMSS- FCYT - EST II - Vivian Espinoza R. 14


§ Ho : pm = 0,3 pam = 0,2 pr= 0,2 pn = 0,1 pv = 0,1 pa = 0,1
§ H1 : Al menos una proporción es diferente del valor aseverado

§ Hay que calcular es estadístico X2 con ayuda de una siguiente tabla:

§ Y contrastamos con el valor crítico de las tablas X2 (aplicación) buscando con 𝜶 =


0,05 y k = 5 grados de libertad.

UMSS- FCYT - EST II - Vivian Espinoza R. 15


Como el estadístico de prueba no cae en la región de rechazo,
no hay suficientes indicios para rechazar la hipótesis nula, 5,95 < 11,07
Los colores están distribuídos como indican los porcentajes Mars. Inc.

UMSS- FCYT - EST II - Vivian Espinoza R. 16


UMSS- FCYT - EST II - Vivian Espinoza R. 17
Analizar à Pruebas no Paramétricas à Chi cuadrado

Si las frecuencias esperadas no son iguales, se colocan las cantidades esperadas.


Si son iguales, se deja por defecto la opción: Todas las categorías iguales.

UMSS- FCYT - EST II - Vivian Espinoza R. 18


§ Nacimientos. Se obtuvieron registros de nacimientos elegidos al azar; los resultados
se presentan en la siguiente tabla (según datos del National Vital Statistics Report,
vol 49, núm. 1). Utilice un nivel de significancia de 0.05 para probar la razonable
aseveración de que los nacimientos ocurren con la misma frecuencia los diferentes
días de la semana. ¿Cómo se podrían explicar las aparentes bajas frecuencias del
sábado y del domingo?

§ Solución:

§ X2 = 9,47 p-value= 0,149 à AHo

UMSS- FCYT - EST II - Vivian Espinoza R. 19


En este caso las frecuencias esperadas son iguales, se deja por defecto la opción:
Todas las categorías iguales.

UMSS- FCYT - EST II - Vivian Espinoza R. 20


§ Conteos de frecuencia para datos categóricos ordenados en una tabla, con al menos
dos renglones y al menos dos columnas.
§ Poner a prueba la aseveración de que las variables de renglón y de columnas son
independientes unas de otras.
§ Con el mismo método hacer una prueba de homogeneidad, en la que ponemos a
prueba la aseveración de que distintas poblaciones tienen la misma proporción de
algunas características.

UMSS- FCYT - EST II - Vivian Espinoza R. 21


§ Una tabla de contingencia (o tabla de
frecuencias de dos factores) es una
tabla en la que las frecuencias
corresponden a dos variables. (Una
variable se utiliza para categorizar
filas, y una segunda variable se utiliza
para categorizar columnas).

UMSS- FCYT - EST II - Vivian Espinoza R. 22


UMSS- FCYT - EST II - Vivian Espinoza R. 23
§ La prueba de chi-cuadrado de independencia determina si dos variables de tipo
cualitativo (Binario, Ordinal, Nominal) son independientes. Si las variables no son
independientes, están asociadas.

§ Ho: Existe independencia entre las variables


§ H1: Existe dependencia entre las variables
§ Donde oi= Frecuencias observadas
𝑻𝒐𝒕𝒂𝒍𝑭𝒊𝒍𝒂∗𝑻𝒐𝒕𝒂𝒍𝑪𝒐𝒍𝒖𝒎𝒏𝒂
§ ei= Frecuencias esperadas 𝒆𝒊 =
𝑻𝒐𝒕𝒂𝒍

)
§ Se contrasta con el valor de: 𝜒!"#; %"! ('"!)

§ Donde p : Número de Columnas


§ q : Número de Filas

UMSS- FCYT - EST II - Vivian Espinoza R. 24


§ 1° 𝐻- : 𝐸𝑋𝐼𝑆𝑇𝐸 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠.
𝐻. : 𝑁𝑂 𝐸𝑋𝐼𝑆𝑇𝐸 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠.
§ 2° Especificar α
§ 3° Calcular los grados de libertad K=(p-1)(q-1) y las frecuencias esperadas.
67
§ 4° Región de aceptación I = 0; +𝜒/; 12. (42.) (cola derecha)

§ 5° Calcular con los datos de la muestra:

§ 6° Si 𝝌2 del paso 5º pertenece a I, à entonces se acepta Ho.

UMSS- FCYT - EST II - Vivian Espinoza R. 25


UMSS- FCYT - EST II - Vivian Espinoza R. 26
§ El tamaño de muestra debe ser suficientemente grande (n>30)
§ La muestra debe ser seleccionada mediante el muestreo aleatorio
simple.
§ En caso de que se deban estimar parámetros, hay que hacerlo a
través del Método de Máxima Verosimilitud (Likelyhood)
§ Las frecuencias esperadas deberían ser todas > 5.

UMSS- FCYT - EST II - Vivian Espinoza R. 27


La tabla siguiente presenta los resultados de una encuesta practicada a 1905 individuos
en una muestra aleatoria de víctimas de diversos crímenes en el año 1994.
Se quiere determinar si existe independencia entre el tipo de crimen y el tipo de criminal.

Los datos se encuentran en el archivo: IndepChi2.sav

UMSS- FCYT - EST II - Vivian Espinoza R. 28


Frecuencias esperadas (Criminal y Homicidio) Frecuencias esperadas (Criminal y Asalto)
#$%&'("'&∗#$%&'*$'+,-& .../∗0. #$%&'("'&∗#$%&'*$'+,-& .../∗3/0
𝑒" = #$%&'
= .120
= 29,9 𝑒" = #$%&'
= .120
= 284,6

UMSS- FCYT - EST II - Vivian Espinoza R. 29


UMSS- FCYT - EST II - Vivian Espinoza R. 30
7 7
§ 𝜒.2/; 12. (42.) = 𝜒8.:;; <2. (72.) = 5,99

§
§ 𝜒2 = 119,33

§ P-value =0 < 0,05 à RHo


§ Por tanto, se rechaza la hipótesis nula a un
nivel de confianza del 95%, lo que significa
que el tipo de crimen depende si el criminal
es extraño o conocido.

UMSS- FCYT - EST II - Vivian Espinoza R. 31


Un analista supone que el uso de cinturón de seguridad en los conductores de vehículos; está
relacionado con el género. Para esto toma una muestra aleatoria de 160 personas, cuyos
resultados se muestran en la tabla a continuación:

Depende el uso del cinturón del género del conductor?

UMSS- FCYT - EST II - Vivian Espinoza R. 32


§ Determinar si poblaciones tienen las mismas proporciones de las características en
consideración. En estos casos se utiliza la prueba de homogeneidad. (La palabra
homogéneo significa “que tiene la misma calidad” y, en este contexto, estamos
haciendo una prueba para determinar si las proporciones son las mismas)

§ En una prueba de homogeneidad probamos la aseveración de que poblaciones


diferentes tienen las mismas proporciones de algunas características.

UMSS- FCYT - EST II - Vivian Espinoza R. 33


§ 1° 𝐻- : 𝐿𝑎𝑠 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑠𝑜𝑛 ℎ𝑜𝑚𝑜𝑔é𝑛𝑒𝑎𝑠. (𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖𝑜𝑛𝑒𝑠 =)
𝐻. : 𝐿𝑎𝑠 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑠𝑜𝑛 ℎ𝑜𝑚𝑜𝑔é𝑛𝑒𝑎𝑠. (𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖𝑜𝑛𝑒𝑠 ≠)
§ 2º Determinar α
§ 3° Calcular los grados de libertad K=(p-1)(q-1) y las frecuencias esperadas.
67
§ 4° Región de aceptación I = 0; +𝜒/; 12. (42.) (cola derecha)

§ 5° Calcular con los datos de la muestra:

§ 6° Si 𝝌2 del paso 5º pertenece a I, à entonces se acepta Ho.

UMSS- FCYT - EST II - Vivian Espinoza R. 34


§ Influencia del género ¿Tiene efecto el género del encuestador en las respuestas de
encuesta de varones? En un artículo del U.S. News & World Report acerca de encuestas
se afirmó que “en temas sensibles, las personas tienden a dar respuestas ‘aceptables’
en vez de respuestas honestas; sus respuestas podrían depender del género o el origen
étnico del entrevistador”.
§ Para sustentar esta aseveración, el Eagleton Institute proporcionó los datos de una
encuesta en la cual se preguntó a hombres si estaban de acuerdo con esta afirmación:
“El aborto es un asunto privado que la mujer debe decidir sin intervención
gubernamental”. Analizaremos el efecto del género sólo en los hombres encuestados. La
tabla 11-6 está basada en estas respuestas de hombres encuestados.
§ Suponga que la encuesta se diseñó de manera que los entrevistadores varones recibieron
instrucciones para obtener 800 respuestas de sujetos varones, y las entrevistadoras
mujeres recibieron instrucciones para obtener 400 respuestas de sujetos varones. Utilice
un nivel de significancia de 0.05 y pruebe la aseveración de que las proporciones de las
respuestas de acuerdo/en desacuerdo son las mismas para los sujetos entrevistados por
hombres y los sujetos entrevistados por mujeres.

UMSS- FCYT - EST II - Vivian Espinoza R. 35


UMSS- FCYT - EST II - Vivian Espinoza R. 36
§ Los datos consisten en conteos de frecuencias independientes; cada observación se
puede categorizar de acuerdo con dos variables; y las frecuencias esperadas (que en
la tabla de resultados de Minitab aparecen como 578.67, 289.33, 221.33 y 110.67)
son al menos de 5. [Las dos variables son: 1. género del entrevistador, y 2. si el
sujeto estuvo de acuerdo o en desacuerdo]. Puesto que se trata de una prueba de
homogeneidad, ponemos a prueba la aseveración de que las proporciones de
respuestas de acuerdo/en desacuerdo son iguales para los sujetos entrevistados por
hombres y para los sujetos entrevistados por mujeres. Todos los requisitos se
satisfacen, así que procedemos con la prueba de hipótesis.

UMSS- FCYT - EST II - Vivian Espinoza R. 37


§ Ho: Las proporciones de las respuestas acuerdo/en desacuerdo son iguales para los
sujetos entrevistados por hombres y los sujetos entrevistados por mujeres.
§ H1: Las proporciones son diferentes.

UMSS- FCYT - EST II - Vivian Espinoza R. 38


UMSS- FCYT - EST II - Vivian Espinoza R. 39
§ Utilizando el método del valor P para probar la hipótesis, rechazamos la hipótesis
nula de proporciones iguales (homogéneas) (puesto que el valor P de 0.011 es menor
que 0.05).
§ Existe suficiente evidencia para sustentar el rechazo de la aseveración de que las
proporciones son iguales.
§ Parece que la respuesta y el género del entrevistador son dependientes.
§ Aunque este análisis estadístico no puede utilizarse para justificar ninguna
afirmación acerca de la causalidad, parece que los hombres se ven influidos por el
género del entrevistador.

UMSS- FCYT - EST II - Vivian Espinoza R. 40


§ Con la finalidad de evaluar el hábito de fumar como factor de riesgo del cáncer del
pulmón, se seleccionan 2 muestras aleatorias, una de pacientes con esta
enfermedad y l a otra de personas sin esta condición. A continuación se brinda la
información obtenida:

UMSS- FCYT - EST II - Vivian Espinoza R. 41


§ Considere un α=0,05.
§ Hipótesis:
Ho: Hay homogeneidad entre los enfermos y no enfermos de cáncer del pulmón
respecto a fumar o no fumar (la proporción de fumadores es similar en enfermos y no
enfermos)
H1: No hay homogeneidad (la proporción de fumadores difiere en enfermos y no
enfermos)

UMSS- FCYT - EST II - Vivian Espinoza R. 42

También podría gustarte