Está en la página 1de 32

FACUTAD DE ESTUDIOS SUPERIORES

IZTACALA U N A M

CARRERA DE BIOLOGÍA

Bioestadística II

PRUEBAS NO PARAMÉTRICAS

PROF. SAMUEL MERAZ


Mayo 2023-2
PRUEBAS NO PARAMÉTRICA
SON AQUELLAS QUE
NO PRESUPONEN UNA
DISTRIBUCIÓN DE
PROBABILIDAD PARA
LOS DATOS.

SE CONOCEN
TAMBIÉN COMO DE
DISTRIBUCIÓN LIBRE
(DISTRIBUTION FREE).
EN LA MAYOR PARTE DE ELLAS LOS
RESULTADOS ESTADÍSTICOS SE
DERIVAN ÚNICAMENTE A PARTIR
DE PROCEDIMIENTOS DE:

ORDENACIÓN Y RECUENTO
CARACTERÍSTICAS DE LAS PRUEBAS NO
PARAMÉTRICAS.
1. INDEPENDENCIA DE LAS OBSERVACIONES ALEATORIAS A
EXCEPCIÓN DE DATOS PAREADOS.

2. POCAS SUPOSICIONES CON RESPECTO A LA DISTRIBUCIÓN DE


LA POBLACIÓN.

3. VARIABLE DEPENDIENTE ES MEDIDA EN ESCALA CATEGÓRICA.

4. EL PUNTO PRIMARIO ES EL ORDENAMIENTO POR RANGOS O


POR FRECUENCIAS.

5. LAS HIPÓTESIS SE HACEN SOBRE RANGOS, MEDIANA O LA


FRECUENCIAS DE LOS DATOS.

6. TAMAÑO DE MUESTRA REQUERIDO, ES MENOR (20 O <).


Ventajas de las Pruebas No Paramétricas

1. Determinación sencilla. Mediante


fórmulas simples .
2. Fáciles de aplicar. Las operaciones
matemáticas son la jerarquización,
conteo, suma y resta.
3. Rápidas de aplicar. Cuando las
muestras son pequeñas.
4. Campos de aplicación. A grupos
mayores de poblaciones.
5. Menos susceptibles a la contravención de
los supuestos. Ya que los supuestos son
escasos y menos complicados.
6. Tipo de medición requerida. Se pueden
utilizar con datos ordinales o nominales.
7. Tamaño de la muestra. Cuando la muestra es
< 10 son sencillas, rápidas y sólo un poco
menos eficaces. Conforme aumenta el
tamaño de la muestra se hacen más
laboriosas y tardadas, y menos efectivas.
8. Efectividad estadística. Cuando se
satisfacen los supuestos de la prueba no
paramétrica son igual de efectivas.
PRUEBA DE Ji CUADRADA (χ2)
La ji-cuadrada se puede utilizar como una prueba de
bondad de ajuste, en otras distribuciones de
probabilidad.
Se compara la posible diferencia entre las
frecuencias Observadas, con respecto a las
Esperadas en la distribución de una variable, en
razón de una determinada hipótesis.

Cálculo del valor de χ2


χ2 = Σ (o - e )2
e
Donde : o = frecuencia observada, e = frecuencia esperada
Ejemplos:
Las estadísticas médicas indican que las muertes debidas a cuatro enfermedades
graves, A, B, C y D, corresponden al 15, 21, 18 y 14 por ciento respectivamente,
de todas las muertes no accidentales. Un estudio de las causas de 308 muertes
no accidentales en determinado hospital, produjo los siguientes totales de
pacientes que murieron de dichas enfermedades:

Enfermedad A B C D Otra
No .Muertes 43 76 85 21 83

¿Estos resultados difieren de las proporciones acumuladas para la población? Use α


= 0.05
Resolución: Se dan los porcentajes de muertes y el total de datos, primero se
calculan los «porcentajes esperados»: el 15% de 308 = 308x0.15 = 46.2, el
21% de 308 = 308x0.21 = 64.68, el 18% de 308 = 308x0.18 = 55.44, etc.
Enfermedad A B C D
No .Muertes 43 76 85 21
Observadas
Esperadas 46.2 64.68 55.44 43.12

Ho: O = E
Ha: O ≠ E
χ2 = (43-46.2)2 + (76-64.68)2+ (85-55.44)2+ (21-43.12)2 = 0.2216+1.9811+15.76+11.3472 = 29.3099
46.2 64.68 55.44 43.12

Se busca el valor de χ2 , con gl = 4-1 y a =0.05 χ2 3,0.05 = 9.35 => Se rechaza


Ho y acepta Ha. Por lo que hay diferencia significativa entre las muertes
observadas y las esperadas.
2) Se lanza un dado 600 veces, obteniendo los siguientes resultados:

Número 1 2 3 4 5 6

Frecuencia 90 112 98 104 110 86


¿Los datos permiten concluir que el dado no esta balanceado? Use α =
0.05.

3) Se observaron 80 nacimientos de un cruzamiento de cerdos de los


cuales 42 fueron rojizos, 12 negros y 26 blancos. Las leyes de la
herencia implican que estas tres categorías presentan un modelo
genético 9:3:4, es decir que deben tener probabilidades 9/16; 3/16 y
4/16, de aparecer en cada cruzamiento.
¿Son los datos consistentes con el modelo teórico propuesto?
4) Un fabricante de ceras para autos, se interesa por saber la preferencia del
consumidor sobre su nueva marca (A), comparándola con otras cuatro
marcas
Una muestra de 100 consumidores observaron 5 áreas enceradas de un
auto, cada una con un tipo de cera, y dieron su opinión sobre la de mejor
apariencia, para ellos.
La iluminación, el ambiente, etc. fue el mismo, los resultados fueron:

Cera A B C D E
Frecuencia 28 16 16 22 18

¿Presentan los datos evidencia, por una o más de las áreas enceradas?
Pruebas de Independencia, respecto a dos criterios de
clasificación, que se aplican simultáneamente (χ2).
La clasificación puede mostrarse mediante una tabla conocida
como Tabla de Contingencia, en la que los renglones “r”
muestran los niveles de uno de los criterios y las columnas
“c” los niveles del otro criterio.

Niveles 1er Criterio de clasificación


Niveles N11 (N1.N.1/N.. ) N12 N13 N1.N1.
2º Criterio
N21 N22 N23 N2.
de
clasificación N31 N32 N33 N3.

N. 1 N. 2 N. 3 N..
La finalidad es probar la hipótesis nula
(Ho) de que los dos criterios son
independientes. Si se rechaza la hipótesis
se concluirá que los criterios son
dependientes, con (c-1)(r-1) grados de
libertad.
En la primera celda de la tabla se
muestran los datos observado N11 y el
cálculo del esperado (N.1 / N.. )
TABLAS DE CONTINGENCIA
Ejemplos:
1) Se trataron 400 personas contra una afección, 200 con un suero y
200 con un placebo. ¿Hay alguna diferencia significativa?

Tratado con Placebo Total


suero
Mejoró
110 92.5 75 92.5 185
No Mejoró 90 107.5 125 107.5 215
Total 200 200 400
El valor esperado para la primera celda de 110 => e = 200x185/400 = 92.5
Ho: TS = P
Ha: TS ≠ P

χ2 = (110-92.5)2 + (75-92.5)2 + (90-107.5)2 + (125-107.5)2 = 12.31


92.5 92.5 107.5 107.5

χ2 gl=1,0.05 = 5.02
2) Un medicamento nuevo, para tratar una enfermedad de
vacunos, se comparó con el medicamento de mayor empleo.
Se tomó al azar un grupo de 300 animales que padecían la
enfermedad; a la mitad de éstos, tomados al azar, se los trató
con la nueva medicación y a los otros 150, con la medicación
tradicional. Luego de un tiempo se analizaron nuevamente los
animales con el siguiente resultado:
Estado de los animales luego del tratamiento
Tratamiento Empeoró Sin efecto Mejoró
Nuevo 20 30 100
Tradicional 20 40 90

¿Considera que estos medicamentos se comportan de manera similar?


3) Se compara la aparición de dependencia del grado de polarización con
la frecuencia (FDP) y de la dependencia del ángulo de polarización con
la frecuencia (FDPA) para 16 observaciones polarimétricas de un
quásar.
Las frecuencias observadas (o) se muestran en la tabla de contingencias,
con los totales en cada fila y columna:
FDPA
OBSERVADO Sí No Total
FDP sí 2 6 8
FDP no 7 1 8
Total 9 7 16
Las frecuencias esperadas (e) se calculan multiplicando los totales
de cada columna por los de cada fila y dividiendo entre el
número total de observaciones:
FDPA
ESPERADO Sí No
9x8/16 =4.5 FDP sí 4,5 3,5
FDP no 4,5 3,5
4) Un total de 6000 estudiantes de escuelas primarias fueron
clasificados de acuerdo a su condición social y su ubicación en dos
programas educativos. Los datos están reportados en la tabla. ¿Hay
dependencia entre la condición social y el programa educativo? Use a=
0.1 Programa educativo Condición Social Total

A B
I 240 360 600
II 1400 4000 5400
Total 1640 4360 6000

Hipótesis:
H0 = No hay relación entre el programa educativo y la condición social
Ha = Si hay relación entre el programa educativo y la condición social
LA PRUEBA DE WILCOXON

La prueba de hipótesis de dos muestras


respecto de las medias de distribuciones
simétricas continuas se plantea empleando
la prueba Wilcoxon de la suma de rangos.

Este procedimiento se compara muy


favorablemente, con la prueba t de pareada.
EJEMPLO
Las calificaciones correspondientes a 15 alumnos antes y
después de realizar un curso de estadística son las siguientes :
Antes Después
5 6
6 6
6 7
8 9
7 6
5 4
4 6
3 3
7 8
5 8
6 4
6 7
3 2
5 7
5 8
LAS HIPÓTESIS SE PUEDEN:

H0 : W(+) = W(-)
Ha : W(+) ≠ W(-)
•H0: Calificaciones de los 15 alumnos antes y
después del curso de estadística son iguales.
•Ha: Calificaciones de los 15 alumnos antes y
después de realizar el curso son diferentes.
La prueba consiste en calcular las diferencias entre los valores y ordenarlas
de menor a mayor por valor absoluto
El rango 1 se asigna a la mínima diferencia observada en valor absoluto, y así
sucesivamente hasta n, cuyo rango corresponde a la máxima diferencia. Si
hay empate, se asigna a cada diferencia empatada, la media de los rangos
implicados en el empate.
Antes Después Diferencias Rangos Rangos con signo

5 6 1 1 (4.5) -4.5
6 6 0
6 7 1 2 (4.5) -4.5
8 9 1 3 (4.5) -4.5
7 6 1 4 (4.5) +4.5
5 4 1 5 (4.5) +4.5
4 6 2 9 (10) -10
3 3 0

7 8 1 6 (4.5) -4.5
5 8 3 12 (12.5) -12
6 4 2 10 (10) +10
6 7 1 7 (4.5) -4.5
3 2 1 8 (4.5) +4.5
5 7 2 11 (10)) -10
5 8 3 13 (12.5) -12.5
Se asigna el signo menos a las diferencias negativas y el signo
más a las positivas. El signo (-), significa que la puntuación ha
aumentado, puesto que al restar ANTES-DESPUÉS las
puntuaciones que han aumentado tienen diferencia negativa.
Una vez ordenados los datos, se suman los rangos de las
diferencias positivas, W+, y negativas, W-, y se elige el menor de
los dos. Los casos en los que la diferencia es cero se ignoran.

W+ = +23.5 W - = -67.5


• W+ = +23.5 y los negativos W- = -67.5.
• Como el valor W se considera el menor: 23.5.
• n = 15

El punto crítico para un nivel de significación (a=0.05) es W


= 25, como el valor obtenido es 23.5 y es menor, se rechaza
la hipótesis nula (Ho), se acepta la hipótesis alterna (Ha) , y
se concluye que hay diferencias estadísticamente
significativas entre las dos variables, consecuentemente, el
curso ha tenido influencia en las puntuaciones.
Ho Ha
En un experimento 8 individuos resolvieron una prueba en
condiciones normales y en condiciones de tensión. Bajo ambas
condiciones, se midió la presión sanguínea, en la siguiente tabla
se muestran los resultados:
Individuo Normal Tensión Diferencias Rango con signo

1 126 130 -4 -5

2 120 120 0
Ho: ỶN ≥ ỶT
3 117 118 -1 -1

4 115 125 -10 -7 Ha: ỶN< ỶT


5 118 120 -2 -2

6 118 121 -3 -3.5

7 128 125 3 3.5

8 125 130 -5 -6

¿Presentan los datos evidencia que indique mayor presión durante las
condiciones de presión?
∑W-= -24.5 ∑W+= 3.5

El punto crítico para un nivel de significación (a=0.05) es W = 4 como el valor obtenido es


3.5 y es menor, se rechaza la hipótesis nula y se concluye que la presión es mayor
durante las tensiones
El test de Kruskal-Wallis
Cuando se quiere comparar dos o más
muestras, suele utilizarse el análisis de
la varianza.
Igual que ocurre con otras pruebas
paramétricas, ANOVA precisa que
ciertas condiciones se cumplan
(distribución normal de los datos de la
población, homogeneidad de las
varianzas, independencia, etc.).
ANOVA es extremadamente robusta, especialmente cuando
todas las muestras tienen el mismo tamaño, en
ocasiones se puede dudar que se cumpla la hipótesis de
normalidad.
En estas circunstancias, la prueba de Kruskal-Wallis es un
substituto no paramétrico apropiado. Sin embargo,
Kruskal-Wallis supone que las muestras tengan
distribuciones similares y que sean independientes.
12 k R 2j
H 
N ( N  1) j 1 N j
 3( N  1)

N= Número total de datos R = Suma total de rangos por columna


Nj= Datos por columna
Ejemplo: Se ordenan los datos en forma
Se realiza un experimento creciente y se asignan rangos,
para probar la eficiencia de en caso de empates se
promedia el rango. Se suman
5 impresoras, personas
los rangos para cada máquina
calificadas operan cada (en rojo).
una de ellas durante igual
tiempo. En la siguiente HP 17.5 21 24 1 6.5 70

tabla se muestran el Canon 21 6.5 12 6.5 2.5 48.5

número de copias Epson 10 25 14 23 21 93

producidas por cada Le Max 2.5 11 9 14 4 40.5

máquina. Printer 14 16 19 17.5 6.5 73

HP 68 72 77 42 53 Se aplica la fórmula para el


Canon 72 53 63 53 48 cálculo del estadístico H
Epson 60 82 64 75 72
12  (70)2 (48.5)2 (93)2 (40.5)2 (73)2 
48 61 57 64 50
H        3(26)  6.44
Le Max (25)(26)  5 5 5 5 5 
Printer 64 65 70 68 53

Χ2gl = 4-1 , a = 0.5 = 7.8


La asociación de padres de familia de la primaria «Benito Juárez», convoca sucesivamente a tres
reuniones, en las que se abordaron temas relacionados con: el apoyo de la familia al estudio
(Tema A), el juego y el tiempo libre de los niños (Tema B), y la participación de los padres en la
escuela (Tema C). Si se considera la asistencia a cada una de las tres reuniones, ¿se puede
afirmar que los tres temas atrajeron de modo distinto a los padres de familia? (α = 0.05)
Ho: ỶA =ỶB = ỶC
Ha: Ỷa ≠ ỶB ≠ c

Tema A Tema B Tema C Tema A Tema B Tema C


3 (13) 2 (8) 1 (2) 3 (15.5) 2 (9.5) 1 (3.5
3 (14) 2 (9) 1 (3) 3 (15.5) 2 (9.5) 1 (3.5)
3 (15) 1 (1) 2 (12) 3 (15.5) 1 (3.5) 2 (9.5)
2 (7) 3 !18) 1 (4) 2 (9.5) 3(15.5) 1 (3.5)
3 (16) 2 (10) 1 (5) 3 (15.5) 2 (9.5) 1 (3.5)
3 (17) 2 (11) 1 (6) 3 (15.5) 2 (9.5) 1 (3.5)
R: 87 57 27
𝑯: 𝟏𝟐/𝟏𝟖𝒙𝟏𝟗(872/6+572/6+272/6) -3(19)=67.5363- 57 =10.5263 Χ2gl = 2, a = 0.5 = 5.0
¿Es posible concluir, con base en estos datos, que la población representada por estas
muestras difiere con respecto a las calificaciones de depresión de Zung? Sea a = 0.01.

También podría gustarte