Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Unidad 4 y 5 (Versión Imprimible) - 2
Unidad 4 y 5 (Versión Imprimible) - 2
Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
APUNTES UNIDAD 4. Pruebas estadísticas no paramétricas
Unidad 4. Pruebas estadísticas no paramétricas
Las pruebas con los métodos no paramétricos no utilizan toda la información proporcionada por la
muestra, dando como resultado un procedimiento aparentemente menos eficiente que el
procedimiento paramétrico. Esta pérdida de eficiencia se muestra en la necesidad de una muestra
de mayor tamaño, con el objetivo de alcanzar una mayor potencia.
Por otra parte se espera que esta pérdida de eficiencia no sea tan grande, aunque la diferencia en
el tamaño de la muestra sea menor.
Las pruebas no paramétricas y algunas otras de interés que se analizarán en este último bloque son:
Prueba Ji cuadrada
4.1 Prueba de rangos señalados y pares de Wilcoxon para dos muestras pareadas.
Para poder adentrarnos en el tema de prueba de rango es necesario mencionar que dentro de las
pruebas no paramétricas, existen las pruebas de signos, que en resumen, para poder sumergirnos
en este subtema es necesario conocer.
La prueba del signo se utiliza para probar una hipótesis sobre la mediana 𝜇̅ de una distribución
continua, que no es más que un valor de la variable aleatoria X, tal que la probabilidad de que un
valor observado de X sea menor o igual, o mayor o igual, que la mediana de 0.5. Esto es, P(X ≤ 𝜇̅ ) =
P(X ≥ 𝜇̅ ) = 0.5.
Consideremos que una escuela de futbol, muestra un número de sus tiros a gol efectuados por dos
de sus equipos juveniles, los cuales denominaremos equipo 1 y 2, respectivamente. Supongamos
que se desea probar la hipótesis Ho, de que no hay diferencia entre los equipos juveniles aunque
Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
uno de ellos lleve en su entrenamiento programación neurolingüística y el otro no lo tenga y que
las diferencias observadas entre los equipos, en términos del número de tiros a gol erróneos, sólo
son el resultado del azar.
La siguiente tabla muestra los números de tiros a gol erróneos durante la observación en 10 días,
de acuerdo a su entrenamiento diario.
Día 1 2 3 4 5 6 7 8 9 1
0
Equipo 1 4 5 5 4 3 4 5 3 6 4
7 6 4 9 6 8 1 8 1 9
Equipo 2 7 4 4 6 5 5 4 4 5 5
1 3 5 4 0 5 2 6 3 7
La prueba no paramétrica de los signos consiste en tomar la diferencia entre el número de tiros a
gol erróneos de cada día y escribir únicamente el signo de la diferencia. Para el caso del día 1 se
tiene 47-71, que es negativo. De esta manera, se obtiene la siguiente secuencia de signos.
-++---+-+-
Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
13 1779.80 -220.2 -
14 2336.75 336.75 +
15 1765.30 -234.7 -
16 2053.50 53.5 +
17 2414.40 414.4 +
18 2200.50 200.5 +
19 2654.20 654.2 +
20 1753.70 -246.3 -
Tabla de datos de resistencia al esfuerzo.
Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
Cálculos: Los rangos con signos de la tabla de datos de resistencia son los siguientes:
w- = (7+8+9+10+12+14) = 60
Concluimos que como w = 60 y no es menor o igual al valor crítico W0.05=52, no es posible rechazar
la hipótesis nula de que la media (o mediana, puesto que la población es simétrica), de la resistencia
al esfuerzo es 2000 tg.
Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
Es una prueba para K muestras relacionadas porque los mismos sujetos son evaluados bajo
las mismas condiciones de tratamiento.
Para ello cuando se trabajan este tipo de datos, se puede hacer uso de una matriz de Datos,
la cual es un arreglo de datos binarios en tablas de doble entrada con n sujetos y K
condiciones de tratamiento.
La hipótesis empleada es:
Ho: P1=P2=P3=...=Pk
Dónde: H1 tiene algún Pi diferente
El estadístico de la Q de Cochran tiene una relación fuerte con la distribución Ji.cuadrado
con K-1 grados de libertad y la generalización de la prueba de McNemar, para esto,
necesitarás revisar en la unidad 5, lo relacionado con la Ji-cuadrada.
El estadístico Q de Cochran, se representa matemáticamente como:
Donde:
G= total de la i-ésima columna (condición experimental)
H= total de la j-ésima fila o hilera (sujeto)
Ejemplo de Aplicación
Se desean comparar tres métodos denominados (M1,M2 y M3) de diagnóstico para el stress
y para ello se tomaron al azar 14 personas y se determinó por cada método su positividad
(resultado uno) y no positividad (resultado cero):
Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
13 1 1 1 3 9
14 1 1 1 3 9
Gj 10 7 3 ∑ 𝐻𝑗 = 20 ∑ 𝐻𝑗2 = 46
Para nuestro ejemplo la decisión se basa en que Q=10,57 es mayor que el valor tabulado de
Ji-cuadrado = 9,21, por lo tanto, rechazamos Ho.
Podemos concluir que las respuestas no son todas iguales con los tres métodos.
El mejor método es el 1 tal que puede verificarse con una prueba posteriormente de mínima
diferencia significativa.
6 ∑ 𝐷2
𝑟𝑠 = 1 −
𝑁(𝑁 2 − 1)
Para D, el cual denota las diferencias entre los rangos de los valores correspondientes de X y Y, y
donde N es el número de pares de los valores (X, Y) en los datos (Spiegel & Stepphens, 2002)
Un Psicólogo desea conocer si el desarrollo mental de un niño está relacionado a la educación formal
de su madre. De esta manera, obtiene la calificación de desarrollo mental en la escala de Gesell de
ocho niños elegidos aleatoriamente y se informa del grado de escolaridad de las madres.
Se desea medir la correlación. Las calificaciones de las madres tienen datos cualitativos, por lo tanto
tienen una escala ordinal, por lo cual es posible ordenarlas en rangos
Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
Planteamiento de la hipótesis.
Hipótesis alterna (Ha). El desarrollo mental de los hijos es una variable dependiente de la
educación formal de la madre; por lo tanto, existe una correlación significativa.
Hipótesis nula (Ho). La asociación entre las variables de educación formal de la madre y el
desarrollo mental de los hijos no es significativa, ni hay correlación.
Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.
Las observaciones de cada variable se deben ordenar en rangos, así como obtener las diferencias
entre los rangos, efectuar la sumatoria y elevar ésta al cuadrado.
Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
Calculo de rs de Spearman.
El valor rs calculado se compara con los valores críticos de rs del coeficiente de correlación por rangos
de Spearman.
El valor crítico de rs con 7 grados de libertad, para una probabilidad de 0.05 del nivel de significancia
es 0.714, o sea, mayor que el calculado. Por lo tanto, éste tiene una probabilidad mayor que 0.05.
Decisión.
Como el valor de probabilidad de rs de 0.69 es mayor que 0.05, se acepta Ho y se rechaza Ha.
Interpretación.
El coeficiente de correlación de Spearman de 0.69 es menor que los valores críticos de la tabla, pues
a éstos corresponde la probabilidad de obtener esa magnitud, al nivel de confianza de 0.05 y 0.01,
para 0.714 y 0.893. Esto significa que para aceptar Ha, se requiere tener un valor igual o más alto
que 0.714. Por lo tanto se acepta Ho y se rechaza Ha.
Los estudios de investigaciones de situaciones de análisis se dividen en determinísticos y los que son
probabilísticos los cuales presentan determinadas características para su realización, es por ello que
es de suma importancia, ubicarlos, antes de empezar con su análisis.
Para los análisis determinísticos, siempre se conocen los valores de sus variables con las que se
desean trabajar.
Para los análisis probabilísticos, es al contrario, al anteriormente mencionado, sin embargo, esto
puede variar.
Los análisis anteriores dejan ver la utilidad de los modelos de probabilidad como un método el cual
puede ser de gran utilidad en algunos casos de estudio.
Los diversos experimentos que se llevan a cabo, presentan datos que pueden considerarse como el
resultado de una serie de ensayos. Un ensayo con solo dos resultados posibles se emplea tantas
veces como bloque básico de un experimento aleatorio, el cual es conocido como Ensayo de
Bernoulli, definido como un experimento aleatorio que tiene dos resultados posibles, denotados
por “éxito” o “fracaso”. La probabilidad de un éxito se denota por p. (Montgomery & Runger, 1996).
Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
La representación del espacio muestral de Bernoulli está representado por {éxito, fracaso}.
Para el trabajo con los ensayos se necesita suponer que los experimentos aleatorios son
independientes, implicando que el resultado de uno de los ensayos no tiene ningún efecto sobre el
resultado que obtenga en cualquier otro ensayo.
Montgomery informa que: Un experimento aleatorio consiste de n ensayos repetidos, tales que:
Y a este se le conoce como experimento binomial o prueba binomial por algunos autores.
La variable aleatoria X que es igual al número de ensayos, donde el resultado de un éxito, tiene una
distribución binomial con parámetros p y n= 1, 2, … y la notación se representa como:
https://www.youtube.com/watch?v=PXx4pUiPIhQ
La distribución ji-cuadrada es una de las distribuciones de muestreo con mayor utilidad, la cual está
definida en términos de variables aleatorias normales.
Z1, Z2, …, Zk, son variables aleatorias distribuidas normal e independientes, con media µ = 0 y varianza
2 = 1, quedando, la variable aleatoria, como:
X = 𝑍 21 + 𝑍 22 + ⋯ + 𝑍 𝑘2
Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
La cual presenta una función de densidad de probabilidad como:
1 𝑘⁄ )−1 −𝑥⁄
F(x)= 𝑘 𝑘
𝑥( 2 𝑒 2, para x>0
2 ⁄2 ( )
2
Y se dice que se sigue una distribución ji-cuadrada con k grados de libertad, lo que se abrevia como
X𝑘2.
La prueba estadística de ji-cuadrada (para algunos autores también conocida como chi) proporciona
una media de la discrepancia existente entre la frecuencia observada y la frecuencia esperada
(Spiegel & Stephens, 2002)
Recordemos que como en los métodos anteriores, siempre la eficacia de la prueba dependerá del
tamaño de la muestra, pues con un grado de libertad, si hay dos subclases, algunos autores
mencionan que la prueba es muy dura, hay que hacer hincapié en cuanto a la importancia de dos o
más categorías en cuanto al resultado favorable de la fórmula representada como:
Donde:
fo = frecuencia observada.
fe = frecuencia esperada.
Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
Para el uso de esta prueba es necesario seguir los siguientes pasos.
2. Calcular los valores teóricos esperados para el modelo experimental o tipo de distribución
muestral: normal, binomial y de Poisson.
3. Calcular las diferencias de las frecuencias observadas en el experimento con respecto a las
frecuencias esperadas.
4. Elevar al cuadrado las diferencias y dividirlas entre los valores esperados de cada categoría.
6. Calcular los grados de libertad (gl) en función del número de categorías [K]: gl = K - 1.
Un psicólogo quiere comparar si hay diferencias en la cantidad de cigarros fumados por causa del
estrés en personas que trabajan.
Elección de la prueba:
Planteamiento de la hipótesis.
Hipótesis alterna (Ha). Habrá diferencia significativa entre la cantidad de cigarros fumados
por causa del estrés en personas que trabajan.
Hipótesis nula (Ho). No Habrá diferencia significativa entre la cantidad de cigarros fumados
por causa del estrés en personas que trabajan.
Nivel de significación:
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.
Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
Aplicación de la prueba estadística.
El cálculo de la frecuencia esperada se efectúa en virtud de que para una hipótesis nula, a todas las
casillas corresponde un valor igual, por lo tanto:
fo = 18
fe = 6
gl = 3 + 1 = 2
a = 0.05
El valor calculado de X2 se compara con los valores críticos de la tabla de valores críticos de X2. Se
puede observar que para una probabilidad de 0.05 corresponde la cifra de 5.99; por lo tanto, el
estadístico ji cuadrada de 4.3 tiene una probabilidad mayor que 0.05.
Decisión.
En virtud de que la probabilidad obtenida al calcular el valor de que X2 está dentro de la región de
rechazo, se acepta Ho y se rechaza Ha. X2c ³ X2t se rechaza Ho
4.3 < 5.99 se acepta Ho y no hay diferencias significativas entre el consumo de cigarros por causa
del estrés.
Interpretación.
El consumo de cigarros por causa del estrés se puede considerar como efecto del azar.
Para poder determinar si es viable el uso de esta prueba estadística es, tenemos que analizar si se
tienen observaciones de una investigación, primeramente que corresponden a muestras
independientes y que las mediciones obtenidas estén en escala nominal, entonces la prueba de ji
Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
cuadrada es el procedimiento de elección para el contraste de hipótesis. Sabemos que esta prueba
estadística se emplea para el análisis de dos o más grupos y por supuesto de dos o más variables.
Como en todo estudio la exactitud de la prueba depende de la medida que el tamaño de la muestra
tenga y que el valor de probabilidad de error para aceptar hipótesis alternas Ha sea cercano a 1. Es
importante advertir que para esta prueba el número de la muestra, cuando es menor que 20, se
pierde eficacia. En estas condiciones, es conveniente no aplicar la prueba de ji cuadrada, pero
existen alternativas.
En seguida mostramos algunas sugerencias para la elección de la prueba correcta, mostrando que
estas dos alternativas propuestas aumentan la eficacia con muestras de tamaño pequeño para así
evitar cometer el error del tipo I.
b. Con grupos múltiples, pero con frecuencias pequeñas, menores que cinco, se recomienda
usar la prueba de ji cuadrada de proporciones.
Donde:
fo = frecuencia observada.
fe = frecuencia esperada.
La mejor forma de llevar a cabo esta prueba, será mediante los siguientes pasos:
3. Calcular las diferencias entre los valores observados con respecto a los teóricos de cada
casilla.
7. El valor de X2 se compara con los valores críticos de ji cuadrada de la tabla de valores críticos
de X2 y de acuerdo con los grados de libertad, y se determina la probabilidad.
Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
Realicemos un ejemplo, para aclarar la teoría:
Sigamos un poco con el mismo ejemplo del subtema anterior y compararemos si existe un factor de
género que influya en la cantidad de cigarros fumados por causa del estrés en personas que
trabajan.
El modelo experimental tiene dos muestras independientes, por lo tanto elegimos usar esta prueba
estadística.
Planteamiento de la hipótesis.
Hipótesis alterna (Ha). Habrá diferencia significativa entre la cantidad de cigarros fumados
por causa del estrés en hombres y mujeres que trabajan.
Hipótesis nula (Ho). No Habrá diferencia significativa entre la cantidad de cigarros fumados
por causa del estrés en hombres y mujeres que trabajan.
Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.
Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
Aplicación de la prueba estadística.
gl = (K - 1) (H - 1) = (3 - 1) (2 - 1) = 2
El valor 3.15 con 2 grados de libertad se compara con los valores críticos de ji cuadrada; por lo que
se puede analizar que en la cifra 5.99 corresponde la probabilidad de 0.05, lo cual significa que el
estadístico calculado tiene una probabilidad mayor que 0.05.
Decisión.
En razón de que el valor de ji cuadrada de 3.15 tiene una probabilidad mayor que 0.05, cae en la
zona de rechazo. Por tanto se acepta Ho y se rechaza Ha. X2c < X2t se rechaza Ho
3.15 > 5.99 se rechaza Ho y mostrando que si hay diferencias significativas entre el consumo de
cigarros por causa del estrés entre hombres y mujeres que trabajan.
Interpretación.
El consumo de cigarros por causa del estrés entre hombres y mujeres que trabajan, se debe a
factores del azar.
Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.