Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MENDOZA DE AMAZONAS
FACULTAD CIENCIAS DE LA SALUD
BIOESTADÍSTICA
•DAMACEN HERNANDEZ,
Paola
AMAZONAS - PERÚ
2020-II
I. INTRODUCCIÓN
El uso de métodos no paramétricos puede ser necesario cuando los datos tienen una
clasificación pero no una interpretación numérica clara, como cuando se evalúan las
preferencias. En términos de niveles de medición, los métodos no paramétricos
resultan en datos “ordinales”.
II. CONTENIDO DEL TEMA
III. PRUEBAS NO PARAMÉTRICAS
También conocido como el chi cuadrado, nos sirve para comprobar, verificar y
corroborar las hipótesis planteadas referidas a las distribuciones de las frecuencias,
siendo estas las hipótesis nula ( h0), es la ayuda para evaluar las probabilidades de
mayor o igual que existe entre los datos y las frecuencias esperadas según la
hipótesis nula o se puede decir que el chi cuadrado nos sirve para poder ver las
pruebas contrastadas en las frecuencias esperadas con relación a la hipótesis nula.
La prueba de chi cuadrado consiste en sumar todas las diferencias entre las
frecuencias observadas de una variable y las frecuencias teóricas. El uso de las
pruebas de chi cuadrado es para ver la distribución observada a una teoría, en un
test con datos cualitativos y en la estimación del intervalo de confianza para una
desviación estándar de la población de una distribución normal de una desviación
estándar de la muestra.
Ejemplo:
Se realiza un estudio sobre el cáncer de piel en ancianos y su relación con el hábito de fumar.
Suponemos que hubo 15 casos de cáncer en un total de 35 fumadores y 10 casos de cáncer
entre un total de 50 no fumadores.
Si planteamos la Hipótesis nula de nuestro estudio sería que la proporción de cáncer de piel
en ancianos será la misma en los dos grupos, fumadores y no fumadores. Es decir, que la
incidencia de cáncer es la misma en los expuestos al tabaco que en los no expuestos.
La Hipótesis alternativa sería que las proporciones de los que desarrollan cáncer son distintas
entre fumadores y no fumadores.
Calculamos los valores esperados partiendo de la tabla anterior pero sólo con los valores
totales de las filas y las columnas (a estos valores totales se les llama en estadística
“marginales”). Se multiplica el total de la fila por el total de la columna y se divide por el
total de observaciones.
Como la proporción total de cáncer = 25/85 =29.4%, el número de cánceres esperados entre
los fumadores será igual a 0.294 x 35 =10,3. Obtenido este esperado y considerando fijos los
valores marginales, ya no queda libertad para cambiar más datos (esto es lo que se entiende
como tener 1 solo grado de libertad).
De manera que, pueden calcularse los otros 3 esperados mediante restas con el total de la
respectiva fila o columna:
Conclusión:
Como el valor calculado ji-cuadrado =5,16 está entre ji-cuadrado 1; 0.025= 5,02 y ji cuadrado
1; 0.01=6,63, podemos afirmar que la diferencia es estadísticamente significativa, tenemos
evidencias para rechazar la H0 ya que le corresponde un valor p < 0,05.
Podemos decir que existe una asociación estadísticamente significativa entre ser fumador y la
incidencia de cáncer de piel en ancianos (se puede afirmar que existen evidencias de un
mayor riesgo de cáncer de piel entre fumadores).
Considere un α=0,05.
Note usted que el tamaño de muestra es fijo (n=100) pero la distribución según las categorías
de ambas variables es aleatoria. Como se parte de una muestra y se clasifican los individuos
acorde a dos variables cualitativas se empleará la Ji-cuadrado de Independencia.
- Hipótesis:
H0: Hay independencia entre las variables hábito de fumar y bajo peso al nacer (la ocurrencia
de una variable no afecta la ocurrencia de la otra o también no hay asociación entre las
variables hábito de fumar y bajo peso al nacer)
H1: No hay independencia entre las variables hábito de fumar y bajo peso al nacer (la
ocurrencia de una variable modifica la ocurrencia de la otra o hay asociación entre las
variables hábito de fumar y bajo peso al nacer)
Vemos en la tabla titulada Resumen del procesamiento de los casos estudiados donde se
observa que el 100 % de los casos fueron válidos.
Vemos en la tabla titulada Tabla de contingencia Hábito de fumar * Bajo peso al nacer el
recuento de los casos que pertenecen a cada categoría de las dos variables de estudio.
La tabla titulada Pruebas de chi-cuadrado nos muestra el valor del estadígrafo Corrección por
continuidad ya que se trata de una tabla 2x2, cuyo valor fue de 15,042, con un grado de
libertad. El valor de p (Sig. asintótica (bilateral)) fue de 0,000 y como es menor de 0,05 y
como debajo de la tabla se aclara que “0 casillas (0,0%) tienen una frecuencia esperada
inferior a 5. La frecuencia mínima esperada es 20,00” entonces puede concluirse que con un
nivel de significación del 5% hay suficiente evidencia para plantear que las variables hábito
de fumar y bajo peso al nacer están asociadas (se rechaza la hipótesis nula de independencia
por tanto existe asociación entre las variables).
V. R- PEARSON
Debemos tener clara la diferencia entre relación, correlación o covariación entre dos variables
(= variación conjunta) y causalidad (también llamada pronóstico, predicción o regresión), ya
que son conceptos diferentes.
¿Cómo se interpreta?
Si el coeficiente es mayor que 0, la correlación es positiva (“A más, más, y a menos menos'').
En cambio, si es menor que 0 (negativo), la correlación es negativa (“A más, menos, y a
menos, más''). Finalmente, si el coeficiente es igual a 0, sólo podemos afirmar que no hay
relación lineal entre las variables, pero puede haber algún otro tipo de relación.
Consideraciones
Para representar las relaciones de diferentes variables que combinan linealmente, podemos
utilizar la llamada matriz de varianzas-covarianzas o la matriz de correlaciones; en la
diagonal de la primera nos encontraremos con valores de la varianza, y en la de la segunda
nos encontraremos con unos (la correlación de una variable consigo misma es perfecta, =1).
1. Varianza Asociada
2. Diferencias Individuales
Ventajas
· Cuando en el fenómeno estudiado las dos variables son cuantitativas se usa el coeficiente
de correlaciones de Pearson.
· Es llamado así en homenaje a Karl Pearson. Las dos variables son designadas por X e Y.
· El valor es independiente de cualquier unidad que se utiliza para medir las variables.
Desventajas
· Es necesario que las dos variables sean medidas a un nivel cuantitativo continuo.
Es una medida de asociación lineal que utiliza los rangos, números de orden, de cada
grupo de sujetos y compara dichos rangos. Este coeficiente es muy útil cuando el
número de pares de sujetos (n) que se desea asociar es pequeño (menor de 30). Aparte
de permitir conocer el grado de asociación entre ambas variables, con Rho de
Spearman es posible determinar la dependencia o independencia de dos variables
aleatorias
- En cada nivel, deberás comparar el valor de las dos variables, con este ejemplo
demostraremos su uso.
- Los resultados de 9 estudiantes en los cursos de Historia y Geografía se
muestran en la siguiente tabla:
a. Paso 1: Crear una tabla con los datos obtenidos
b. Paso 2: Comienza por clasificar los dos conjuntos de datos. La
clasificación de los datos puede lograrse asignando la clasificación “1”
al número más grande de la columna, “2” al segundo número más
grande y así sucesivamente. El valor más pequeño generalmente
obtendrá la calificación más baja. Este procedimiento se debe hacer
para ambos conjuntos de mediciones.
c. Paso 3: Agrega una tercera columna “d” a tu conjunto de datos, “d”
aquí denota la diferencia entre los rangos. Por ejemplo, si el rango de
Historia es de 3 y el rango de Geografía es 5, entonces la diferencia del
rango es 2.
d. Paso 4: En la cuarta columna cuadrar los valores de “d”.
35 3 30 5 2 4
23 5 33 3 2 4
47 1 45 2 1 1
17 6 23 6 0 0
10 7 8 8 1 1
43 2 49 1 1 1
9 8 12 7 1 1
6 9 4 9 0 0
28 4 31 4 0 0
12
6*12
1− 9(81−1)
72
1− 720
1 − 0, 1 = 0, 9
4. VENTAJAS Y DESVENTAJAS:
A. Ventajas:
➔ El coeficiente de Spearman no es paramétrico( es decir, es libre de
distribución probabilística).
➔ Permite medir la correlación o asociación entre dos variables cuando la
medición se realiza en una escala ordinal, o cuando no existe
distribución normal.
➔ Se calcula en base a una serie de rangos asignados
➔ Los supuestos son menos estrictos. Es robusto a la presencia de
outsiders (es decir permite ciertos desvíos del patrón normal).La
manifestación de una relación causa-efecto es posible sólo a través de
la comprensión de la relación natural que existe entre las variables y no
debe manifestarse sólo por la existencia de una fuerte correlación.
B. Desventajas:
➔ Es menos sensible que el coeficiente de pearson para los valores muy
lejanos de los esperado
➔ El coeficiente de correlación no debe utilizarse para comparar los
métodos que intentan decir el mismo evento.
VII. CONCLUSIÓN