Documentos de Académico
Documentos de Profesional
Documentos de Cultura
O tabla de doble entrada o tabla cruzada, análisis bi variado del análisis relacional:
Tiene 2 variables, por ejemplo: Fumar y Cáncer que son variables categóricas.
Da cáncer a aquellos que más fuman y como se demuestra esto es con la tabla de contingencia.
DEL PESO Y LA TALLA SE PUEDE CALCULAR EL INDICE DE MASA CORPORAL Y A PARTIR DE ESTE
VALOR SE CALCULA LOS VALORES U OBTENER EL ESTADO NUTRICIONAL DE LAS PERSONAS.
Luego se debe ir a transformar y la opción recodificar en distintas variables para hallar el ESTADO
NUTRICIONAL
Luego nos vamos a vista de variables para dar los valores como sigue:
1: Desnutrido
2: Eutrófico
3: Sobrepeso
4: Obesidad
5: Obesidad mórbida
Analizar, estadísticos descriptivos, tablas de contingencia, luego se asigna las variables a las filas
y columnas, se compara a través de las columnas por lo que es importante colocar en la
ubicación adecuada la variable en la columna y se expresa a través de los porcentajes, luego a
casillas y se selecciona en porcentaje columna, continuar, Estadístico se chequea el chi
cuadrado, continuar y aceptar. LAS FILAS SE UTILIZAN PARA HALLAR LAS FRECUENCIAS.
Al analizar las frecuencias, se puede definir que: ¿será que el género femenino tiene un bajo
rendimiento laboral? (62.3%), los datos tomados de esta tabla no son lo suficientemente
confiables, por lo que recurriremos a una prueba estadística que nos permita definir ello:
Para ello es importante definir el nivel de significancia o grado de error que estamos dispuestos
a aceptar como válida nuestra conclusión. Habitualmente este nivel de significancia o alfa (α) es
del 5% o 0.05, por lo que el valor arrojado está por debajo del 0.05, muy bajo que quiere decir
que estaos aceptando este error al aceptar la hipótesis y que estaríamos definiendo la asociación
entre el género y el rendimiento laboral.
Cuando se trata de dos variables (antes y después) en medio de ellos deberá haber 1 variable (si
hay una manipulación entonces se trata de un experimento, pero si se trata de un periodo de
observación en este caso se trata de un estudio operacional), por lo tanto el test de McNemar
sirve tanto para estudios observacionales y experimentales y a la vez deberá ser LONGITUDINAL
o por lo menos debe tener dos medidas.
1. Formulación de la hipótesis:
H0: Hipótesis nula o hipótesis de trabajo: (si es que no ha existido modificación)
H1: Hipótesis alterna o hipótesis del investigador: (qué quiere saber el investigador entre
el antes y el después, es que ha habido modificación)
2. Nivel de significancia: 5% ó 0.05
3. Estadístico de prueba: Test de McNemar
4. Estimación del p-valor:
5. Toma de decisión: SI p<0.05 entonces rechazamos la hipótesis nula.
Nos quedamos con la hipótesis del investigador.
Entonces vamos a Analizar, estadístico descriptivo, tablas cruzadas, en filas antes y en columnas
después, en estadísticos seleccionamos solo McNemar, continuar y en casillas seleccionamos en
porcentajes TOTAL, continuar y aceptar.
En la tabla podemos apreciar que hay personas que antes y después tienen depresión, pero
también hay que antes tenían depresión y después no o viceversa.
Test de probabilidad utilizado cuando las dos variables que participan en el análisis son fijas
(MARGINAL FIJAS), las distribuciones finales de estas 2 variables no se pueden modificar en este
caso son experimentales.
Analizar, Estadística descriptiva, tablas cruzadas, filas frejoles y columnas larvas y aceptar y se
tiene la tabla de contingencia, tenemos 18 frejoles de la variedad 1 y 16 variedad 2 y únicamente
20 larvas, además que los totales no deberán cambiar durante todo el estudio es decir que, si
tenemos 20 larvas, este 20 deberá ser hasta el final y así lo mismo es con los demás (a esto se
llama MARGINAL FIJO) lo único que puede cambiar son los valores del centro pero los totales
no.
A esto se llama Fisher exacto, y los valores deben ser menores a 35.
Nos vamos a analizar, estadística descriptiva, tablas cruzadas, estadística, seleccionamos chi
cuadrado y saldrá la tabla en donde podremos encontrar estadística exacta de Fisher y veremos
el p valor o significancia bilateral que este caso será: 1.00 por lo que no es menor que 0.05.
1. Formulación de la hipótesis:
H0: Hipótesis nula o hipótesis de trabajo: (que los dos grupos no son distintos, es decir
que son iguales, que son homogeneos)
H1: Hipótesis alterna o hipótesis del investigador: (qué quiere saber el investigador
piensa que hay diferencia a es diferente que b, o el grupo 1 es diferente que el 2)
2. Nivel de significancia: 5% ó 0.05
3. Estadístico de prueba: t de student para muestras independientes
4. Estimación del p-valor:
5. Toma de decisión: SI p<0.05 entonces rechazamos la hipótesis nula.
Nos quedamos con la hipótesis del investigador.
Analizar, comparar medias, t de student para muestras independientes, el peso en variables para
contrastar y el sexo en variables de agrupación.
En la tabla de resultado nos damos cuenta que la media es diferente entre varones y damas,
pero a nosotros lo que nos interesa saber si es significativa, por lo que nos vamos a la tabla de
prueba de t para muestras independientes, y en la columna t (valor del estadístico) se puede ver
el siguiente valor 2,431, pero actualmente este valor ya no nos sirve, lo que nos sirve es el P
VALOR (Significancia bilateral) que es la magnitud del error que nos da el siguiente valor 0,022,
por lo que P<0.05, entonces rechazamos la hipótesis nula y aceptamos la hipótesis del
investigador (de diferencias), entonces podremos decir que el peso de los RN mujeres es
diferente que el peso del RN varón.
Comparación entre 2 grupos numéricos y que pertenecen al mismo grupo, tenemos el peso de
mujeres embarazadas, y después de 3 meses después del parto, entonces de nuevo se vuelve a
pesar, por lo que podremos decir si hay INCREMENTO o DISMINUCIÓN entre este grupo, esto
sgnifica de una HIPÓTESIS DE UNA SOLA COLA,
1. Formulación de la hipótesis:
H0: Hipótesis nula o hipótesis de trabajo:
H1: Hipótesis alterna o hipótesis del investigador: Busca saber si hay diferencia
(incremento gracias al embarazo)
2. Nivel de significancia: 5% ó 0.05
3. Estadístico de prueba: t de student para muestras relacionadas
4. Estimación del p-valor:
5. Toma de decisión: SI p<0.05 entonces rechazamos la hipótesis nula.
Nos quedamos con la hipótesis del investigador.
La tabla resultante, comparamos las muestras y se ve que sí hay diferencia entre ambas por lo
que nos vamos a la tabla de muestras relacionadas y nos vamos a la columna t (estadístico t),
pero lo que más nos interesa es el P VALOR y tiene el siguiente VALOR 0,634, entonces
podremos decir que esta cifra está por encima del nivel de significancia (0.05), por lo que
aceptamos la hipótesis nula.
CORRELACION DE PEARSON
El índice de correlación es 0.979, pero la significancia (bilateral) es igual a 0.000 y es menor que
el nivel de significancia (0.05) por lo que rechazamos la hipótesis nula y aceptamos la hipótesis
del investigador.
Cuando queremos comparar 2 grupos y las variables a contrastar es una variable numérica
utilizamos la T de student para muestras independientes, pero que pasaría si lo grupos que
comparamos es más de 2 en este caso utilizamos el Análisis de la Varianza con un Factor o
Análisis de la Varianza de una Vía.
Con el ejemplo: Analizar, comparar medias, Anova de un factor, la variable que vamos a
contrastar será el PESO y el factor será Procedencia, OPCIONES se selecciona los DESCRIPTIVOS.
Aceptar.
En el resultado se puede ver las medias de los pesos por ciudades, y se ve en la tabla de ANOVA
y que varía de un lugar a otro.
La pregunta es:
1. Formulación de la hipótesis:
H0: Hipótesis nula o hipótesis de trabajo: HIPÓTESIS DE IGUALDAD.
H1: Hipótesis alterna o hipótesis del investigador: El investigador siempre busca
diferencias. HIPÓTESIS DE DIFERENCIAS.
2. Nivel de significancia: 5% o 0.05
3. Estadístico de prueba: Análisis de la varianza ANOVA
4. Estimación del p-valor:
5. Toma de decisión: SI p<0.05 entonces rechazamos la hipótesis nula.
Nos quedamos con la hipótesis del investigador.
Si P VALOR hubiera sido menor, entonces determinaríamos que existe diferencia entre ciudades,
pero la pregunta es determinar cuál es esa diferencia entre ciudades (cuál es la diferencia entre
Arequipa y Tacna, Arequipa y Puno, etc…), para ello necesitamos el cálculo de POST HOC
debemos irnos:
Analizar, comparar medias, Anova de un factor, Post Hoc y elegimos TUKEY, Continuar y Aceptar
y vemos la siguiente tabla:
Podemos ver que, en la columna de la Significancia Asintótica, ninguna de los resultados es
mayor de 0.05. y en la siguiente tabla podemos ver que
Se puede ver que solo aparece una columna (la 1), la cual nos indica que no existe diferencia ya
que se encuentran en la misma columna, pero si se hubiera visto la columna 2 se podría ver la
diferencia significativa entre la columna 2 y la columna 1.
También se puede ver la significancia entre los grupos y que en este caso es de 0.451. significa
también que no existe diferencia entre grupos.
En la Tabla Resumen del modelo podemos ver que en la columna R (R de Pearson) tenemos un
valor de 0.847 y el R cuadrado (columna) es de 0.718 por lo que, si sacamos un porcentaje,
estamos hablando de un 71.8% un valor muy alto para poder mencionar que: ¿es posible
construir un modelo de regresión a partir de estas 2 variables? (incluso el R cuadrado ajustado)
también arroja 70.8%. y la respuesta nos da ANOVA – Análisis de la Varianza (cuadro siguiente)
y al ver la Significancia (Sig) se puede ver que es de 0.000 y esta es menor a 0.05, por lo que SI
ES POSIBLE CONSTRUIR UN MODELO DE REGRESIÓN CON ESTAS 2 VARIABLES ANALIZADAS.
Por lo que la ecuación se da de la siguiente manera: 𝑌 = 𝑎 + 𝑏𝑋, por lo que deberemos de
reemplazar con los valores calculados en la tabla siguiente de coeficientes (a es la constante y
b es el coeficiente):
𝑌 = 5.728 + 0.582𝑋
Y si en esta tabla nos vamos a la columna (t – t de student) nos da la acertividad para la columna
de Significancia en donde podemos ver que ambos valores son menores que 0.05 por loq e tanto
la constante y el coeficiente para las horas de estudio a la semana, son significativos.
Cuando queremos comparar 2 grupos y éstos tienen distribución normal podemos construir los
diagramas de caja y bigotes en función al error típico de la media para los límites de la caja; si
la línea media de una caja se puede proyectas sobre el otro y éste se encuentra dentro de la caja
entonces hay igualdad, pero sí de ambos no están dentro, entonces son diferentes (PARA
AMBOS EXISTE SIMETRIA)
Qué pasa si dejamos de extender las cajas ASIMÉTRICAS para llevarlos a un estado SIMÉTRICO,
estaríamos en la posición como el caso anterior.
LLEGAMOS A LA CONCLUSIÓN DE QUE PARA COMPARAR DOS GRUPOS LAS CAJAS DEBEN SER
SIMÉTRICAS ES DECIR DEBE HABER UNA DISTRIBUCIÓN NORMAL.
¿Cómo demostramos que existe DISTRIBUCIÓN NORMAL en los grupos de las VARIABLES?
En el ejemplo: tenemos un conjunto de recién nacidos que pertenecen a 2 ciudades, por lo que
debemos determinar la NORMALIDAD DE UNA DISTRIBUCIÓN:
Analizar, Pruebas no paramétricas, Cuadro de diálogos antiguos, K-S de una muestra, luego
trasladamos la variable a analizar (PESO RN), dejar por defecto la elección y Aceptar.
1. Formulación de la hipótesis:
H0: Hipótesis nula o hipótesis de trabajo: HIPÓTESIS DE HOMOGENEIDAD.
H1: Hipótesis alterna o hipótesis del investigador: HIPÓTESIS DE DIFERENCIAS.
2. Nivel de significancia: 5% o 0.05
3. Estadístico de prueba: Prueba de normalidad KOLMOGOROV SMIRNOV
4. Estimación del p-valor:
5. Toma de decisión: SI p<0.05 entonces rechazamos la hipótesis nula.
Nos quedamos con la hipótesis del investigador.
Vemos que la Significancia Asintótica es menor que 0.05, por lo que rechazamos la nula y
aceptamos la alterna, es decir que hay DIFERENCIA ENTRE LA DISTRIBUCIÓN DE LA VARIABLE
ANALIZADA Y LA DISTRIBUCIÓN DE LA VARIABLE NORMAL, entonces no hay homogeneidad
entre ambas distribuciones.
Ahora analizaremos la normalidad para cada uno de los grupos, recordando que se tiene 2
grupos:
Datos, Segmentar Archivo, seleccionamos la opción de Organizar los resultados por Grupos y
seleccionamos procedencia y le damos Aceptar y veremos que en la MATRIZ DE DATOS HACE
MENCIÓN DE DIVIDO O SEMENTADO POR PROCEDENCIA;
Luego debemos medir para cada comparación la significancia Asintótica (bilateral) y comparar
con 0.05 por lo que en el primer gráfico no podemos rechazar la H. NULA en cambio en el
segundo gráfico SÍ RECHAZAMOS LA H. NULA.
Si ambas hubieran sido mayores a 0.05 entonces nos quedaríamos con la H. DE
HOMOGENEIDAD por lo que diríamos que LA DISTRIBUCIÓN DE LA VARIABLE ANALIZADA ES
IGUAL A LA DISTRIBUCION NORMAL Y POR TANTO DIREMOS QUE TIENEN NORMALIDAD Y SI
PODEMOS COMPARAR LOS 2 GRUPOS.
Cuando queremos comparar grupos tenemos que asegurarnos que la variabilidad de un grupo
sea igual o por lo menos no distinta del otro grupo, ¿para qué?, para poder proyectar la línea
media de un grupo sobre el otro y en el caso de que esta proyección esté en el interior de la caja
lleguemos a la conclusión de que son iguales, o si la proyección está por fuera de la caja
lleguemos a la conclusión de que son diferentes.
Qué pasaría si la longitud de una de las cajas no es igual a la del grupo comparativo, veamos en
este caso se ha encogido (CASO 1), es menor, y la proyección de la línea media del primer grupo
está por fuera de la caja del segundo, aunque la proyección del segundo sobre el primero se ha
mantenido ¿qué ha sucedido?, es que la segunda caja o variable está más concentrada y por eso
su caja es de menor magnitud.
Veamos un segundo caso (CASO 2), cuando la caja se extiende por incremento de variabilidad,
entonces la proyección de la línea media sobre el primer grupo está fuera de la caja, pero por
haber proyectado la caja del segundo la línea media del primero está en su interior, en ambos
casos (caso 1 y caso 2) no podemos decidir si hay diferencias o no ¿por qué?, porque la
variabilidad de los 2 grupos es distinta (el tamaño de las cajas son distintas) para el caso 1 y 2.
Quiere decir que cuando queremos comparar 2 grupos, los tamaños de las cajas deben ser
iguales y esto expresado en términos de variabilidad significa que las varianzas sean iguales,
sean homogéneas también llamada como homogeneidad de varianzas o también
homocedasticidad.
Por lo que, para comparar la varianza de estos 2 grupos, nos vamos al SPSS:
En la tabla resultante de la Prueba de muestras independientes se puede ver que existe una
columna de prueba de LEVENE de igualdad de varianzas y en su columna F (su estadístico) se ve
su valor de 0.03 y en el VALOR P (prueba de significancia) el valor de 0.955 y si nos vamos a la
siguiente descripción:
1. Formulación de la hipótesis:
H0: Hipótesis nula o hipótesis de trabajo: HIPÓTESIS DE HOMOGENEIDAD.
H1: Hipótesis alterna o hipótesis del investigador: HIPÓTESIS DE DIFERENCIAS.
2. Nivel de significancia: 5% o 0.05
3. Estadístico de prueba: HOMOGENEIDAD de varianzas Test de LEVENE
4. Estimación del p-valor:
5. Toma de decisión: SI p<0.05 entonces rechazamos la hipótesis nula.
Nos quedamos con la hipótesis del investigador.
Por valor quiere decir que aceptamos la hipótesis nula y rechazamos la del investigador, ya que
0.955>0.05 por lo que se interpretará que las varianzas de estos 2 grupos son iguales y no
distintas que sería la hipótesis del investigador.
En el siguiente gráfico, podemos ver que ésta se divide en 2 filas: una cuando se asume varianzas
iguales (Prueba Levene) y la otra cuando no se asumen varianzas iguales (t de student)